WAAS : Whisper as a Service - GUI et API pour OpenAI Whisper

WAAS

3.5 | 261 | 0
Type:
Projets Open Source
Dernière mise à jour:
2025/10/14
Description:
WAAS (Whisper as a Service) est une GUI et une API open source pour Whisper d'OpenAI, permettant une transcription audio et vidéo facile avec des notifications par e-mail et un éditeur local basé sur navigateur.
Partager:
parole au texte
transcription audio
transcription vidéo
Whisper API
OpenAI

Vue d'ensemble de WAAS

WAAS : Whisper as a Service - GUI et API pour OpenAI Whisper

WAAS (Whisper as a Service) est un projet open-source qui fournit une GUI et une API pour Whisper d'OpenAI, rendant la transcription audio et vidéo plus accessible et conviviale. Il offre à la fois une interface utilisateur graphique (GUI) pour faciliter le téléchargement et la transcription de fichiers, et une API pour un accès programmatique.

Qu'est-ce que WAAS ?

WAAS fournit une interface pour télécharger et transcrire des fichiers audio ou vidéo. Après la transcription, les utilisateurs reçoivent un e-mail avec des liens de téléchargement pour la transcription dans différents formats, notamment Jojo-file, SRT ou texte brut. Une caractéristique clé est l'éditeur local basé sur navigateur pour corriger les erreurs de transcription.

Principales fonctionnalités

  • GUI pour le téléchargement et la transcription: Interface simple pour télécharger des fichiers audio et vidéo.
  • Notifications par e-mail: Recevez des notifications par e-mail avec des liens de téléchargement après la transcription.
  • Formats de sortie multiples: Téléchargez les transcriptions aux formats Jojo-file, SRT ou texte brut.
  • Éditeur local basé sur navigateur: Corrigez les erreurs de transcription directement dans le navigateur.
  • Accès API: Accès programmatique aux services de transcription via l'API.

Comment fonctionne WAAS ?

WAAS permet aux utilisateurs de télécharger des fichiers audio ou vidéo via une GUI (nommée Jojo) ou via une API. Le fichier téléchargé est ensuite traité à l'aide du modèle Whisper d'OpenAI pour la transcription. Une fois la transcription terminée, l'utilisateur reçoit un e-mail contenant des liens pour télécharger la transcription dans différents formats. L'éditeur basé sur navigateur permet aux utilisateurs d'affiner et de corriger les erreurs dans la transcription avant d'enregistrer le résultat final.

Documentation de l'API

L'API WAAS fournit plusieurs points de terminaison pour la transcription et les tâches connexes :

  • POST /v1/transcribe: Ajoute une nouvelle tâche de transcription à la file d'attente.
    • Paramètres requis : email_callback ou webhook_id.
    • Paramètres facultatifs : language, model, task, filename.
    • Corps : Données audio brutes.
  • OPTIONS /v1/transcribe: Récupère les options disponibles pour la route de transcription.
  • POST /v1/detect: Détecte la langue du fichier audio.
    • Paramètre facultatif : model.
    • Corps : Données audio brutes.
  • OPTIONS /v1/detect: Récupère les options disponibles pour la route de détection.
  • GET /v1/download/<job_id>: Récupère la transcription terminée dans le format de sortie demandé.
    • Paramètre facultatif : output (json, timecode_txt, txt, vtt, srt).
  • OPTIONS /v1/download/<job_id>: Récupère les options disponibles pour la route de téléchargement.
  • GET /v1/jobs/<job_id>: Récupère l'état et les métadonnées de la tâche spécifiée.
  • GET /v1/queue: Récupère la longueur actuelle de la file d'attente.

Intégration de Webhooks

WAAS prend en charge les notifications de webhook. Lors d'une transcription réussie ou échouée, une requête POST est envoyée à l'URL de webhook configurée avec une charge utile JSON et un en-tête X-WAAS-Signature pour la vérification du contenu.

À qui s'adresse WAAS ?

  • Aux chercheurs qui ont besoin de transcrire des interviews ou des conférences.
  • Aux journalistes travaillant avec du contenu audio ou vidéo.
  • Aux développeurs intégrant des services de transcription dans leurs applications.
  • À toute personne ayant besoin de transcrire rapidement et précisément des fichiers audio ou vidéo.

Installation

Pour installer et exécuter WAAS, suivez ces étapes :

  1. Clonez le référentiel.
  2. Créez un environnement virtuel.
  3. Installez les packages Python requis à l'aide de pip install -r requirements.txt.
  4. Configurez les variables d'environnement telles que BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD et EMAIL_SENDER_HOST.
  5. Exécutez la configuration à l'aide de Docker Compose.

Exécution avec Docker Compose

  1. Créez un fichier .envrc avec les variables d'environnement nécessaires.
  2. Ajoutez un fichier allowed_webhooks.json (si vous utilisez des webhooks) avec des URL et des jetons de webhook valides.
  3. Exécutez docker-compose --env-file .envrc up.

Utilisation de NVIDIA CUDA

Pour activer l'accélération GPU avec NVIDIA CUDA :

  1. Installez NVIDIA Docker.
  2. Modifiez le fichier docker-compose.yml pour utiliser Dockerfile.gpu et décommentez la réservation de périphérique.
  3. Exécutez docker-compose --env-file .envrc up.

Pourquoi choisir WAAS ?

WAAS offre une interface conviviale et une API pour exploiter le modèle Whisper d'OpenAI. Ses fonctionnalités telles que les notifications par e-mail, les multiples formats de sortie et l'édition locale basée sur navigateur en font une solution pratique et efficace pour les besoins de transcription audio et vidéo. La flexibilité de l'exécuter localement ou de l'intégrer dans des systèmes existants via l'API en fait un outil polyvalent pour divers cas d'utilisation.

En conclusion, WAAS est un outil précieux pour quiconque cherche à transcrire rapidement et précisément du contenu audio ou vidéo. Sa nature open-source et sa facilité d'utilisation en font un excellent choix pour une utilisation personnelle et professionnelle.

Meilleurs outils alternatifs à "WAAS"

WhisperAPI
Image non disponible
152 0

WhisperAPI offre une API de transcription audio et vidéo rapide et précise alimentée par OpenAI Whisper. Obtenez 5 transcriptions gratuites par jour. Prend en charge plusieurs formats, des limites généreuses et une approche axée sur la confidentialité.

transcription audio
Speech Studio
Image non disponible
463 0

Azure AI Speech Studio permet aux développeurs d'utiliser des outils de conversion vocale en texte, texte en voix et traduction. Explorez des fonctionnalités comme des modèles personnalisés, des avatars vocaux et une transcription en temps réel pour améliorer l'accessibilité et l'engagement des applications.

transcription vocale
synthèse vocale
Whisper API
Image non disponible
364 0

Whisper API : API de transcription audio abordable alimentée par OpenAI. Intégration facile, détection des locuteurs, prise en charge de plus de 100 langues. Essai gratuit disponible !

API de transcription audio
WhisperUI
Image non disponible
519 0

WhisperUI fournit une conversion parole en texte abordable utilisant OpenAI Whisper. Convertissez facilement des fichiers audio aux formats texte et SRT. Démarrez avec un compte gratuit !

transcription audio
superwhisper
Image non disponible
637 0

Superwhisper est une application de synthèse vocale alimentée par l’IA pour macOS et iPhone, permettant une saisie plus rapide et une intégration transparente avec n’importe quelle application. Transcrivez l’audio et la vidéo, traduisez des langues et augmentez votre productivité.

transcription vocale
parole en texte
Neurond AI Voice Model Implementation
Image non disponible
350 0

Améliorez la communication avec l'implémentation du modèle vocal de Neurond AI en utilisant des modèles de texte-parole et de parole-texte de haute qualité pour une interaction homme-machine précise et naturelle.

texte vers parole
parole vers texte
AIverse
Image non disponible
98 0

AIverse est une plateforme tout-en-un offrant l'accès à des milliers de modèles IA pour la génération d'images/vidéos, LLMs, texte-parole, création musicale et plus. Utilisation illimitée pour 20 $/mois.

amélioration d'images
Lemonfox.ai Speech-To-Text API
Image non disponible
235 0

L'API de synthèse vocale de Lemonfox.ai transcrit les fichiers audio rapidement et à moindre coût. Elle prend en charge plus de 100 langues, la reconnaissance des locuteurs et offre une grande précision avec un traitement sécurisé des données. Essayez-la gratuitement pendant un mois !

voix à texte
transcription
Yescribe.ai
Image non disponible
448 0

Yescribe.ai est un service de transcription alimenté par l'IA qui convertit l'audio et la vidéo en texte avec une précision de 99,9 %, prenant en charge plus de 98 langues. Il offre des solutions de transcription rapides, sécurisées et abordables pour divers secteurs.

transcription audio
Transcript LOL
Image non disponible
429 0

Transcript LOL fournit une transcription audio et vidéo basée sur l'IA avec une grande précision, la reconnaissance des locuteurs et des minutes illimitées. Parfait pour les créateurs de contenu, les chercheurs et les entreprises.

transcription IA
parole en texte
TurboScribe
Image non disponible
478 0

TurboScribe propose une transcription illimitée d'audio et de vidéo alimentée par l'IA, avec 99,8 % de précision dans plus de 98 langues. Transcrivez des fichiers en quelques secondes, générez des sous-titres et bénéficiez de la reconnaissance des locuteurs—commencez avec 3 transcriptions gratuites par jour.

transcription audio
TranscriptionPlus
Image non disponible
514 0

TranscriptionPlus offre une transcription rapide et précise basée sur l'IA avec une précision allant jusqu'à 99 %. Transcrivez des fichiers audio et vidéo sans effort grâce à l'identification des intervenants, à la génération de résumés et à l'extraction de sujets.

transcription audio
parole en texte
MP4 to Text Converter
Image non disponible
477 0

Convertisseur gratuit en ligne de MP4 en texte. Transcrivez des fichiers vidéo MP4 en texte avec une grande précision grâce à l'IA. Aucune inscription n'est requise, prend en charge plusieurs langues. Parfait pour les réunions, les podcasts et la réutilisation de contenu.

transcription vidéo
Verba AI
Image non disponible
437 0

Convertissez l'audio en texte instantanément avec Verba AI. Transcription IA gratuite, résumés automatiques et outils IA conviviaux. Générez des quiz interactifs à partir de transcriptions.

transcription audio
parole au texte