WAAS : Whisper as a Service - GUI et API pour OpenAI Whisper

WAAS

3.5 | 70 | 0
Type:
Projets Open Source
Dernière mise à jour:
2025/10/14
Description:
WAAS (Whisper as a Service) est une GUI et une API open source pour Whisper d'OpenAI, permettant une transcription audio et vidéo facile avec des notifications par e-mail et un éditeur local basé sur navigateur.
Partager:
parole au texte
transcription audio
transcription vidéo
Whisper API
OpenAI

Vue d'ensemble de WAAS

WAAS : Whisper as a Service - GUI et API pour OpenAI Whisper

WAAS (Whisper as a Service) est un projet open-source qui fournit une GUI et une API pour Whisper d'OpenAI, rendant la transcription audio et vidéo plus accessible et conviviale. Il offre à la fois une interface utilisateur graphique (GUI) pour faciliter le téléchargement et la transcription de fichiers, et une API pour un accès programmatique.

Qu'est-ce que WAAS ?

WAAS fournit une interface pour télécharger et transcrire des fichiers audio ou vidéo. Après la transcription, les utilisateurs reçoivent un e-mail avec des liens de téléchargement pour la transcription dans différents formats, notamment Jojo-file, SRT ou texte brut. Une caractéristique clé est l'éditeur local basé sur navigateur pour corriger les erreurs de transcription.

Principales fonctionnalités

  • GUI pour le téléchargement et la transcription: Interface simple pour télécharger des fichiers audio et vidéo.
  • Notifications par e-mail: Recevez des notifications par e-mail avec des liens de téléchargement après la transcription.
  • Formats de sortie multiples: Téléchargez les transcriptions aux formats Jojo-file, SRT ou texte brut.
  • Éditeur local basé sur navigateur: Corrigez les erreurs de transcription directement dans le navigateur.
  • Accès API: Accès programmatique aux services de transcription via l'API.

Comment fonctionne WAAS ?

WAAS permet aux utilisateurs de télécharger des fichiers audio ou vidéo via une GUI (nommée Jojo) ou via une API. Le fichier téléchargé est ensuite traité à l'aide du modèle Whisper d'OpenAI pour la transcription. Une fois la transcription terminée, l'utilisateur reçoit un e-mail contenant des liens pour télécharger la transcription dans différents formats. L'éditeur basé sur navigateur permet aux utilisateurs d'affiner et de corriger les erreurs dans la transcription avant d'enregistrer le résultat final.

Documentation de l'API

L'API WAAS fournit plusieurs points de terminaison pour la transcription et les tâches connexes :

  • POST /v1/transcribe: Ajoute une nouvelle tâche de transcription à la file d'attente.
    • Paramètres requis : email_callback ou webhook_id.
    • Paramètres facultatifs : language, model, task, filename.
    • Corps : Données audio brutes.
  • OPTIONS /v1/transcribe: Récupère les options disponibles pour la route de transcription.
  • POST /v1/detect: Détecte la langue du fichier audio.
    • Paramètre facultatif : model.
    • Corps : Données audio brutes.
  • OPTIONS /v1/detect: Récupère les options disponibles pour la route de détection.
  • GET /v1/download/<job_id>: Récupère la transcription terminée dans le format de sortie demandé.
    • Paramètre facultatif : output (json, timecode_txt, txt, vtt, srt).
  • OPTIONS /v1/download/<job_id>: Récupère les options disponibles pour la route de téléchargement.
  • GET /v1/jobs/<job_id>: Récupère l'état et les métadonnées de la tâche spécifiée.
  • GET /v1/queue: Récupère la longueur actuelle de la file d'attente.

Intégration de Webhooks

WAAS prend en charge les notifications de webhook. Lors d'une transcription réussie ou échouée, une requête POST est envoyée à l'URL de webhook configurée avec une charge utile JSON et un en-tête X-WAAS-Signature pour la vérification du contenu.

À qui s'adresse WAAS ?

  • Aux chercheurs qui ont besoin de transcrire des interviews ou des conférences.
  • Aux journalistes travaillant avec du contenu audio ou vidéo.
  • Aux développeurs intégrant des services de transcription dans leurs applications.
  • À toute personne ayant besoin de transcrire rapidement et précisément des fichiers audio ou vidéo.

Installation

Pour installer et exécuter WAAS, suivez ces étapes :

  1. Clonez le référentiel.
  2. Créez un environnement virtuel.
  3. Installez les packages Python requis à l'aide de pip install -r requirements.txt.
  4. Configurez les variables d'environnement telles que BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD et EMAIL_SENDER_HOST.
  5. Exécutez la configuration à l'aide de Docker Compose.

Exécution avec Docker Compose

  1. Créez un fichier .envrc avec les variables d'environnement nécessaires.
  2. Ajoutez un fichier allowed_webhooks.json (si vous utilisez des webhooks) avec des URL et des jetons de webhook valides.
  3. Exécutez docker-compose --env-file .envrc up.

Utilisation de NVIDIA CUDA

Pour activer l'accélération GPU avec NVIDIA CUDA :

  1. Installez NVIDIA Docker.
  2. Modifiez le fichier docker-compose.yml pour utiliser Dockerfile.gpu et décommentez la réservation de périphérique.
  3. Exécutez docker-compose --env-file .envrc up.

Pourquoi choisir WAAS ?

WAAS offre une interface conviviale et une API pour exploiter le modèle Whisper d'OpenAI. Ses fonctionnalités telles que les notifications par e-mail, les multiples formats de sortie et l'édition locale basée sur navigateur en font une solution pratique et efficace pour les besoins de transcription audio et vidéo. La flexibilité de l'exécuter localement ou de l'intégrer dans des systèmes existants via l'API en fait un outil polyvalent pour divers cas d'utilisation.

En conclusion, WAAS est un outil précieux pour quiconque cherche à transcrire rapidement et précisément du contenu audio ou vidéo. Sa nature open-source et sa facilité d'utilisation en font un excellent choix pour une utilisation personnelle et professionnelle.

Meilleurs outils alternatifs à "WAAS"

Ebby
Image non disponible
64 0

Ebby est un outil de transcription alimenté par l'IA qui convertit l'audio et la vidéo en texte rapidement et en toute sécurité. Il prend en charge plus de 100 langues, offre un éditeur riche en fonctionnalités et permet un partage et une collaboration faciles. Idéal pour les professionnels ayant besoin de transcriptions rapides et précises.

transcription audio
Neurond AI Voice Model Implementation
Image non disponible
92 0

Améliorez la communication avec l'implémentation du modèle vocal de Neurond AI en utilisant des modèles de texte-parole et de parole-texte de haute qualité pour une interaction homme-machine précise et naturelle.

texte vers parole
parole vers texte
Transcript LOL
Image non disponible
156 0

Transcript LOL fournit une transcription audio et vidéo basée sur l'IA avec une grande précision, la reconnaissance des locuteurs et des minutes illimitées. Parfait pour les créateurs de contenu, les chercheurs et les entreprises.

transcription IA
parole en texte
Verba AI
Image non disponible
151 0

Convertissez l'audio en texte instantanément avec Verba AI. Transcription IA gratuite, résumés automatiques et outils IA conviviaux. Générez des quiz interactifs à partir de transcriptions.

transcription audio
parole au texte
TurboScribe
Image non disponible
162 0

TurboScribe propose une transcription illimitée d'audio et de vidéo alimentée par l'IA, avec 99,8 % de précision dans plus de 98 langues. Transcrivez des fichiers en quelques secondes, générez des sous-titres et bénéficiez de la reconnaissance des locuteurs—commencez avec 3 transcriptions gratuites par jour.

transcription audio
Speech Studio
Image non disponible
181 0

Azure AI Speech Studio permet aux développeurs d'utiliser des outils de conversion vocale en texte, texte en voix et traduction. Explorez des fonctionnalités comme des modèles personnalisés, des avatars vocaux et une transcription en temps réel pour améliorer l'accessibilité et l'engagement des applications.

transcription vocale
synthèse vocale
Whisper API
Image non disponible
148 0

Whisper API : API de transcription audio abordable alimentée par OpenAI. Intégration facile, détection des locuteurs, prise en charge de plus de 100 langues. Essai gratuit disponible !

API de transcription audio
MP4 to Text Converter
Image non disponible
193 0

Convertisseur gratuit en ligne de MP4 en texte. Transcrivez des fichiers vidéo MP4 en texte avec une grande précision grâce à l'IA. Aucune inscription n'est requise, prend en charge plusieurs langues. Parfait pour les réunions, les podcasts et la réutilisation de contenu.

transcription vidéo
superwhisper
Image non disponible
382 0

Superwhisper est une application de synthèse vocale alimentée par l’IA pour macOS et iPhone, permettant une saisie plus rapide et une intégration transparente avec n’importe quelle application. Transcrivez l’audio et la vidéo, traduisez des langues et augmentez votre productivité.

transcription vocale
parole en texte
TranscriptionPlus
Image non disponible
328 0

TranscriptionPlus offre une transcription rapide et précise basée sur l'IA avec une précision allant jusqu'à 99 %. Transcrivez des fichiers audio et vidéo sans effort grâce à l'identification des intervenants, à la génération de résumés et à l'extraction de sujets.

transcription audio
parole en texte
TurboTranscript
Image non disponible
297 0

TurboTranscript transcrit avec précision l'audio et la vidéo en texte dans plus de 130 langues. Générez des transcriptions par locuteur, des sous-titres et exportez au format PDF/SRT. Rapide, sécurisé et approuvé par les professionnels.

transcription audio
Transcri
Image non disponible
332 0

Transcri est un logiciel de transcription alimenté par l'IA pour convertir l'audio en texte et générer des sous-titres pour vos vidéos. Prend en charge plus de 50 langues. Commencez gratuitement !

transcription audio
Videotowords.ai
Image non disponible
284 0

Videotowords AI est le meilleur outil de conversion parole-texte basé sur l'IA qui transcrit avec précision l'audio et la vidéo en texte en quelques secondes. Prend en charge plus de 98 langues, parfait pour les créateurs de contenu, les journalistes et les étudiants.

parole en texte
transcription audio
WhisperUI
Image non disponible
330 0

WhisperUI fournit une conversion parole en texte abordable utilisant OpenAI Whisper. Convertissez facilement des fichiers audio aux formats texte et SRT. Démarrez avec un compte gratuit !

transcription audio