WAAS
Vue d'ensemble de WAAS
WAAS : Whisper as a Service - GUI et API pour OpenAI Whisper
WAAS (Whisper as a Service) est un projet open-source qui fournit une GUI et une API pour Whisper d'OpenAI, rendant la transcription audio et vidéo plus accessible et conviviale. Il offre à la fois une interface utilisateur graphique (GUI) pour faciliter le téléchargement et la transcription de fichiers, et une API pour un accès programmatique.
Qu'est-ce que WAAS ?
WAAS fournit une interface pour télécharger et transcrire des fichiers audio ou vidéo. Après la transcription, les utilisateurs reçoivent un e-mail avec des liens de téléchargement pour la transcription dans différents formats, notamment Jojo-file, SRT ou texte brut. Une caractéristique clé est l'éditeur local basé sur navigateur pour corriger les erreurs de transcription.
Principales fonctionnalités
- GUI pour le téléchargement et la transcription: Interface simple pour télécharger des fichiers audio et vidéo.
- Notifications par e-mail: Recevez des notifications par e-mail avec des liens de téléchargement après la transcription.
- Formats de sortie multiples: Téléchargez les transcriptions aux formats Jojo-file, SRT ou texte brut.
- Éditeur local basé sur navigateur: Corrigez les erreurs de transcription directement dans le navigateur.
- Accès API: Accès programmatique aux services de transcription via l'API.
Comment fonctionne WAAS ?
WAAS permet aux utilisateurs de télécharger des fichiers audio ou vidéo via une GUI (nommée Jojo) ou via une API. Le fichier téléchargé est ensuite traité à l'aide du modèle Whisper d'OpenAI pour la transcription. Une fois la transcription terminée, l'utilisateur reçoit un e-mail contenant des liens pour télécharger la transcription dans différents formats. L'éditeur basé sur navigateur permet aux utilisateurs d'affiner et de corriger les erreurs dans la transcription avant d'enregistrer le résultat final.
Documentation de l'API
L'API WAAS fournit plusieurs points de terminaison pour la transcription et les tâches connexes :
- POST /v1/transcribe: Ajoute une nouvelle tâche de transcription à la file d'attente.
- Paramètres requis :
email_callbackouwebhook_id. - Paramètres facultatifs :
language,model,task,filename. - Corps : Données audio brutes.
- Paramètres requis :
- OPTIONS /v1/transcribe: Récupère les options disponibles pour la route de transcription.
- POST /v1/detect: Détecte la langue du fichier audio.
- Paramètre facultatif :
model. - Corps : Données audio brutes.
- Paramètre facultatif :
- OPTIONS /v1/detect: Récupère les options disponibles pour la route de détection.
- GET /v1/download/<job_id>: Récupère la transcription terminée dans le format de sortie demandé.
- Paramètre facultatif :
output(json, timecode_txt, txt, vtt, srt).
- Paramètre facultatif :
- OPTIONS /v1/download/<job_id>: Récupère les options disponibles pour la route de téléchargement.
- GET /v1/jobs/<job_id>: Récupère l'état et les métadonnées de la tâche spécifiée.
- GET /v1/queue: Récupère la longueur actuelle de la file d'attente.
Intégration de Webhooks
WAAS prend en charge les notifications de webhook. Lors d'une transcription réussie ou échouée, une requête POST est envoyée à l'URL de webhook configurée avec une charge utile JSON et un en-tête X-WAAS-Signature pour la vérification du contenu.
À qui s'adresse WAAS ?
- Aux chercheurs qui ont besoin de transcrire des interviews ou des conférences.
- Aux journalistes travaillant avec du contenu audio ou vidéo.
- Aux développeurs intégrant des services de transcription dans leurs applications.
- À toute personne ayant besoin de transcrire rapidement et précisément des fichiers audio ou vidéo.
Installation
Pour installer et exécuter WAAS, suivez ces étapes :
- Clonez le référentiel.
- Créez un environnement virtuel.
- Installez les packages Python requis à l'aide de
pip install -r requirements.txt. - Configurez les variables d'environnement telles que
BASE_URL,EMAIL_SENDER_ADDRESS,EMAIL_SENDER_PASSWORDetEMAIL_SENDER_HOST. - Exécutez la configuration à l'aide de Docker Compose.
Exécution avec Docker Compose
- Créez un fichier
.envrcavec les variables d'environnement nécessaires. - Ajoutez un fichier
allowed_webhooks.json(si vous utilisez des webhooks) avec des URL et des jetons de webhook valides. - Exécutez
docker-compose --env-file .envrc up.
Utilisation de NVIDIA CUDA
Pour activer l'accélération GPU avec NVIDIA CUDA :
- Installez NVIDIA Docker.
- Modifiez le fichier
docker-compose.ymlpour utiliserDockerfile.gpuet décommentez la réservation de périphérique. - Exécutez
docker-compose --env-file .envrc up.
Pourquoi choisir WAAS ?
WAAS offre une interface conviviale et une API pour exploiter le modèle Whisper d'OpenAI. Ses fonctionnalités telles que les notifications par e-mail, les multiples formats de sortie et l'édition locale basée sur navigateur en font une solution pratique et efficace pour les besoins de transcription audio et vidéo. La flexibilité de l'exécuter localement ou de l'intégrer dans des systèmes existants via l'API en fait un outil polyvalent pour divers cas d'utilisation.
En conclusion, WAAS est un outil précieux pour quiconque cherche à transcrire rapidement et précisément du contenu audio ou vidéo. Sa nature open-source et sa facilité d'utilisation en font un excellent choix pour une utilisation personnelle et professionnelle.
Meilleurs outils alternatifs à "WAAS"
Ebby est un outil de transcription alimenté par l'IA qui convertit l'audio et la vidéo en texte rapidement et en toute sécurité. Il prend en charge plus de 100 langues, offre un éditeur riche en fonctionnalités et permet un partage et une collaboration faciles. Idéal pour les professionnels ayant besoin de transcriptions rapides et précises.
Améliorez la communication avec l'implémentation du modèle vocal de Neurond AI en utilisant des modèles de texte-parole et de parole-texte de haute qualité pour une interaction homme-machine précise et naturelle.
Transcript LOL fournit une transcription audio et vidéo basée sur l'IA avec une grande précision, la reconnaissance des locuteurs et des minutes illimitées. Parfait pour les créateurs de contenu, les chercheurs et les entreprises.
Convertissez l'audio en texte instantanément avec Verba AI. Transcription IA gratuite, résumés automatiques et outils IA conviviaux. Générez des quiz interactifs à partir de transcriptions.
TurboScribe propose une transcription illimitée d'audio et de vidéo alimentée par l'IA, avec 99,8 % de précision dans plus de 98 langues. Transcrivez des fichiers en quelques secondes, générez des sous-titres et bénéficiez de la reconnaissance des locuteurs—commencez avec 3 transcriptions gratuites par jour.
Azure AI Speech Studio permet aux développeurs d'utiliser des outils de conversion vocale en texte, texte en voix et traduction. Explorez des fonctionnalités comme des modèles personnalisés, des avatars vocaux et une transcription en temps réel pour améliorer l'accessibilité et l'engagement des applications.
Whisper API : API de transcription audio abordable alimentée par OpenAI. Intégration facile, détection des locuteurs, prise en charge de plus de 100 langues. Essai gratuit disponible !
Convertisseur gratuit en ligne de MP4 en texte. Transcrivez des fichiers vidéo MP4 en texte avec une grande précision grâce à l'IA. Aucune inscription n'est requise, prend en charge plusieurs langues. Parfait pour les réunions, les podcasts et la réutilisation de contenu.
Superwhisper est une application de synthèse vocale alimentée par l’IA pour macOS et iPhone, permettant une saisie plus rapide et une intégration transparente avec n’importe quelle application. Transcrivez l’audio et la vidéo, traduisez des langues et augmentez votre productivité.
TranscriptionPlus offre une transcription rapide et précise basée sur l'IA avec une précision allant jusqu'à 99 %. Transcrivez des fichiers audio et vidéo sans effort grâce à l'identification des intervenants, à la génération de résumés et à l'extraction de sujets.
TurboTranscript transcrit avec précision l'audio et la vidéo en texte dans plus de 130 langues. Générez des transcriptions par locuteur, des sous-titres et exportez au format PDF/SRT. Rapide, sécurisé et approuvé par les professionnels.
Transcri est un logiciel de transcription alimenté par l'IA pour convertir l'audio en texte et générer des sous-titres pour vos vidéos. Prend en charge plus de 50 langues. Commencez gratuitement !
Videotowords AI est le meilleur outil de conversion parole-texte basé sur l'IA qui transcrit avec précision l'audio et la vidéo en texte en quelques secondes. Prend en charge plus de 98 langues, parfait pour les créateurs de contenu, les journalistes et les étudiants.
WhisperUI fournit une conversion parole en texte abordable utilisant OpenAI Whisper. Convertissez facilement des fichiers audio aux formats texte et SRT. Démarrez avec un compte gratuit !