WAAS: Whisper as a Service - GUI und API für OpenAI Whisper

WAAS

3.5 | 263 | 0
Typ:
Open-Source-Projekte
Letzte Aktualisierung:
2025/10/14
Beschreibung:
WAAS (Whisper as a Service) ist eine Open-Source-GUI und API für OpenAI's Whisper, die eine einfache Audio- und Videotranskription mit E-Mail-Benachrichtigungen und einem lokalen browserbasierten Editor ermöglicht.
Teilen:
Sprache zu Text
Audio Transkription
Video Transkription
Whisper API
OpenAI

Übersicht von WAAS

WAAS: Whisper as a Service - GUI und API für OpenAI Whisper

WAAS (Whisper as a Service) ist ein Open-Source-Projekt, das eine GUI und API für OpenAI's Whisper bereitstellt und die Audio- und Video-Transkription zugänglicher und benutzerfreundlicher macht. Es bietet sowohl eine grafische Benutzeroberfläche (GUI) für das einfache Hochladen und Transkribieren von Dateien als auch eine API für den programmgesteuerten Zugriff.

Was ist WAAS?

WAAS bietet eine Schnittstelle zum Hochladen und Transkribieren von Audio- oder Videodateien. Nach der Transkription erhalten die Benutzer eine E-Mail mit Download-Links für die Transkription in verschiedenen Formaten, darunter Jojo-Datei, SRT oder Nur-Text. Ein wichtiges Merkmal ist der lokale, browserbasierte Editor zur Korrektur von Transkriptionsfehlern.

Hauptmerkmale

  • GUI für Upload und Transkription: Einfache Schnittstelle zum Hochladen von Audio- und Videodateien.
  • E-Mail-Benachrichtigungen: Erhalten Sie E-Mail-Benachrichtigungen mit Download-Links nach der Transkription.
  • Mehrere Ausgabeformate: Laden Sie Transkriptionen in Jojo-Datei-, SRT- oder Nur-Text-Formaten herunter.
  • Lokaler browserbasierter Editor: Korrigieren Sie Transkriptionsfehler im Browser.
  • API-Zugriff: Programmgesteuerter Zugriff auf Transkriptionsdienste über die API.

Wie funktioniert WAAS?

WAAS ermöglicht es Benutzern, Audio- oder Videodateien über eine GUI (namens Jojo) oder über eine API hochzuladen. Die hochgeladene Datei wird dann mit dem Whisper-Modell von OpenAI zur Transkription verarbeitet. Sobald die Transkription abgeschlossen ist, erhält der Benutzer eine E-Mail mit Links zum Herunterladen der Transkription in verschiedenen Formaten. Der browserbasierte Editor ermöglicht es Benutzern, Fehler in der Transkription zu verfeinern und zu korrigieren, bevor sie das Endergebnis speichern.

API-Dokumentation

Die WAAS API bietet verschiedene Endpunkte für die Transkription und verwandte Aufgaben:

  • POST /v1/transcribe: Fügt der Warteschlange einen neuen Transkriptionsauftrag hinzu.
    • Erforderliche Parameter: email_callback oder webhook_id.
    • Optionale Parameter: language, model, task, filename.
    • Body: Rohe Audiodaten.
  • OPTIONS /v1/transcribe: Ruft die verfügbaren Optionen für die Transkriptionsroute ab.
  • POST /v1/detect: Erkennt die Sprache der Audiodatei.
    • Optionaler Parameter: model.
    • Body: Rohe Audiodaten.
  • OPTIONS /v1/detect: Ruft die verfügbaren Optionen für die Erkennungsroute ab.
  • GET /v1/download/<job_id>: Ruft die abgeschlossene Transkription im angeforderten Ausgabeformat ab.
    • Optionaler Parameter: output (json, timecode_txt, txt, vtt, srt).
  • OPTIONS /v1/download/<job_id>: Ruft die verfügbaren Optionen für die Download-Route ab.
  • GET /v1/jobs/<job_id>: Ruft den Status und die Metadaten des angegebenen Auftrags ab.
  • GET /v1/queue: Ruft die aktuelle Länge der Warteschlange ab.

Webhook-Integration

WAAS unterstützt Webhook-Benachrichtigungen. Nach erfolgreicher oder fehlgeschlagener Transkription wird eine POST-Anfrage an die konfigurierte Webhook-URL mit einer JSON-Payload und einem X-WAAS-Signature-Header zur Inhaltsüberprüfung gesendet.

Für wen ist WAAS?

  • Forscher, die Interviews oder Vorlesungen transkribieren müssen.
  • Journalisten, die mit Audio- oder Videoinhalten arbeiten.
  • Entwickler, die Transkriptionsdienste in ihre Anwendungen integrieren.
  • Jeder, der schnell und genau Audio- oder Videodateien transkribieren muss.

Installation

Um WAAS zu installieren und auszuführen, führen Sie die folgenden Schritte aus:

  1. Klonen Sie das Repository.
  2. Erstellen Sie eine virtuelle Umgebung.
  3. Installieren Sie die erforderlichen Python-Pakete mit pip install -r requirements.txt.
  4. Konfigurieren Sie Umgebungsvariablen wie BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD und EMAIL_SENDER_HOST.
  5. Führen Sie die Einrichtung mit Docker Compose aus.

Ausführen mit Docker Compose

  1. Erstellen Sie eine .envrc-Datei mit den erforderlichen Umgebungsvariablen.
  2. Fügen Sie eine allowed_webhooks.json-Datei hinzu (wenn Sie Webhooks verwenden) mit gültigen Webhook-URLs und -Token.
  3. Führen Sie docker-compose --env-file .envrc up aus.

Verwenden von NVIDIA CUDA

So aktivieren Sie die GPU-Beschleunigung mit NVIDIA CUDA:

  1. Installieren Sie NVIDIA Docker.
  2. Bearbeiten Sie die Datei docker-compose.yml, um die Dockerfile.gpu zu verwenden und die Gerätereservierung zu entfernen (Uncomment).
  3. Führen Sie docker-compose --env-file .envrc up aus.

Warum WAAS wählen?

WAAS bietet eine benutzerfreundliche Oberfläche und API zur Nutzung des Whisper-Modells von OpenAI. Seine Funktionen wie E-Mail-Benachrichtigungen, mehrere Ausgabeformate und die lokale browserbasierte Bearbeitung machen es zu einer bequemen und effizienten Lösung für Audio- und Video-Transkriptionsbedürfnisse. Die Flexibilität, es lokal auszuführen oder über die API in bestehende Systeme zu integrieren, macht es zu einem vielseitigen Werkzeug für verschiedene Anwendungsfälle.

Zusammenfassend ist WAAS ein wertvolles Werkzeug für alle, die Audio- oder Videoinhalte schnell und genau transkribieren möchten. Seine Open-Source-Natur und Benutzerfreundlichkeit machen es zu einer ausgezeichneten Wahl für den persönlichen und professionellen Gebrauch.

Beste Alternativwerkzeuge zu "WAAS"

WhisperAPI
Kein Bild verfügbar
152 0

WhisperAPI bietet eine schnelle und genaue Video- & Audio-Transkriptions-API, die von OpenAI Whisper angetrieben wird. Erhalten Sie täglich 5 kostenlose Transkriptionen. Unterstützt mehrere Formate, großzügige Limits und einen datenschutzorientierten Ansatz.

Audio-Transkription
WhisperUI
Kein Bild verfügbar
519 0

WhisperUI bietet eine kostengünstige Sprache-zu-Text-Konvertierung mit OpenAI Whisper. Konvertieren Sie Audiodateien einfach in Text- und SRT-Formate. Starten Sie mit einem kostenlosen Konto!

Audio Transkription
Spracherkennung
Buzz Captions
Kein Bild verfügbar
604 0

Buzz Captions ist ein Offline-Audio-Transkriptions- und Übersetzungstool, das von OpenAI's Whisper unterstützt wird. Es unterstützt verschiedene Audio-/Videoformate und exportiert nach CSV, SRT, TXT und VTT.

Audio-Transkription
Sprache zu Text
Speech Studio
Kein Bild verfügbar
463 0

Azure AI Speech Studio befähigt Entwickler mit Sprach-zu-Text-, Text-zu-Sprache- und Übersetzungstools. Erkunden Sie Funktionen wie benutzerdefinierte Modelle, Sprachavatare und Echtzeit-Transkription, um die Zugänglichkeit und Interaktion von Apps zu verbessern.

Sprach-Transkription
Sprachsynthese
Whisper API
Kein Bild verfügbar
364 0

Whisper API: Erschwingliche Audio-Transkriptions-API powered by OpenAI. Einfache Integration, Sprechererkennung, unterstützt über 100 Sprachen. Kostenlose Testversion verfügbar!

Audio Transkriptions-API
AIverse
Kein Bild verfügbar
98 0

AIverse ist eine All-in-One-Plattform mit Zugriff auf Tausende KI-Modelle für Bild-/Videogenerierung, LLMs, Sprache-zu-Text, Musikschöpfung u.v.m. Unbegrenzte Nutzung für 20 $/Monat.

Bild-Upscaling
Hintergrundentfernung
superwhisper
Kein Bild verfügbar
637 0

Superwhisper ist eine KI-gestützte Sprache-zu-Text-App für macOS und iPhone, die schnelleres Tippen und nahtlose Integration in jede Anwendung ermöglicht. Transkribieren Sie Audio und Video, übersetzen Sie Sprachen und steigern Sie die Produktivität.

Sprachtranskription
Sprache zu Text
Lemonfox.ai Speech-To-Text API
Kein Bild verfügbar
235 0

Die Speech-To-Text-API von Lemonfox.ai transkribiert Audiodateien schnell und kostengünstig. Sie unterstützt über 100 Sprachen, Sprechererkennung und bietet hohe Genauigkeit bei sicherer Datenverarbeitung. Testen Sie es einen Monat lang kostenlos!

Sprache zu Text
Transkription
Transcript LOL
Kein Bild verfügbar
429 0

Transcript LOL bietet KI-gestützte Audio- und Video-Transkription mit hoher Genauigkeit, Sprechererkennung und unbegrenzten Minuten. Perfekt für Content-Ersteller, Forscher und Unternehmen.

KI-Transkription
Sprache zu Text
Yescribe.ai
Kein Bild verfügbar
448 0

Yescribe.ai ist ein KI-gestützter Transkriptionsdienst, der Audio und Video mit einer Genauigkeit von 99,9 % in Text umwandelt und über 98 Sprachen unterstützt. Es bietet schnelle, sichere und kostengünstige Transkriptionslösungen für verschiedene Branchen.

Audio-Transkription
SubEasy
Kein Bild verfügbar
719 0

SubEasy.ai bietet KI-gestützte automatische Transkriptions- und Übersetzungsdienste mit hoher Genauigkeit, kontextbezogener KI und Unterstützung für über 100 Sprachen.

KI-Transkription
Video-Untertitel
I ♡ Transcriptions
Kein Bild verfügbar
371 0

Unbegrenzte Audio- und Video-Transkriptionen in Spanisch, Englisch und Japanisch. In verschiedenen Textformaten herunterladbar.

Transkription
KI
Sprache zu Text
AccurateScribe.ai
Kein Bild verfügbar
477 0

Konvertieren Sie Audio und Video mit AccurateScribe.ai mit 99,8 % KI-Genauigkeit in Text. Transkribieren Sie über 134 Sprachen und exportieren Sie sie in verschiedenen Formaten. Starten Sie jetzt Ihre kostenlose Testversion!

KI-Transkription
Sprache zu Text
Hello Transcribe
Kein Bild verfügbar
411 0

Hello Transcribe: Privater Speech-to-Text-Transkriptor mit OpenAI Whisper, funktioniert offline und verschlüsselt Ergebnisse in iCloud.

sprache zu text
transkription
offline