WAAS: Whisper as a Service - OpenAI WhisperのGUIとAPI

WAAS

3.5 | 72 | 0
しゅるい:
オープンソースプロジェクト
最終更新:
2025/10/14
説明:
WAAS (Whisper as a Service) は、OpenAIのWhisper用のオープンソースGUIおよびAPIであり、メール通知とローカルブラウザベースのエディタを使用して、オーディオとビデオの文字起こしを簡単に行うことができます。
共有:
音声テキスト変換
音声トランスクリプション
ビデオトランスクリプション
Whisper API
OpenAI

WAAS の概要

WAAS: Whisper as a Service - OpenAI WhisperのGUIとAPI

WAAS (Whisper as a Service) は、OpenAIのWhisperのGUIとAPIを提供するオープンソースプロジェクトで、オーディオおよびビデオの文字起こしをよりアクセスしやすく、使いやすくします。簡単なファイルアップロードと文字起こしを行うためのグラフィカルユーザーインターフェース(GUI)と、プログラムによるアクセス用のAPIの両方を提供します。

WAASとは?

WAASは、オーディオまたはビデオファイルをアップロードして文字起こしするためのインターフェースを提供します。文字起こし後、ユーザーはJojoファイル、SRT、またはプレーンテキストを含む、さまざまな形式の文字起こしのダウンロードリンクが記載されたメールを受信します。重要な機能は、文字起こしのエラーを修正するためのローカルブラウザベースのエディターです。

主な機能

  • アップロードと文字起こし用のGUI: オーディオおよびビデオファイルをアップロードするためのシンプルなインターフェース。
  • メール通知: 文字起こし後、ダウンロードリンクが記載されたメール通知を受信します。
  • 複数の出力形式: Jojoファイル、SRT、またはプレーンテキスト形式で文字起こしをダウンロードします。
  • ローカルブラウザベースのエディター: ブラウザ内で文字起こしのエラーを修正します。
  • APIアクセス: API経由で文字起こしサービスへのプログラムによるアクセス。

WAASの仕組みは?

WAASを使用すると、ユーザーはGUI(Jojoという名前)またはAPI経由でオーディオまたはビデオファイルをアップロードできます。アップロードされたファイルは、OpenAIのWhisperモデルを使用して文字起こしのために処理されます。文字起こしが完了すると、ユーザーはさまざまな形式で文字起こしをダウンロードするためのリンクを含むメールを受信します。ブラウザベースのエディターを使用すると、ユーザーは最終結果を保存する前に、文字起こしのエラーを修正および修正できます。

APIドキュメント

WAAS APIは、文字起こしと関連タスクのためにいくつかのエンドポイントを提供します。

  • POST /v1/transcribe: 新しい文字起こしジョブをキューに追加します。
    • 必須パラメーター:email_callbackまたはwebhook_id
    • オプションパラメーター:languagemodeltaskfilename
    • Body:生のオーディオデータ。
  • OPTIONS /v1/transcribe: 文字起こしルートで使用可能なオプションを取得します。
  • POST /v1/detect: オーディオファイルの言語を検出します。
    • オプションパラメーター:model
    • Body:生のオーディオデータ。
  • OPTIONS /v1/detect: 検出ルートで使用可能なオプションを取得します。
  • GET /v1/download/<job_id>: 要求された出力形式で完了した文字起こしを取得します。
    • オプションパラメーター:output(json、timecode_txt、txt、vtt、srt)。
  • OPTIONS /v1/download/<job_id>: ダウンロードルートで使用可能なオプションを取得します。
  • GET /v1/jobs/<job_id>: 指定されたジョブのステータスとメタデータを取得します。
  • GET /v1/queue: キューの現在の長さを取得します。

Webhook統合

WAASは、webhook通知をサポートしています。文字起こしが成功または失敗すると、JSONペイロードとコンテンツ検証用のX-WAAS-Signatureヘッダーを含むPOSTリクエストが、構成されたwebhook URLに送信されます。

WAASは誰のため?

  • インタビューや講義を文字起こしする必要がある研究者。
  • オーディオまたはビデオコンテンツを扱うジャーナリスト。
  • 文字起こしサービスをアプリケーションに統合する開発者。
  • オーディオまたはビデオファイルを迅速かつ正確に文字起こしする必要がある人。

インストール

WAASをインストールして実行するには、次の手順に従います。

  1. リポジトリをクローンします。
  2. 仮想環境を作成します。
  3. pip install -r requirements.txtを使用して、必要なPythonパッケージをインストールします。
  4. BASE_URLEMAIL_SENDER_ADDRESSEMAIL_SENDER_PASSWORD、およびEMAIL_SENDER_HOSTなどの環境変数を構成します。
  5. Docker Composeを使用してセットアップを実行します。

Docker Composeで実行する

  1. 必要な環境変数を含む.envrcファイルを作成します。
  2. 有効なwebhook URLとトークンを含むallowed_webhooks.jsonファイル(webhookを使用している場合)を追加します。
  3. docker-compose --env-file .envrc upを実行します。

NVIDIA CUDAの使用

NVIDIA CUDAでGPUアクセラレーションを有効にするには、次の手順に従います。

  1. NVIDIA Dockerをインストールします。
  2. docker-compose.ymlファイルを編集して、Dockerfile.gpuを使用し、デバイス予約のコメントを外します。
  3. docker-compose --env-file .envrc upを実行します。

WAASを選ぶ理由

WAASは、OpenAIのWhisperモデルを活用するためのユーザーフレンドリーなインターフェースとAPIを提供します。メール通知、複数の出力形式、ローカルブラウザベースの編集などの機能により、オーディオおよびビデオの文字起こしのニーズに対応する便利で効率的なソリューションとなっています。ローカルで実行したり、API経由で既存のシステムに統合したりできる柔軟性により、さまざまなユースケースに対応できる多用途ツールとなっています。

結論として、WAASは、オーディオまたはビデオコンテンツを迅速かつ正確に文字起こししたい人にとって貴重なツールです。そのオープンソースの性質と使いやすさにより、個人的および профессионального useに最適な選択肢です。

"WAAS" のベストな代替ツール

Buzz Captions
画像がありません
61 0

Buzz Captionsは、OpenAIのWhisperを搭載したオフラインのオーディオ文字起こしおよび翻訳ツールです。 さまざまなオーディオ/ビデオ形式をサポートし、CSV、SRT、TXT、VTTにエクスポートします。

音声文字起こし
音声テキスト変換
Neurond AI Voice Model Implementation
画像がありません
92 0

Neurond AIの音声モデル実装で、高品質のテキスト読み上げと音声テキスト変換モデルを使用して、コミュニケーションを強化し、正確で自然な人間とコンピュータのインタラクションを実現します。

テキスト読み上げ
音声テキスト変換
HappyScribe
画像がありません
116 0

HappyScribe は、AI と人間の専門家を使用して、120 以上の言語でオーディオ/ビデオの文字起こし、翻訳、字幕作成を行います。 今すぐ HappyScribe を試して、高速で正確な文字起こしを体験してください!

オーディオトランスクリプション
Transcript LOL
画像がありません
156 0

Transcript LOLは、高精度、話者認識、無制限の分数でAIを活用したオーディオおよびビデオのトランスクリプションを提供します。コンテンツ作成者、研究者、企業に最適です。

AIトランスクリプション
VoicePen
画像がありません
149 0

VoicePen は AI 駆動のノートテイカーで、音声をテキストに転写し、会議、講義、メモをスマートノートにまとめます。オフライン録音、PDF/DOC へのエクスポート、Notion との統合で効率的な生産性を。

音声転写
AIサマリー
Transcriptmate
画像がありません
278 0

Transcriptmateは、わずか2クリックで、高速、正確、手頃な価格のオーディオからテキストへの文字起こしを提供します。ダイアライゼーションやAIを活用したコンテンツ作成のオプションを使用して、オーディオファイルまたはYouTubeビデオを文字起こしします。

オーディオからテキストへ
文字起こし
SoundType AI
画像がありません
223 0

SoundType AIは、正確なAIによるオーディオおよびビデオのトランスクリプション、AI要約、およびインタラクティブなチャットを提供します。録音を簡単に検索可能なテキストに変換します。無料でお試しください!

音声トランスクリプション
AccurateScribe.ai
画像がありません
265 0

AccurateScribe.ai を使用して、オーディオとビデオを 99.8% の AI 精度でテキストに変換します。 134 以上の言語を転写し、さまざまな形式でエクスポートします。 今すぐ無料トライアルを始めましょう!

AIトランスクリプション
GPT4Audio
画像がありません
328 0

効率的な音声の文字起こしと翻訳のためのAI搭載音声テキスト変換デスクトップアプリケーション、GPT4Audioをダウンロードしてください。今すぐ生産性を向上させましょう!

音声テキスト変換
superwhisper
画像がありません
382 0

Superwhisperは、macOSおよびiPhone向けのAI搭載音声テキスト変換アプリで、より高速な入力とあらゆるアプリケーションとのシームレスな統合を可能にします。オーディオとビデオのトランスクリプト、言語の翻訳、生産性の向上を実現します。

音声トランスクリプション
SIREN
画像がありません
210 0

SIRENは、オーディオトランスクリプション、音声テキスト変換、テキスト音声変換、ビデオ吹き替え、ライブストリームキャプションソリューションを提供するオールインワンオーディオAIプラットフォームです。 無料で始めましょう!

音声トランスクリプション
Transcripción+
画像がありません
223 0

トランスクリプションを専門家にお任せいただくか、AIで自動的にトランスクリプションを作成します。安全で機密性の高いサービス。

音声トランスクリプション
I ♡ Transcriptions
画像がありません
211 0

スペイン語、英語、日本語での無制限のオーディオおよびビデオのトランスクリプション。さまざまなテキスト形式でダウンロードできます。

トランスクリプション
音声テキスト変換
Sonix
画像がありません
339 0

Sonixは最高のオンライン音声およびビデオトランスクリプションソフトウェアです。正確な音声テキスト変換アルゴリズムを使用して、数分で音声およびビデオファイルをテキストに変換します。

トランスクリプション
翻訳
字幕