WAAS の概要
WAAS: Whisper as a Service - OpenAI WhisperのGUIとAPI
WAAS (Whisper as a Service) は、OpenAIのWhisperのGUIとAPIを提供するオープンソースプロジェクトで、オーディオおよびビデオの文字起こしをよりアクセスしやすく、使いやすくします。簡単なファイルアップロードと文字起こしを行うためのグラフィカルユーザーインターフェース(GUI)と、プログラムによるアクセス用のAPIの両方を提供します。
WAASとは?
WAASは、オーディオまたはビデオファイルをアップロードして文字起こしするためのインターフェースを提供します。文字起こし後、ユーザーはJojoファイル、SRT、またはプレーンテキストを含む、さまざまな形式の文字起こしのダウンロードリンクが記載されたメールを受信します。重要な機能は、文字起こしのエラーを修正するためのローカルブラウザベースのエディターです。
主な機能
- アップロードと文字起こし用のGUI: オーディオおよびビデオファイルをアップロードするためのシンプルなインターフェース。
- メール通知: 文字起こし後、ダウンロードリンクが記載されたメール通知を受信します。
- 複数の出力形式: Jojoファイル、SRT、またはプレーンテキスト形式で文字起こしをダウンロードします。
- ローカルブラウザベースのエディター: ブラウザ内で文字起こしのエラーを修正します。
- APIアクセス: API経由で文字起こしサービスへのプログラムによるアクセス。
WAASの仕組みは?
WAASを使用すると、ユーザーはGUI(Jojoという名前)またはAPI経由でオーディオまたはビデオファイルをアップロードできます。アップロードされたファイルは、OpenAIのWhisperモデルを使用して文字起こしのために処理されます。文字起こしが完了すると、ユーザーはさまざまな形式で文字起こしをダウンロードするためのリンクを含むメールを受信します。ブラウザベースのエディターを使用すると、ユーザーは最終結果を保存する前に、文字起こしのエラーを修正および修正できます。
APIドキュメント
WAAS APIは、文字起こしと関連タスクのためにいくつかのエンドポイントを提供します。
- POST /v1/transcribe: 新しい文字起こしジョブをキューに追加します。
- 必須パラメーター:
email_callbackまたはwebhook_id。 - オプションパラメーター:
language、model、task、filename。 - Body:生のオーディオデータ。
- 必須パラメーター:
- OPTIONS /v1/transcribe: 文字起こしルートで使用可能なオプションを取得します。
- POST /v1/detect: オーディオファイルの言語を検出します。
- オプションパラメーター:
model。 - Body:生のオーディオデータ。
- オプションパラメーター:
- OPTIONS /v1/detect: 検出ルートで使用可能なオプションを取得します。
- GET /v1/download/<job_id>: 要求された出力形式で完了した文字起こしを取得します。
- オプションパラメーター:
output(json、timecode_txt、txt、vtt、srt)。
- オプションパラメーター:
- OPTIONS /v1/download/<job_id>: ダウンロードルートで使用可能なオプションを取得します。
- GET /v1/jobs/<job_id>: 指定されたジョブのステータスとメタデータを取得します。
- GET /v1/queue: キューの現在の長さを取得します。
Webhook統合
WAASは、webhook通知をサポートしています。文字起こしが成功または失敗すると、JSONペイロードとコンテンツ検証用のX-WAAS-Signatureヘッダーを含むPOSTリクエストが、構成されたwebhook URLに送信されます。
WAASは誰のため?
- インタビューや講義を文字起こしする必要がある研究者。
- オーディオまたはビデオコンテンツを扱うジャーナリスト。
- 文字起こしサービスをアプリケーションに統合する開発者。
- オーディオまたはビデオファイルを迅速かつ正確に文字起こしする必要がある人。
インストール
WAASをインストールして実行するには、次の手順に従います。
- リポジトリをクローンします。
- 仮想環境を作成します。
pip install -r requirements.txtを使用して、必要なPythonパッケージをインストールします。BASE_URL、EMAIL_SENDER_ADDRESS、EMAIL_SENDER_PASSWORD、およびEMAIL_SENDER_HOSTなどの環境変数を構成します。- Docker Composeを使用してセットアップを実行します。
Docker Composeで実行する
- 必要な環境変数を含む
.envrcファイルを作成します。 - 有効なwebhook URLとトークンを含む
allowed_webhooks.jsonファイル(webhookを使用している場合)を追加します。 docker-compose --env-file .envrc upを実行します。
NVIDIA CUDAの使用
NVIDIA CUDAでGPUアクセラレーションを有効にするには、次の手順に従います。
- NVIDIA Dockerをインストールします。
docker-compose.ymlファイルを編集して、Dockerfile.gpuを使用し、デバイス予約のコメントを外します。docker-compose --env-file .envrc upを実行します。
WAASを選ぶ理由
WAASは、OpenAIのWhisperモデルを活用するためのユーザーフレンドリーなインターフェースとAPIを提供します。メール通知、複数の出力形式、ローカルブラウザベースの編集などの機能により、オーディオおよびビデオの文字起こしのニーズに対応する便利で効率的なソリューションとなっています。ローカルで実行したり、API経由で既存のシステムに統合したりできる柔軟性により、さまざまなユースケースに対応できる多用途ツールとなっています。
結論として、WAASは、オーディオまたはビデオコンテンツを迅速かつ正確に文字起こししたい人にとって貴重なツールです。そのオープンソースの性質と使いやすさにより、個人的および профессионального useに最適な選択肢です。
"WAAS" のベストな代替ツール
Buzz Captionsは、OpenAIのWhisperを搭載したオフラインのオーディオ文字起こしおよび翻訳ツールです。 さまざまなオーディオ/ビデオ形式をサポートし、CSV、SRT、TXT、VTTにエクスポートします。
Neurond AIの音声モデル実装で、高品質のテキスト読み上げと音声テキスト変換モデルを使用して、コミュニケーションを強化し、正確で自然な人間とコンピュータのインタラクションを実現します。
HappyScribe は、AI と人間の専門家を使用して、120 以上の言語でオーディオ/ビデオの文字起こし、翻訳、字幕作成を行います。 今すぐ HappyScribe を試して、高速で正確な文字起こしを体験してください!
Transcript LOLは、高精度、話者認識、無制限の分数でAIを活用したオーディオおよびビデオのトランスクリプションを提供します。コンテンツ作成者、研究者、企業に最適です。
VoicePen は AI 駆動のノートテイカーで、音声をテキストに転写し、会議、講義、メモをスマートノートにまとめます。オフライン録音、PDF/DOC へのエクスポート、Notion との統合で効率的な生産性を。
Transcriptmateは、わずか2クリックで、高速、正確、手頃な価格のオーディオからテキストへの文字起こしを提供します。ダイアライゼーションやAIを活用したコンテンツ作成のオプションを使用して、オーディオファイルまたはYouTubeビデオを文字起こしします。
SoundType AIは、正確なAIによるオーディオおよびビデオのトランスクリプション、AI要約、およびインタラクティブなチャットを提供します。録音を簡単に検索可能なテキストに変換します。無料でお試しください!
AccurateScribe.ai を使用して、オーディオとビデオを 99.8% の AI 精度でテキストに変換します。 134 以上の言語を転写し、さまざまな形式でエクスポートします。 今すぐ無料トライアルを始めましょう!
効率的な音声の文字起こしと翻訳のためのAI搭載音声テキスト変換デスクトップアプリケーション、GPT4Audioをダウンロードしてください。今すぐ生産性を向上させましょう!
Superwhisperは、macOSおよびiPhone向けのAI搭載音声テキスト変換アプリで、より高速な入力とあらゆるアプリケーションとのシームレスな統合を可能にします。オーディオとビデオのトランスクリプト、言語の翻訳、生産性の向上を実現します。
SIRENは、オーディオトランスクリプション、音声テキスト変換、テキスト音声変換、ビデオ吹き替え、ライブストリームキャプションソリューションを提供するオールインワンオーディオAIプラットフォームです。 無料で始めましょう!
スペイン語、英語、日本語での無制限のオーディオおよびビデオのトランスクリプション。さまざまなテキスト形式でダウンロードできます。
Sonixは最高のオンライン音声およびビデオトランスクリプションソフトウェアです。正確な音声テキスト変換アルゴリズムを使用して、数分で音声およびビデオファイルをテキストに変換します。