VoiceCraft の概要
VoiceCraft:ゼロショット音声編集とテキスト読み上げをワイルドに
VoiceCraft は、最先端のパフォーマンスを音声編集とゼロショットテキスト読み上げ (TTS) の両方にもたらす、強力なオープンソースツールです。オーディオブック、インターネットビデオ、ポッドキャストなど、多様な実際のオーディオデータの処理に優れています。 VoiceCraft の特徴は、わずか数秒の参照オーディオを使用して、見慣れない音声をクローンまたは編集できることです。
VoiceCraft とは何ですか?
VoiceCraft は、高品質の音声編集および TTS タスク用に設計された、トークンインフィルニューラルコーデック言語モデルです。 ゼロショット学習を活用しており、最小限のトレーニングデータで新しい音声に適応できます。
VoiceCraft の仕組みは?
VoiceCraft は、ニューラルコーデック言語モデルとして動作します。 その機能の重要な側面は次のとおりです。
- トークンインフィル: VoiceCraft は、トークンインフィル技術を使用して、音声をシームレスに編集および生成します。
- ゼロショット学習: わずか数秒の参照オーディオで新しい音声に適応できるため、大規模なトレーニングデータは不要です。
- ニューラルコーデック言語モデル: このアーキテクチャにより、高品質の音声合成と編集が可能になります。
VoiceCraft の使い方は?
VoiceCraft にはいくつかの使用方法があります。
- Google Colab: まずは、音声編集および TTS 推論用の提供されている Google Colab ノートブックを使用するのが最も簡単な方法です。
- Docker: 提供されている Docker イメージを使用して、一貫性のある再現可能な環境を実現します。
- スタンドアロンスクリプト: スタンドアロンスクリプトを使用して、VoiceCraft をプロジェクトに統合します。
各方法の内訳は次のとおりです。
Google Colab
Google Colab は、VoiceCraft の使用を開始する簡単な方法を提供します。 次の手順に従ってください。
- 音声編集 Colab ノートブックを開きます。
- TTS 推論 Colab ノートブックを開きます。
- ノートブック内の指示に従って、デモを実行します。
Docker
Docker は、VoiceCraft を実行するための一貫した環境を提供します。 設定方法は次のとおりです。
リポジトリをクローンします。
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. Docker イメージを構築します。
```bash
docker build --tag "voicecraft" . ``` 3. Docker コンテナを起動します。
```bash
./start-jupyter.sh # linux
start-jupyter.bat # windows
```
4. Docker ログに表示されている URL をブラウザで開きます。
5. inference_tts.ipynb を開き、指示に従います。
スタンドアロンスクリプト
VoiceCraft をスタンドアロンスクリプトとして使用するには:
環境が正しく設定されていることを確認します (「環境設定」セクションを参照)。
tts_demo.pyおよびspeech_editing_demo.pyスクリプトを使用します。
python3 tts_demo.py -h ```
VoiceCraft を選ぶ理由は?
- ゼロショット機能: 最小限のデータで新しい音声にすばやく適応します。
- 高品質の出力: 音声編集と TTS で最先端のパフォーマンスを提供します。
- 汎用性: さまざまなオーディオソースでうまく機能します。
- オープンソース: コミュニティの貢献とカスタマイズを奨励します。
VoiceCraft は誰のためのものですか?
VoiceCraft は以下に最適です。
- 研究者: 音声合成と編集の技術を探求します。
- 開発者: 高度な TTS 機能をアプリケーションに統合します。
- コンテンツクリエイター: 高品質のボイスオーバーと編集されたオーディオを生成します。
- 愛好家: 音声クローンとオーディオ操作を試します。
主な機能:
- スマートトランスクリプト: ユーザーが生成したい内容を正確に指定できます。
- TTS モード: テキストから音声を生成するゼロショット TTS。
- 編集モード: 既存のオーディオを変更するための音声編集機能。
- ロング TTS モード: 長いテキストでの TTS を簡素化します。
環境設定:
VoiceCraft の環境を設定するには:
新しい Conda 環境を作成します。
conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 必要なパッケージをインストールします。
```bash
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```
トレーニングと微調整:
VoiceCraft は、カスタムデータセットでのトレーニングと微調整をサポートしています。 プロセスには以下が含まれます。
- 発話とそのトランスクリプトを準備します。
- Encodec を使用して発話をコードにエンコードします。
- トランスクリプトを音素シーケンスに変換します。
- マニフェストファイルを作成します。
VoiceCraft を活用する最良の方法は、提供されているスクリプトとノートブックを使用し、特定のユースケースに合わせて調整することです。 音声編集、TTS、音声クローンなど、VoiceCraft は堅牢で柔軟なソリューションを提供します。
VoiceCraft は、コードベースについては CC BY-NC-SA 4.0 (LICENSE-CODE) の下で、モデルの重みについては Coqui Public Model License 1.0.0 (LICENSE-MODEL) の下でライセンスされています。 また、MIT および Apache 2.0 ライセンスの下で他のリポジトリのコードも組み込んでいます。
"VoiceCraft" のベストな代替ツール
写真と動画を瞬時にリアルな話すAIアバターに変換。40以上の言語でリップシンクのプロフェッショナルビデオ。今日から無料で作成を始めよう!
Voice.aiは、ゲーム、ストリーミング、コンテンツ作成、ビジネス向けの無料のリアルタイムAIボイスチェンジャー、ボイスクローン、テキスト読み上げ、AIボイスエージェントを提供します。AI音声とオーディオツールをご覧ください。
Audiobox は Meta の新しい基礎研究モデルで、オーディオ生成に使用されます。音声入力と自然言語テキストプロンプトの組み合わせを使用して、声や音響効果を生成できます。
Me.bot はあなたの AI セカンドセルフで、アイデアをパーソナライズされたボイスとビジュアルのプレゼンテーションに変えます。あなたのデータから学び、あなたのように話して関与し、より深いつながりと洞察のためのインタラクティブなトークを提供します。
Dub AI は、AI ボイスクローニングと翻訳を使用してコンテンツクリエイターが動画を簡単に翻訳・ダビングできるようにし、自然なサウンドで 30 言語以上のグローバルオーディエンスにリーチを拡大します。
TwinningはインフルエンサーがテキストとオーディオでファンとチャットするためのパーソナライズされたAIツインを作成できるようにします。ウェイトリストに参加し、短いオーディオを録音して月額料金なしでインタラクションを収益化しましょう。
AIVocal は、音声生成、クローニング、ポッドキャスト、転写のためのオールインワン AI プラットフォームです。140 以上の言語で無料ツールを使用して、クリエイターやプロフェッショナル向けにリアルなスピーチやオーディオブックを作成します。
ElevenLabsは70以上の言語で1000以上の音声を備えたリアルなAI音声生成を提供。オーディオブック、動画、ポッドキャスト、音声クローニングに最適。
Inworld TTSは、低レイテンシ、より多くの制御、柔軟な展開オプションを備えた、コンシューマーアプリケーション向けの最先端のAIテキスト読み上げを提供します。多様なAI音声を探求し、あなた自身の音声をクローンしてください。
Vbee AIVoiceは、コンテンツ作成や実用的なアプリケーション向けに、自然で感情豊かな音声を提供するAIテキスト読み上げプラットフォームであり、予算と時間を90%以上節約できます。
Phonely は、AI で電話に応答できるようにします。数秒で、カレンダーに接続し、人間のように電話に応答する AI エージェントを構築。世界中の 5000 社以上の企業から信頼されています。
CAMB.AIは、150以上の言語でリアルタイム翻訳を提供するAI搭載のローカリゼーションプラットフォームであり、IMAX、全豪オープン、MLSから信頼されています。 エンターテインメント、スポーツなど、コンテンツのアクセシビリティに革命をもたらしています。
当社の無料テキスト読み上げ生成ツールと変換ツールで最先端のVoice AIを体験してください。Deepseek、Hailuo、Grok、Klingなどの先進的なAIモデルによる高速で高品質な音声合成をお楽しみください。さまざまなアプリケーション向けの自然で表現豊かな音声。
Deepfake Detector は、AI ベースのツールで、操作されたビデオ、オーディオ、画像を 95% の精度で検出します。YouTube や WhatsApp などのプラットフォームでメディアの真正性を迅速に検証し、ディープフェイク詐欺から身を守りましょう。