VoiceCraft の概要
VoiceCraft:ゼロショット音声編集とテキスト読み上げをワイルドに
VoiceCraft は、最先端のパフォーマンスを音声編集とゼロショットテキスト読み上げ (TTS) の両方にもたらす、強力なオープンソースツールです。オーディオブック、インターネットビデオ、ポッドキャストなど、多様な実際のオーディオデータの処理に優れています。 VoiceCraft の特徴は、わずか数秒の参照オーディオを使用して、見慣れない音声をクローンまたは編集できることです。
VoiceCraft とは何ですか?
VoiceCraft は、高品質の音声編集および TTS タスク用に設計された、トークンインフィルニューラルコーデック言語モデルです。 ゼロショット学習を活用しており、最小限のトレーニングデータで新しい音声に適応できます。
VoiceCraft の仕組みは?
VoiceCraft は、ニューラルコーデック言語モデルとして動作します。 その機能の重要な側面は次のとおりです。
- トークンインフィル: VoiceCraft は、トークンインフィル技術を使用して、音声をシームレスに編集および生成します。
- ゼロショット学習: わずか数秒の参照オーディオで新しい音声に適応できるため、大規模なトレーニングデータは不要です。
- ニューラルコーデック言語モデル: このアーキテクチャにより、高品質の音声合成と編集が可能になります。
VoiceCraft の使い方は?
VoiceCraft にはいくつかの使用方法があります。
- Google Colab: まずは、音声編集および TTS 推論用の提供されている Google Colab ノートブックを使用するのが最も簡単な方法です。
- Docker: 提供されている Docker イメージを使用して、一貫性のある再現可能な環境を実現します。
- スタンドアロンスクリプト: スタンドアロンスクリプトを使用して、VoiceCraft をプロジェクトに統合します。
各方法の内訳は次のとおりです。
Google Colab
Google Colab は、VoiceCraft の使用を開始する簡単な方法を提供します。 次の手順に従ってください。
- 音声編集 Colab ノートブックを開きます。
- TTS 推論 Colab ノートブックを開きます。
- ノートブック内の指示に従って、デモを実行します。
Docker
Docker は、VoiceCraft を実行するための一貫した環境を提供します。 設定方法は次のとおりです。
リポジトリをクローンします。
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. Docker イメージを構築します。
```bash
docker build --tag "voicecraft" . ``` 3. Docker コンテナを起動します。
```bash
./start-jupyter.sh # linux
start-jupyter.bat # windows
```
4. Docker ログに表示されている URL をブラウザで開きます。
5. inference_tts.ipynb
を開き、指示に従います。
スタンドアロンスクリプト
VoiceCraft をスタンドアロンスクリプトとして使用するには:
環境が正しく設定されていることを確認します (「環境設定」セクションを参照)。
tts_demo.py
およびspeech_editing_demo.py
スクリプトを使用します。
python3 tts_demo.py -h ```
VoiceCraft を選ぶ理由は?
- ゼロショット機能: 最小限のデータで新しい音声にすばやく適応します。
- 高品質の出力: 音声編集と TTS で最先端のパフォーマンスを提供します。
- 汎用性: さまざまなオーディオソースでうまく機能します。
- オープンソース: コミュニティの貢献とカスタマイズを奨励します。
VoiceCraft は誰のためのものですか?
VoiceCraft は以下に最適です。
- 研究者: 音声合成と編集の技術を探求します。
- 開発者: 高度な TTS 機能をアプリケーションに統合します。
- コンテンツクリエイター: 高品質のボイスオーバーと編集されたオーディオを生成します。
- 愛好家: 音声クローンとオーディオ操作を試します。
主な機能:
- スマートトランスクリプト: ユーザーが生成したい内容を正確に指定できます。
- TTS モード: テキストから音声を生成するゼロショット TTS。
- 編集モード: 既存のオーディオを変更するための音声編集機能。
- ロング TTS モード: 長いテキストでの TTS を簡素化します。
環境設定:
VoiceCraft の環境を設定するには:
新しい Conda 環境を作成します。
conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 必要なパッケージをインストールします。
```bash
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```
トレーニングと微調整:
VoiceCraft は、カスタムデータセットでのトレーニングと微調整をサポートしています。 プロセスには以下が含まれます。
- 発話とそのトランスクリプトを準備します。
- Encodec を使用して発話をコードにエンコードします。
- トランスクリプトを音素シーケンスに変換します。
- マニフェストファイルを作成します。
VoiceCraft を活用する最良の方法は、提供されているスクリプトとノートブックを使用し、特定のユースケースに合わせて調整することです。 音声編集、TTS、音声クローンなど、VoiceCraft は堅牢で柔軟なソリューションを提供します。
VoiceCraft は、コードベースについては CC BY-NC-SA 4.0 (LICENSE-CODE) の下で、モデルの重みについては Coqui Public Model License 1.0.0 (LICENSE-MODEL) の下でライセンスされています。 また、MIT および Apache 2.0 ライセンスの下で他のリポジトリのコードも組み込んでいます。
"VoiceCraft" のベストな代替ツール

KoboldCpp:KoboldAI UIでAIテキストと画像を生成するためのGGUFモデルを簡単に実行。単一ファイル、インストール不要。CPU/GPU、STT、TTS、Stable Diffusionをサポート。

当社の無料テキスト読み上げ生成ツールと変換ツールで最先端のVoice AIを体験してください。Deepseek、Hailuo、Grok、Klingなどの先進的なAIモデルによる高速で高品質な音声合成をお楽しみください。さまざまなアプリケーション向けの自然で表現豊かな音声。

ユニークでカスタマイズ可能な歌、歌詞、トラックを作成するAIミュージックジェネレーターを発見してください。コンテンツクリエイター、ミュージシャン、映画製作者に最適で、当社のインテリジェントアルゴリズムは先進技術を使用してニーズに合わせたロイヤリティフリーの音楽を生成します。Murekaの革新的なAIツールで音楽作曲の未来を探求し、創造性を刺激し、制作を効率化するよう設計されています。最先端のソリューションでシームレスな統合と卓越した品質を体験してください。

Wavel AIは、AIを活用したビデオダビング、音声クローン、ビデオ編集ツールを提供しています。リアルなAI音声と字幕を使用して、多言語ビデオを即座に作成できます。コンテンツクリエーターやグローバルブランドに最適です。

AI Voice Changerであなたの声を変換しましょう!100種類以上のAIボイスで声や言語を変更できます。魅力的な多言語オーディオコンテンツの作成に最適です。

Role Model AIは、カスタムAI音声アシスタントを作成し、AIツールのディレクトリを探索するためのツールを提供します。当社のプラットフォームでAIアプリケーションを構築します。

Text2Audio:無料のオンラインテキスト読み上げツール。GoogleのTTS APIを使用して、あらゆる目的でテキストを簡単にオーディオに変換します。

Voice Out は、Google ドキュメント、PDF、ウェブページ、書籍を 60 以上の言語で 100 以上の音声で読み上げます。無料のテキスト読み上げ Chrome 拡張機能。

Free Text to Speech Online Converter Toolsは、テキストを自然な音声に変換し、100以上の音声、多言語サポート、カスタマイズ可能なパラメータを備えています。 さまざまなアプリケーションのためにMP3としてダウンロードしてください。

AIEasy.lifeは、無料のディレクトリと発見体験を提供するAIツールプラットフォームです。AIEasy.lifeでお気に入りのAIツールを見つけましょう。

useapi.netを探索してください。Midjourney、Kling、RunwayなどのAIサービスへのアクセスを提供する実験的なAPIプラットフォームです。 複数のアカウントの負荷分散により、AIタスクを自動化します。

EchoWaveを使用して、ポッドキャストを波形ビデオに変換してFacebook、Twitter、Instagramで共有し、ポッドキャストの影響を拡大します。

Voiceslab は、ポッドキャスト、ビデオ、有声書籍のための自然な音のあなたの声のレプリカを作成する即時 AI ボイスクローニングを提供します。トーン、アクセント、スタイルを高品質の合成でキャプチャし、8 言語をサポート—開始にクレジットカード不要。

Unreal Speechは、高速かつ手頃な価格のテキスト読み上げAPIを提供し、Eleven Labsより11倍安く、低遅延で単語ごとのタイムスタンプを提供します。300ミリ秒でオーディオをストリーミングし、最大10時間のオーディオをリクエストします。

BookFab AudioBook Creatorは、カスタマイズ可能なAI音声でテキストを自然な音声に変換します。EPUBからM4Bへの変換、MP3/OPUS出力をサポートし、オーディオブック作成の進捗追跡機能を備えています。