VoiceCraft 概述
VoiceCraft:野外环境下的零样本语音编辑和文本转语音
VoiceCraft 是一款强大的开源工具,为语音编辑和零样本文本转语音 (TTS) 带来了最先进的性能。它擅长处理各种真实的音频数据,包括有声读物、互联网视频和播客。 VoiceCraft 的独特之处在于它只需几秒钟的参考音频即可克隆或编辑未见过的声音。
什么是 VoiceCraft?
VoiceCraft 是一种 Token 填充神经编解码器语言模型,专为高质量语音编辑和 TTS 任务而设计。 它利用零样本学习,这意味着它可以用最少的训练数据适应新的声音。
VoiceCraft 如何工作?
VoiceCraft 作为一种神经编解码器语言模型运行。 其功能的主要方面包括:
- Token 填充: VoiceCraft 使用 Token 填充技术来无缝编辑和生成语音。
- 零样本学习: 它只需几秒钟的参考音频即可适应新的声音,无需大量的训练数据。
- 神经编解码器语言模型: 这种架构允许高质量的语音合成和编辑。
如何使用 VoiceCraft?
有几种方法可以使用 VoiceCraft:
- Google Colab: 入门的最简单方法是使用提供的 Google Colab 笔记本进行语音编辑和 TTS 推理。
- Docker: 使用提供的 Docker 镜像来实现一致且可重现的环境。
- 独立脚本: 使用独立脚本将 VoiceCraft 集成到您的项目中。
以下是每种方法的详细说明:
Google Colab
Google Colab 提供了一种开始使用 VoiceCraft 的简单方法。 请按照以下步骤操作:
- 打开语音编辑 Colab 笔记本。
- 打开 TTS 推理 Colab 笔记本。
- 按照笔记本中的说明运行演示。
Docker
Docker 为运行 VoiceCraft 提供了一致的环境。 这是设置方法:
克隆存储库:
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. 构建 Docker 镜像:
```bash
docker build --tag "voicecraft" . ``` 3. 启动 Docker 容器:
```bash
./start-jupyter.sh # linux
start-jupyter.bat # windows
```
4. 在浏览器中打开 Docker 日志中显示的 URL。
5. 打开 inference_tts.ipynb 并按照说明进行操作。
独立脚本
要将 VoiceCraft 用作独立脚本:
确保您的环境已正确设置(请参阅环境设置部分)。
使用
tts_demo.py和speech_editing_demo.py脚本。
python3 tts_demo.py -h ```
为什么选择 VoiceCraft?
- 零样本能力: 以最少的数据快速适应新的声音。
- 高质量输出: 在语音编辑和 TTS 方面提供最先进的性能。
- 多功能: 适用于各种音频源。
- 开源: 鼓励社区贡献和定制。
VoiceCraft 适合哪些人?
VoiceCraft 非常适合:
- 研究人员: 探索语音合成和编辑技术。
- 开发人员: 将高级 TTS 功能集成到应用程序中。
- 内容创作者: 生成高质量的画外音和编辑后的音频。
- 爱好者: 尝试声音克隆和音频处理。
主要特点:
- 智能转录: 允许用户准确指定他们想要生成的内容。
- TTS 模式: 用于从文本生成语音的零样本 TTS。
- 编辑模式: 用于修改现有音频的语音编辑功能。
- 长 TTS 模式: 简化长文本的 TTS。
环境设置:
要为 VoiceCraft 设置您的环境:
创建一个新的 Conda 环境:
conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 安装必要的软件包:
```bash
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```
训练和微调:
VoiceCraft 支持在自定义数据集上进行训练和微调。 该过程包括:
- 准备话语及其脚本。
- 使用 Encodec 将话语编码为代码。
- 将脚本转换为音素序列。
- 创建清单文件。
利用 VoiceCraft 的最佳方式是使用提供的脚本和笔记本,并将其调整为您的特定用例。 无论是语音编辑、TTS 还是声音克隆,VoiceCraft 都提供了一个强大而灵活的解决方案。
VoiceCraft 在 CC BY-NC-SA 4.0 (LICENSE-CODE) 下获得代码库许可,在 Coqui Public Model License 1.0.0 (LICENSE-MODEL) 下获得模型权重许可。 它还包含来自 MIT 和 Apache 2.0 许可下的其他存储库的代码。
"VoiceCraft"的最佳替代工具
AudioPod AI 是一款一体化AI音频工作站和制作套件。生成语音旁白、分离音轨、创作音乐、自动翻译内容等。包括文本转语音、语音转文本和AI音乐生成。
Voiceslab 提供即时 AI 语音克隆,创建自然发音的您的语音副本,用于播客、视频和有声书。捕捉语气、口音和风格,支持 8 种语言的高质量合成—无需信用卡即可开始。
AIVocal 是一个多合一 AI 平台,用于语音生成、克隆、播客和转录。使用免费工具在 140 多种语言中创建逼真的语音、有声书等,适合创作者和专业人士。
AI语音生成器是一款将文本转换为自然语音的工具。它提供声音克隆、文本转语音、音效和对话生成功能,深受超过10,000名创作者的信赖。
使用 Listnr AI 轻松创建和自动化无面视频。我们的人工智能平台每天生成并发布新鲜内容,帮助您的 TikTok 和 YouTube 频道增长。深受数百万用户信赖!
Listnr AI是排名第一的AI语音生成器,提供超过142种语言的1000多种逼真声音。轻松为视频、播客等创建引人入胜的语音覆盖。免费试用!