VoiceCraft 概述
VoiceCraft:野外环境下的零样本语音编辑和文本转语音
VoiceCraft 是一款强大的开源工具,为语音编辑和零样本文本转语音 (TTS) 带来了最先进的性能。它擅长处理各种真实的音频数据,包括有声读物、互联网视频和播客。 VoiceCraft 的独特之处在于它只需几秒钟的参考音频即可克隆或编辑未见过的声音。
什么是 VoiceCraft?
VoiceCraft 是一种 Token 填充神经编解码器语言模型,专为高质量语音编辑和 TTS 任务而设计。 它利用零样本学习,这意味着它可以用最少的训练数据适应新的声音。
VoiceCraft 如何工作?
VoiceCraft 作为一种神经编解码器语言模型运行。 其功能的主要方面包括:
- Token 填充: VoiceCraft 使用 Token 填充技术来无缝编辑和生成语音。
- 零样本学习: 它只需几秒钟的参考音频即可适应新的声音,无需大量的训练数据。
- 神经编解码器语言模型: 这种架构允许高质量的语音合成和编辑。
如何使用 VoiceCraft?
有几种方法可以使用 VoiceCraft:
- Google Colab: 入门的最简单方法是使用提供的 Google Colab 笔记本进行语音编辑和 TTS 推理。
- Docker: 使用提供的 Docker 镜像来实现一致且可重现的环境。
- 独立脚本: 使用独立脚本将 VoiceCraft 集成到您的项目中。
以下是每种方法的详细说明:
Google Colab
Google Colab 提供了一种开始使用 VoiceCraft 的简单方法。 请按照以下步骤操作:
- 打开语音编辑 Colab 笔记本。
- 打开 TTS 推理 Colab 笔记本。
- 按照笔记本中的说明运行演示。
Docker
Docker 为运行 VoiceCraft 提供了一致的环境。 这是设置方法:
克隆存储库:
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. 构建 Docker 镜像:
```bash
docker build --tag "voicecraft" . ``` 3. 启动 Docker 容器:
```bash
./start-jupyter.sh # linux
start-jupyter.bat # windows
```
4. 在浏览器中打开 Docker 日志中显示的 URL。
5. 打开 inference_tts.ipynb
并按照说明进行操作。
独立脚本
要将 VoiceCraft 用作独立脚本:
确保您的环境已正确设置(请参阅环境设置部分)。
使用
tts_demo.py
和speech_editing_demo.py
脚本。
python3 tts_demo.py -h ```
为什么选择 VoiceCraft?
- 零样本能力: 以最少的数据快速适应新的声音。
- 高质量输出: 在语音编辑和 TTS 方面提供最先进的性能。
- 多功能: 适用于各种音频源。
- 开源: 鼓励社区贡献和定制。
VoiceCraft 适合哪些人?
VoiceCraft 非常适合:
- 研究人员: 探索语音合成和编辑技术。
- 开发人员: 将高级 TTS 功能集成到应用程序中。
- 内容创作者: 生成高质量的画外音和编辑后的音频。
- 爱好者: 尝试声音克隆和音频处理。
主要特点:
- 智能转录: 允许用户准确指定他们想要生成的内容。
- TTS 模式: 用于从文本生成语音的零样本 TTS。
- 编辑模式: 用于修改现有音频的语音编辑功能。
- 长 TTS 模式: 简化长文本的 TTS。
环境设置:
要为 VoiceCraft 设置您的环境:
创建一个新的 Conda 环境:
conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 安装必要的软件包:
```bash
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```
训练和微调:
VoiceCraft 支持在自定义数据集上进行训练和微调。 该过程包括:
- 准备话语及其脚本。
- 使用 Encodec 将话语编码为代码。
- 将脚本转换为音素序列。
- 创建清单文件。
利用 VoiceCraft 的最佳方式是使用提供的脚本和笔记本,并将其调整为您的特定用例。 无论是语音编辑、TTS 还是声音克隆,VoiceCraft 都提供了一个强大而灵活的解决方案。
VoiceCraft 在 CC BY-NC-SA 4.0 (LICENSE-CODE) 下获得代码库许可,在 Coqui Public Model License 1.0.0 (LICENSE-MODEL) 下获得模型权重许可。 它还包含来自 MIT 和 Apache 2.0 许可下的其他存储库的代码。
"VoiceCraft"的最佳替代工具

使用我们的免费文本转语音生成器和转换器体验先进的Voice AI。享受由Deepseek、Hailuo、Grok和Kling等先进AI模型驱动的快速、高质量语音合成,适用于各种自然、富有表现力的语音应用。

KoboldCpp:使用 KoboldAI UI 轻松运行 GGUF 模型,进行 AI 文本和图像生成。单文件,零安装。支持 CPU/GPU、语音转文本、文本转语音和 Stable Diffusion。

Colossyan Creator 是一款 AI 视频生成器,它使用 AI 头像简化了视频创作。在几分钟内将 PDF 和 PowerPoint 转换为引人入胜的培训视频。支持 100 多种语言。

适用于网站、电子商务、医疗保健和金融的 AI 聊天机器人和语音机器人。使用 RAG 和 LLM 实现 24/7 客户服务自动化。今天预约免费演示!






使用 SpeechGen.io 在线生成逼真的配音!使用 AI 语音将文本转换为语音,并以 MP3/WAV 格式下载音频以用于各种目的。


AutoShorts.ai 是一个 AI 驱动的平台,可以自动创建和发布用于 TikTok 和 YouTube 的匿名视频。 每天使用独特的 AI 生成内容轻松增加您的频道。


