VoiceCraft:零样本语音编辑和文本到语音

VoiceCraft

3.5 | 60 | 0
类型:
开源项目
最后更新:
2025/10/04
资源描述:
VoiceCraft 是一款开源 AI 工具,用于零样本语音编辑和文本到语音转换,只需几秒钟的参考音频即可实现声音克隆。在实际数据上实现最先进的性能。
分享:
语音合成
声音克隆
音频编辑
文本转语音
零样本TTS

VoiceCraft 概述

VoiceCraft:野外环境下的零样本语音编辑和文本转语音

VoiceCraft 是一款强大的开源工具,为语音编辑和零样本文本转语音 (TTS) 带来了最先进的性能。它擅长处理各种真实的音频数据,包括有声读物、互联网视频和播客。 VoiceCraft 的独特之处在于它只需几秒钟的参考音频即可克隆或编辑未见过的声音。

什么是 VoiceCraft?

VoiceCraft 是一种 Token 填充神经编解码器语言模型,专为高质量语音编辑和 TTS 任务而设计。 它利用零样本学习,这意味着它可以用最少的训练数据适应新的声音。

VoiceCraft 如何工作?

VoiceCraft 作为一种神经编解码器语言模型运行。 其功能的主要方面包括:

  • Token 填充: VoiceCraft 使用 Token 填充技术来无缝编辑和生成语音。
  • 零样本学习: 它只需几秒钟的参考音频即可适应新的声音,无需大量的训练数据。
  • 神经编解码器语言模型: 这种架构允许高质量的语音合成和编辑。

如何使用 VoiceCraft?

有几种方法可以使用 VoiceCraft:

  • Google Colab: 入门的最简单方法是使用提供的 Google Colab 笔记本进行语音编辑和 TTS 推理。
  • Docker: 使用提供的 Docker 镜像来实现一致且可重现的环境。
  • 独立脚本: 使用独立脚本将 VoiceCraft 集成到您的项目中。

以下是每种方法的详细说明:

Google Colab

Google Colab 提供了一种开始使用 VoiceCraft 的简单方法。 请按照以下步骤操作:

  1. 打开语音编辑 Colab 笔记本。
  2. 打开 TTS 推理 Colab 笔记本。
  3. 按照笔记本中的说明运行演示。

Docker

Docker 为运行 VoiceCraft 提供了一致的环境。 这是设置方法:

  1. 克隆存储库:

git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. 构建 Docker 镜像:

```bash

docker build --tag "voicecraft" . ``` 3. 启动 Docker 容器:

```bash

./start-jupyter.sh # linux start-jupyter.bat # windows ``` 4. 在浏览器中打开 Docker 日志中显示的 URL。 5. 打开 inference_tts.ipynb 并按照说明进行操作。

独立脚本

要将 VoiceCraft 用作独立脚本:

  1. 确保您的环境已正确设置(请参阅环境设置部分)。

  2. 使用 tts_demo.pyspeech_editing_demo.py 脚本。

python3 tts_demo.py -h ```

为什么选择 VoiceCraft?

  • 零样本能力: 以最少的数据快速适应新的声音。
  • 高质量输出: 在语音编辑和 TTS 方面提供最先进的性能。
  • 多功能: 适用于各种音频源。
  • 开源: 鼓励社区贡献和定制。

VoiceCraft 适合哪些人?

VoiceCraft 非常适合:

  • 研究人员: 探索语音合成和编辑技术。
  • 开发人员: 将高级 TTS 功能集成到应用程序中。
  • 内容创作者: 生成高质量的画外音和编辑后的音频。
  • 爱好者: 尝试声音克隆和音频处理。

主要特点

  • 智能转录: 允许用户准确指定他们想要生成的内容。
  • TTS 模式: 用于从文本生成语音的零样本 TTS。
  • 编辑模式: 用于修改现有音频的语音编辑功能。
  • 长 TTS 模式: 简化长文本的 TTS。

环境设置

要为 VoiceCraft 设置您的环境:

  1. 创建一个新的 Conda 环境:

conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 安装必要的软件包:

```bash

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```

训练和微调

VoiceCraft 支持在自定义数据集上进行训练和微调。 该过程包括:

  1. 准备话语及其脚本。
  2. 使用 Encodec 将话语编码为代码。
  3. 将脚本转换为音素序列。
  4. 创建清单文件。

利用 VoiceCraft 的最佳方式是使用提供的脚本和笔记本,并将其调整为您的特定用例。 无论是语音编辑、TTS 还是声音克隆,VoiceCraft 都提供了一个强大而灵活的解决方案。

VoiceCraft 在 CC BY-NC-SA 4.0 (LICENSE-CODE) 下获得代码库许可,在 Coqui Public Model License 1.0.0 (LICENSE-MODEL) 下获得模型权重许可。 它还包含来自 MIT 和 Apache 2.0 许可下的其他存储库的代码。

"VoiceCraft"的最佳替代工具

Voice AI
暂无图片
104 0

使用我们的免费文本转语音生成器和转换器体验先进的Voice AI。享受由Deepseek、Hailuo、Grok和Kling等先进AI模型驱动的快速、高质量语音合成,适用于各种自然、富有表现力的语音应用。

文本转语音合成
语音克隆
KoboldCpp
暂无图片
81 0

KoboldCpp:使用 KoboldAI UI 轻松运行 GGUF 模型,进行 AI 文本和图像生成。单文件,零安装。支持 CPU/GPU、语音转文本、文本转语音和 Stable Diffusion。

文本生成
图像生成
GGUF
Colossyan Creator
暂无图片
364 0

Colossyan Creator 是一款 AI 视频生成器,它使用 AI 头像简化了视频创作。在几分钟内将 PDF 和 PowerPoint 转换为引人入胜的培训视频。支持 100 多种语言。

AI 视频生成
AI 头像
培训视频
Graphlogic.ai
暂无图片
75 0

适用于网站、电子商务、医疗保健和金融的 AI 聊天机器人和语音机器人。使用 RAG 和 LLM 实现 24/7 客户服务自动化。今天预约免费演示!

对话AI
客户关怀自动化
Speak4Me
暂无图片
55 0

Speak4Me 将任何文本文件,包括 PDF 和网站,转换为可听内容,让您随时随地聆听文档或学校材料。

文本转语音
音频转换
教育TTS
langswap.app
暂无图片
245 0

使用Langswap.app无需重新录制即可翻译视频。AI算法在用另一种语言说话时保留您原始的声音,从而节省时间和金钱。

AI视频翻译
声音克隆
视频配音
Fotol AI
暂无图片
215 0

Fotol AI 提供 AGI 网关,为视频、图像、语音、音乐、3D 资产生成和对话提供强大的 AI 解决方案。梦想成真!

AI 视频
AI 图像
AI 音乐
Toolsaday
暂无图片
231 0

Toolsaday是一个AI驱动的营销内容创作平台。它提供改述、故事生成、文本转语音和邮件生成等工具。轻松节省时间并创建强大的内容。

内容创作
AI写作
改述
Myreader
暂无图片
285 0

Myreader 是一款AI阅读助手,可帮助您总结文档、与您的图书馆聊天以及将文本转换为音频。 非常适合学生、研究人员和专业人士。

AI阅读
文档摘要
文本转语音
SpeechGen.io
暂无图片
253 0

使用 SpeechGen.io 在线生成逼真的配音!使用 AI 语音将文本转换为语音,并以 MP3/WAV 格式下载音频以用于各种目的。

文本转语音
人工智能语音
配音
Kveeky
暂无图片
30 0

探索Kveeky,这款AI配音工具可轻松将脚本转换为栩栩如生的配音。立即使用逼真的AI语音转换您的内容!

AI语音生成
文本转语音
配音
AutoShorts.ai
暂无图片
253 0

AutoShorts.ai 是一个 AI 驱动的平台,可以自动创建和发布用于 TikTok 和 YouTube 的匿名视频。 每天使用独特的 AI 生成内容轻松增加您的频道。

AI 视频
TikTok 视频
VoiceDub
暂无图片
247 0

使用VoiceDub创作AI语音封面!用AI替换您的人声,克隆您的声音,并将文本转换为语音,以实现高质量的AI音乐制作。

AI语音
语音封面
声音克隆
AI Cover Generator
暂无图片
260 0

使用最佳AI翻唱生成器创建AI歌曲翻唱。100%免费,无需注册。为内容创作者和音乐爱好者生成无限的AI翻唱。

AI翻唱
音乐
声音克隆
创一AI
暂无图片
338 0

创一AI是面向短视频创作者的智能平台,提供剧本诊断、AI拆短片、剧本优化和AI视频生成等功能,助您高效创作引人入胜的内容。

AI剧本分析
短视频生成器
AI分镜