VoiceCraft:零样本语音编辑和文本到语音

VoiceCraft

3.5 | 417 | 0
类型:
开源项目
最后更新:
2025/10/04
资源描述:
VoiceCraft 是一款开源 AI 工具,用于零样本语音编辑和文本到语音转换,只需几秒钟的参考音频即可实现声音克隆。在实际数据上实现最先进的性能。
分享:
语音合成
声音克隆
音频编辑
文本转语音
零样本TTS

VoiceCraft 概述

VoiceCraft:野外环境下的零样本语音编辑和文本转语音

VoiceCraft 是一款强大的开源工具,为语音编辑和零样本文本转语音 (TTS) 带来了最先进的性能。它擅长处理各种真实的音频数据,包括有声读物、互联网视频和播客。 VoiceCraft 的独特之处在于它只需几秒钟的参考音频即可克隆或编辑未见过的声音。

什么是 VoiceCraft?

VoiceCraft 是一种 Token 填充神经编解码器语言模型,专为高质量语音编辑和 TTS 任务而设计。 它利用零样本学习,这意味着它可以用最少的训练数据适应新的声音。

VoiceCraft 如何工作?

VoiceCraft 作为一种神经编解码器语言模型运行。 其功能的主要方面包括:

  • Token 填充: VoiceCraft 使用 Token 填充技术来无缝编辑和生成语音。
  • 零样本学习: 它只需几秒钟的参考音频即可适应新的声音,无需大量的训练数据。
  • 神经编解码器语言模型: 这种架构允许高质量的语音合成和编辑。

如何使用 VoiceCraft?

有几种方法可以使用 VoiceCraft:

  • Google Colab: 入门的最简单方法是使用提供的 Google Colab 笔记本进行语音编辑和 TTS 推理。
  • Docker: 使用提供的 Docker 镜像来实现一致且可重现的环境。
  • 独立脚本: 使用独立脚本将 VoiceCraft 集成到您的项目中。

以下是每种方法的详细说明:

Google Colab

Google Colab 提供了一种开始使用 VoiceCraft 的简单方法。 请按照以下步骤操作:

  1. 打开语音编辑 Colab 笔记本。
  2. 打开 TTS 推理 Colab 笔记本。
  3. 按照笔记本中的说明运行演示。

Docker

Docker 为运行 VoiceCraft 提供了一致的环境。 这是设置方法:

  1. 克隆存储库:

git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft ``` 2. 构建 Docker 镜像:

```bash

docker build --tag "voicecraft" . ``` 3. 启动 Docker 容器:

```bash

./start-jupyter.sh # linux start-jupyter.bat # windows ``` 4. 在浏览器中打开 Docker 日志中显示的 URL。 5. 打开 inference_tts.ipynb 并按照说明进行操作。

独立脚本

要将 VoiceCraft 用作独立脚本:

  1. 确保您的环境已正确设置(请参阅环境设置部分)。

  2. 使用 tts_demo.pyspeech_editing_demo.py 脚本。

python3 tts_demo.py -h ```

为什么选择 VoiceCraft?

  • 零样本能力: 以最少的数据快速适应新的声音。
  • 高质量输出: 在语音编辑和 TTS 方面提供最先进的性能。
  • 多功能: 适用于各种音频源。
  • 开源: 鼓励社区贡献和定制。

VoiceCraft 适合哪些人?

VoiceCraft 非常适合:

  • 研究人员: 探索语音合成和编辑技术。
  • 开发人员: 将高级 TTS 功能集成到应用程序中。
  • 内容创作者: 生成高质量的画外音和编辑后的音频。
  • 爱好者: 尝试声音克隆和音频处理。

主要特点

  • 智能转录: 允许用户准确指定他们想要生成的内容。
  • TTS 模式: 用于从文本生成语音的零样本 TTS。
  • 编辑模式: 用于修改现有音频的语音编辑功能。
  • 长 TTS 模式: 简化长文本的 TTS。

环境设置

要为 VoiceCraft 设置您的环境:

  1. 创建一个新的 Conda 环境:

conda create -n voicecraft python=3.9.16 conda activate voicecraft ``` 2. 安装必要的软件包:

```bash

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers0.0.22 pip install torchaudio2.0.2 torch2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard2.16.2 pip install phonemizer3.2.1 pip install datasets2.16.0 pip install torchmetrics0.11.1 pip install huggingface_hub0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall ```

训练和微调

VoiceCraft 支持在自定义数据集上进行训练和微调。 该过程包括:

  1. 准备话语及其脚本。
  2. 使用 Encodec 将话语编码为代码。
  3. 将脚本转换为音素序列。
  4. 创建清单文件。

利用 VoiceCraft 的最佳方式是使用提供的脚本和笔记本,并将其调整为您的特定用例。 无论是语音编辑、TTS 还是声音克隆,VoiceCraft 都提供了一个强大而灵活的解决方案。

VoiceCraft 在 CC BY-NC-SA 4.0 (LICENSE-CODE) 下获得代码库许可,在 Coqui Public Model License 1.0.0 (LICENSE-MODEL) 下获得模型权重许可。 它还包含来自 MIT 和 Apache 2.0 许可下的其他存储库的代码。

"VoiceCraft"的最佳替代工具

TopMediai
暂无图片
476 0

TopMediai是一个集AI视频生成、语音合成和音乐创作于一体的平台。利用智能、快速的AI工具增强您的内容。

AI视频
AI语音
AI音乐
KickBot
暂无图片
416 0

Kick.com 流媒体的最佳机器人:聊天命令、警报和叠加层、AI TTS、打赏以及即时剪辑。100% 基于云端。几分钟内设置完成。

流媒体聊天机器人
AI 文本转语音
AudioPod AI
暂无图片
419 0

AudioPod AI 是一款一体化AI音频工作站和制作套件。生成语音旁白、分离音轨、创作音乐、自动翻译内容等。包括文本转语音、语音转文本和AI音乐生成。

文本转语音
语音转文本
AI音乐生成
Trump AI Voice Generator
暂无图片
340 0

您的特朗普AI语音生成器,用于文本转语音和视频—逼真节奏,快速导出用于模仿和社交媒体。

语音克隆
名人模仿
AI语音合成
Voiceslab
暂无图片
356 0

Voiceslab 提供即时 AI 语音克隆,创建自然发音的您的语音副本,用于播客、视频和有声书。捕捉语气、口音和风格,支持 8 种语言的高质量合成—无需信用卡即可开始。

语音克隆
AI合成
播客叙述
AIVocal
暂无图片
344 0

AIVocal 是一个多合一 AI 平台,用于语音生成、克隆、播客和转录。使用免费工具在 140 多种语言中创建逼真的语音、有声书等,适合创作者和专业人士。

语音生成
语音合成
播客创建
AI Voice Generator
暂无图片
231 0

AI语音生成器是一款将文本转换为自然语音的工具。它提供声音克隆、文本转语音、音效和对话生成功能,深受超过10,000名创作者的信赖。

文本转语音
声音克隆
ai语音生成
Audiobox
暂无图片
451 0

Audiobox 是 Meta 的新型基础研究模型,用于音频生成。它可以使用语音输入和自然语言文本提示的组合来生成语音和音效。

音频生成
语音合成
音效创建
Dub AI
暂无图片
399 0

Dub AI 赋能内容创作者使用 AI 声音克隆和翻译轻松翻译和配音视频,以自然发音扩展至 30 多种语言的全球受众。

视频配音
声音克隆
多语言翻译
Listnr AI
暂无图片
381 0

使用 Listnr AI 轻松创建和自动化无面视频。我们的人工智能平台每天生成并发布新鲜内容,帮助您的 TikTok 和 YouTube 频道增长。深受数百万用户信赖!

无面视频生成
AI配音
脚本自动化
DupDub
暂无图片
449 0

DupDub是一个AI驱动的社交媒体内容创作平台,提供AI语音合成、视频编辑和AI虚拟形象工具,彻底改变您的内容创作流程。

AI语音合成
视频编辑
社交媒体
Listnr AI
暂无图片
262 0

Listnr AI是排名第一的AI语音生成器,提供超过142种语言的1000多种逼真声音。轻松为视频、播客等创建引人入胜的语音覆盖。免费试用!

文本转语音
AI语音合成
语音生成器
Typecast
暂无图片
404 0

Typecast是一款AI语音生成器,为内容创作者提供600多种可定制语音、语音克隆、视频编辑和会说话的头像功能。

语音合成
情感文本转语音
语音克隆
AI Avatar Generator
暂无图片
339 0

瞬间将照片和视频转化为逼真的对话AI头像。支持40多种语言的唇同步专业视频。今天免费开始创作!

对话头像
唇同步AI
多语言视频