Categorias de FerramentasÁudio e FalaSíntese de Voz com IA

VoiceCraft

3.5 418 0

Tipo:

Projetos de Código Aberto

Última atualização:

2025/10/04

Descrição:

VoiceCraft é uma ferramenta de IA de código aberto para edição de voz zero-shot e conversão de texto em fala, permitindo a clonagem de voz com apenas alguns segundos de áudio de referência. Obtenha desempenho de última geração em dados reais.

síntese de voz

clonagem de voz

edição de áudio

TTS

TTS zero-shot

VoiceCraft é uma ferramenta de IA de código aberto para edição de voz zero-shot e conversão de texto em fala, permitindo a clonagem de voz com apenas alguns segundos de áudio de referência. Obtenha desempenho de última geração em dados reais.

Abrir Site

Visão geral de VoiceCraft

VoiceCraft: Edição de Voz Zero-Shot e Text-to-Speech na Natureza

VoiceCraft é uma ferramenta poderosa de código aberto que traz desempenho de ponta para edição de voz e text-to-speech (TTS) zero-shot. Ele se destaca no manuseio de dados de áudio diversos e do mundo real, incluindo audiolivros, vídeos da internet e podcasts. O que diferencia o VoiceCraft é sua capacidade de clonar ou editar uma voz invisível usando apenas alguns segundos de áudio de referência.

O que é VoiceCraft?

VoiceCraft é um modelo de linguagem de codec neural de preenchimento de token projetado para tarefas de edição de voz e TTS de alta qualidade. Ele aproveita o aprendizado zero-shot, o que significa que pode se adaptar a novas vozes com dados de treinamento mínimos.

Como funciona o VoiceCraft?

VoiceCraft opera como um modelo de linguagem de codec neural. Os principais aspectos de sua funcionalidade incluem:

Preenchimento de Token: VoiceCraft usa uma técnica de preenchimento de token para editar e gerar fala perfeitamente.
Aprendizado Zero-Shot: Ele pode se adaptar a novas vozes com apenas alguns segundos de áudio de referência, eliminando a necessidade de dados de treinamento extensivos.
Modelo de Linguagem de Codec Neural: Esta arquitetura permite a síntese e edição de fala de alta qualidade.

Como usar o VoiceCraft?

Existem várias maneiras de usar o VoiceCraft:

Google Colab: A maneira mais simples de começar é usar os notebooks do Google Colab fornecidos para edição de voz e inferência de TTS.
Docker: Use a imagem Docker fornecida para um ambiente consistente e reproduzível.
Script Independente: Integre o VoiceCraft em seus projetos usando os scripts independentes.

Aqui está uma análise de cada método:

Google Colab

O Google Colab oferece uma maneira direta de começar a usar o VoiceCraft. Siga estes passos:

Abra o notebook do Speech Editing Colab.
Abra o notebook do TTS Inference Colab.
Siga as instruções nos notebooks para executar as demonstrações.

Docker

O Docker fornece um ambiente consistente para executar o VoiceCraft. Veja como configurá-lo:

Clone o repositório:

git clone git@github.com:jasonppy/VoiceCraft.git
cd VoiceCraft

Construa a imagem do Docker:
```
docker build --tag "voicecraft" .
```

Inicie o contêiner Docker:

./start-jupyter.sh  # linux
start-jupyter.bat   # windows

Abra o URL mostrado nos logs do Docker em seu navegador.
Abra inference_tts.ipynb e siga as instruções.

Script Independente

Para usar o VoiceCraft como um script independente:

Certifique-se de que seu ambiente esteja configurado corretamente (consulte a seção Configuração do Ambiente).
Use os scripts tts_demo.py e speech_editing_demo.py.
```
python3 tts_demo.py -h
```

Por que escolher o VoiceCraft?

Capacidade Zero-Shot: Adapta-se a novas vozes rapidamente com dados mínimos.
Saída de Alta Qualidade: Oferece desempenho de ponta em edição de voz e TTS.
Versátil: Funciona bem com diversas fontes de áudio.
Código Aberto: Incentiva contribuições e personalização da comunidade.

Para quem é o VoiceCraft?

VoiceCraft é ideal para:

Pesquisadores: Explorando técnicas de síntese e edição de fala.
Desenvolvedores: Integrando recursos avançados de TTS em aplicativos.
Criadores de Conteúdo: Gerando locuções de alta qualidade e áudio editado.
Hobbistas: Experimentando clonagem de voz e manipulação de áudio.

Características Principais:

Smart Transcript: Permite que os usuários especifiquem exatamente o que desejam gerar.
Modo TTS: TTS zero-shot para gerar fala a partir de texto.
Modo Editar: Recursos de edição de fala para modificar o áudio existente.
Modo TTS Longo: Simplifica o TTS em textos longos.

Configuração do Ambiente:

Para configurar seu ambiente para VoiceCraft:

Crie um novo ambiente Conda:

conda create -n voicecraft python=3.9.16
conda activate voicecraft

Instale os pacotes necessários:

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install xformers==0.0.22
pip install torchaudio==2.0.2 torch==2.0.1
apt-get install ffmpeg
apt-get install espeak-ng
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
pip install huggingface_hub==0.22.2
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
mfa model download dictionary english_us_arpa
mfa model download acoustic english_us_arpa
conda install -n voicecraft ipykernel --no-deps --force-reinstall

Treinamento e Ajuste Fino:

VoiceCraft oferece suporte a treinamento e ajuste fino em conjuntos de dados personalizados. O processo envolve:

Preparar enunciados e suas transcrições.
Codificar enunciados em códigos usando Encodec.
Converter transcrições em sequências de fonemas.
Criar um arquivo de manifesto.

A melhor maneira de aproveitar o VoiceCraft é utilizando os scripts e notebooks fornecidos e adaptando-os ao seu caso de uso específico. Seja edição de voz, TTS ou clonagem de voz, o VoiceCraft oferece uma solução robusta e flexível.

VoiceCraft é licenciado sob CC BY-NC-SA 4.0 (LICENSE-CODE) para o código-fonte e Coqui Public Model License 1.0.0 (LICENSE-MODEL) para os pesos do modelo. Ele também incorpora código de outros repositórios sob as licenças MIT e Apache 2.0.

Diretório Recomendado

Síntese de Voz com IA Alterador de Voz com IA Criação de Música com IA De Voz para Texto Atendimento ao Cliente e Assistente de Voz com IA Podcast e Dublagem de Vídeo

Melhores ferramentas alternativas para "VoiceCraft"

Typecast

404 0

Typecast é um gerador de voz IA que oferece 600+ vozes personalizáveis, clonagem de voz, edição de vídeo e avatares falantes para criadores de conteúdo.

síntese-vocal

TTS-emocional

Listnr AI

381 0

Crie e automatize vídeos faceless sem esforço com o Listnr AI. Nossa plataforma impulsionada por IA gera e publica conteúdo fresco diariamente para crescer seus canais do TikTok e YouTube. Confiado por milhões!

geração de vídeo sem rosto

AI Avatar Generator

339 0

Transforme fotos e vídeos em avatares IA falantes realistas instantaneamente. Vídeos profissionais com sincronização labial em mais de 40 idiomas. Comece a criar de graça hoje!

avatares falantes

Audiobox

451 0

Audiobox é o novo modelo de pesquisa fundamental da Meta para geração de áudio. Ele pode gerar vozes e efeitos sonoros usando uma combinação de entradas de voz e prompts de texto em linguagem natural.

geração de áudio

síntese de voz

Dub AI

399 0

Dub AI capacita criadores de conteúdo a traduzir e dublar vídeos sem esforço usando clonagem de voz e tradução por IA, expandindo o alcance para audiências globais em mais de 30 idiomas com resultados naturais.

dublagem de vídeo

clonagem de voz

Me.bot

345 0

Me.bot é seu segundo eu com IA que transforma ideias em apresentações de voz e visuais personalizadas. Ele aprende com seus dados para falar e se engajar como você, oferecendo palestras interativas para conexões e insights mais profundos.

avatar IA pessoal

clonagem de voz

AIEasy.life

565 0

AIEasy.life é uma plataforma de ferramentas de IA que oferece um diretório gratuito e uma experiência de descoberta. Encontre suas ferramentas de IA favoritas com AIEasy.life.

Diretório de ferramentas de IA

AIVocal

344 0

AIVocal é uma plataforma tudo-em-um de IA para geração de voz, clonagem, podcasts e transcrição. Crie discursos realistas, audiolivros e mais com ferramentas gratuitas em +140 idiomas para criadores e profissionais.

geração de voz

síntese de fala

ToMoviee AI

333 0

Gere vídeos, imagens, música e sons com IA. Rápido, realista, totalmente controlável. Projetado para criadores, profissionais de marketing, cineastas, designers e equipes.

texto para vídeo

geração de imagens

Trump AI Voice Generator

340 0

Seu gerador de voz AI Donald Trump para texto em fala e vídeo—cadência realista, exportações rápidas para paródias e mídias sociais.

clonagem de voz

AutoPostsAI

481 0

AutoPostsAI: Crie vídeos virais com IA avançada e uma interface de vidro líquido. Os recursos incluem síntese de voz neural, renderização quântica e IA de contexto para compreensão semelhante à humana.

Editor de vídeo AI

clonagem de voz

Musicfy

386 0

Musicfy é um gerador de músicas com voz de IA líder na indústria que permite criar covers em qualquer voz de mais de 100.000 opções ou clonar a sua. Simples, grátis e eleva suas habilidades musicais.

clonagem de voz

texto para música

Vaanee AI

285 0

Vaanee AI fornece clonagem de voz AI realista e tecnologia de fala generativa para criar narrações com som natural em vários idiomas. Perfeito para dublagem de vídeo AI, criação de conteúdo e muito mais.

Clonagem de voz AI

VoiSpark

307 0

Crie vozes de IA realistas com a plataforma VoiSpark. Inclui texto para fala, clonagem de voz e design de voz personalizado. Comece seu teste 100% gratuito hoje mesmo!

texto para voz

clonagem de voz

Adicionar aos Favoritos

Editar favorito

VoiceCraft

Visão geral de VoiceCraft

VoiceCraft: Edição de Voz Zero-Shot e Text-to-Speech na Natureza

Google Colab

Docker

Script Independente

Melhores ferramentas alternativas para "VoiceCraft"