VoiceCraft
Visão geral de VoiceCraft
VoiceCraft: Edição de Voz Zero-Shot e Text-to-Speech na Natureza
VoiceCraft é uma ferramenta poderosa de código aberto que traz desempenho de ponta para edição de voz e text-to-speech (TTS) zero-shot. Ele se destaca no manuseio de dados de áudio diversos e do mundo real, incluindo audiolivros, vídeos da internet e podcasts. O que diferencia o VoiceCraft é sua capacidade de clonar ou editar uma voz invisível usando apenas alguns segundos de áudio de referência.
O que é VoiceCraft?
VoiceCraft é um modelo de linguagem de codec neural de preenchimento de token projetado para tarefas de edição de voz e TTS de alta qualidade. Ele aproveita o aprendizado zero-shot, o que significa que pode se adaptar a novas vozes com dados de treinamento mínimos.
Como funciona o VoiceCraft?
VoiceCraft opera como um modelo de linguagem de codec neural. Os principais aspectos de sua funcionalidade incluem:
- Preenchimento de Token: VoiceCraft usa uma técnica de preenchimento de token para editar e gerar fala perfeitamente.
- Aprendizado Zero-Shot: Ele pode se adaptar a novas vozes com apenas alguns segundos de áudio de referência, eliminando a necessidade de dados de treinamento extensivos.
- Modelo de Linguagem de Codec Neural: Esta arquitetura permite a síntese e edição de fala de alta qualidade.
Como usar o VoiceCraft?
Existem várias maneiras de usar o VoiceCraft:
- Google Colab: A maneira mais simples de começar é usar os notebooks do Google Colab fornecidos para edição de voz e inferência de TTS.
- Docker: Use a imagem Docker fornecida para um ambiente consistente e reproduzível.
- Script Independente: Integre o VoiceCraft em seus projetos usando os scripts independentes.
Aqui está uma análise de cada método:
Google Colab
O Google Colab oferece uma maneira direta de começar a usar o VoiceCraft. Siga estes passos:
- Abra o notebook do Speech Editing Colab.
- Abra o notebook do TTS Inference Colab.
- Siga as instruções nos notebooks para executar as demonstrações.
Docker
O Docker fornece um ambiente consistente para executar o VoiceCraft. Veja como configurá-lo:
Clone o repositório:
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft
Construa a imagem do Docker:
docker build --tag "voicecraft" .
Inicie o contêiner Docker:
./start-jupyter.sh # linux start-jupyter.bat # windows
Abra o URL mostrado nos logs do Docker em seu navegador.
Abra
inference_tts.ipynb
e siga as instruções.
Script Independente
Para usar o VoiceCraft como um script independente:
Certifique-se de que seu ambiente esteja configurado corretamente (consulte a seção Configuração do Ambiente).
Use os scripts
tts_demo.py
espeech_editing_demo.py
.python3 tts_demo.py -h
Por que escolher o VoiceCraft?
- Capacidade Zero-Shot: Adapta-se a novas vozes rapidamente com dados mínimos.
- Saída de Alta Qualidade: Oferece desempenho de ponta em edição de voz e TTS.
- Versátil: Funciona bem com diversas fontes de áudio.
- Código Aberto: Incentiva contribuições e personalização da comunidade.
Para quem é o VoiceCraft?
VoiceCraft é ideal para:
- Pesquisadores: Explorando técnicas de síntese e edição de fala.
- Desenvolvedores: Integrando recursos avançados de TTS em aplicativos.
- Criadores de Conteúdo: Gerando locuções de alta qualidade e áudio editado.
- Hobbistas: Experimentando clonagem de voz e manipulação de áudio.
Características Principais:
- Smart Transcript: Permite que os usuários especifiquem exatamente o que desejam gerar.
- Modo TTS: TTS zero-shot para gerar fala a partir de texto.
- Modo Editar: Recursos de edição de fala para modificar o áudio existente.
- Modo TTS Longo: Simplifica o TTS em textos longos.
Configuração do Ambiente:
Para configurar seu ambiente para VoiceCraft:
Crie um novo ambiente Conda:
conda create -n voicecraft python=3.9.16 conda activate voicecraft
Instale os pacotes necessários:
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers==0.0.22 pip install torchaudio==2.0.2 torch==2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard==2.16.2 pip install phonemizer==3.2.1 pip install datasets==2.16.0 pip install torchmetrics==0.11.1 pip install huggingface_hub==0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall
Treinamento e Ajuste Fino:
VoiceCraft oferece suporte a treinamento e ajuste fino em conjuntos de dados personalizados. O processo envolve:
- Preparar enunciados e suas transcrições.
- Codificar enunciados em códigos usando Encodec.
- Converter transcrições em sequências de fonemas.
- Criar um arquivo de manifesto.
A melhor maneira de aproveitar o VoiceCraft é utilizando os scripts e notebooks fornecidos e adaptando-os ao seu caso de uso específico. Seja edição de voz, TTS ou clonagem de voz, o VoiceCraft oferece uma solução robusta e flexível.
VoiceCraft é licenciado sob CC BY-NC-SA 4.0 (LICENSE-CODE) para o código-fonte e Coqui Public Model License 1.0.0 (LICENSE-MODEL) para os pesos do modelo. Ele também incorpora código de outros repositórios sob as licenças MIT e Apache 2.0.
Melhores ferramentas alternativas para "VoiceCraft"

VidMax AI é um gerador de vídeos AI que permite criar vídeos virais sem rosto em minutos. Transforme ideias em vídeos virais sem rosto instantaneamente com a criação de vídeos com tecnologia de IA, clonagem de voz, postagem automática e modelos. Junte-se a mais de 100.000 criadores que criam conteúdo envolvente.

Descubra o gerador de música com IA que cria músicas, letras e trilhas únicas e personalizáveis para qualquer projeto. Perfeito para criadores de conteúdo, músicos e cineastas, nosso algoritmo inteligente usa tecnologia avançada para gerar música livre de royalties adaptada às suas necessidades. Explore o futuro da composição musical com as inovadoras ferramentas de IA do Mureka, projetadas para inspirar criatividade e agilizar a produção. Experimente integração perfeita e qualidade excepcional com nossas soluções de ponta.

KoboldCpp: Execute modelos GGUF facilmente para geração de texto e imagem com IA usando uma interface KoboldAI. Arquivo único, instalação zero. Suporta CPU/GPU, STT, TTS e Stable Diffusion.

Videotok é um gerador de vídeos com IA que transforma texto, imagens ou áudio em vídeos envolventes para TikTok, Instagram, YouTube e muito mais. Crie anúncios, vídeos sem rosto e conteúdo totalmente personalizável em minutos.

BollywoodAI oferece chats no estilo WhatsApp e notas de voz incrivelmente realistas com estrelas de Bollywood como Salman Khan e Shah Rukh Khan. Converse em hindi gratuitamente, atualize para acesso ilimitado a avatares e conversas com especialistas.

koolio.ai permite que você transforme um conceito em um podcast completo em questão de minutos. Ajudamos você a editar podcasts e criar conteúdo de qualidade sem dor. Seja transcrevendo áudio, colaborando com outros, selecionando automaticamente efeitos sonoros ou música com base no contexto para aprimorar seu podcast, ou realizando operações e manipulações de áudio facilmente, koolio.ai fornece uma interface simples, baseada na web, fácil de usar e intuitiva para você se concentrar na sua criatividade.

Deepfake Detector é uma ferramenta baseada em IA projetada para detectar vídeos, áudios e imagens manipulados com 95% de precisão. Proteja-se de golpes deepfake em plataformas como YouTube e WhatsApp verificando a autenticidade dos meios rapidamente.

Experimente Voice AI de ponta com nosso gerador e conversor gratuito de texto para fala. Desfrute de síntese de voz rápida e de alta qualidade alimentada por modelos de IA avançados como Deepseek, Hailuo, Grok e Kling para fala natural e expressiva em várias aplicações.

Voicely 2.0 é um clonador de voz e conversor de texto em voz alimentado por IA que cria vozes em off naturais em 60+ idiomas com 500+ vozes. Perfeito para criadores de vídeo, marketers e produtores de conteúdo.

Klyra AI é a plataforma tudo-em-um definitiva para criar vídeos, narrações, imagens, blogs, música e mais usando ferramentas de IA avançadas. Aumente a produtividade com automação de conteúdo perfeita.

Kits AI oferece ferramentas de música AI com qualidade de estúdio para produtores, incluindo clonagem de voz, remoção vocal e masterização AI, garantindo um uso 100% livre de direitos autorais.

TTSMaker é uma ferramenta online gratuita de texto para voz que converte texto em voz natural usando tecnologia IA. Suporta 100+ idiomas e 600+ vozes IA, oferecendo direitos de uso comercial e downloads MP3/WAV.

Crie capas de IA em segundos com Jammable, usando milhares de modelos de voz de IA enviados pela comunidade. Treine sua própria voz e explore possibilidades criativas!

Melhore a qualidade do áudio com o Audio Enhancer, uma ferramenta online com tecnologia de IA. Remova ruído de fundo, eco e muito mais com um clique. Perfeito para podcasts, vídeos e músicas.

Syllaby é um gerador de vídeos com tecnologia de IA que transforma ideias em vídeos envolventes e sem rosto para mídias sociais. Crie scripts, visuais e vozes de IA facilmente, economizando tempo e dinheiro.