VoiceCraft: Edição de fala zero-shot e Text-to-Speech

VoiceCraft

3.5 | 66 | 0
Tipo:
Projetos de Código Aberto
Última atualização:
2025/10/04
Descrição:
VoiceCraft é uma ferramenta de IA de código aberto para edição de voz zero-shot e conversão de texto em fala, permitindo a clonagem de voz com apenas alguns segundos de áudio de referência. Obtenha desempenho de última geração em dados reais.
Compartilhar:
síntese de voz
clonagem de voz
edição de áudio
TTS
TTS zero-shot

Visão geral de VoiceCraft

VoiceCraft: Edição de Voz Zero-Shot e Text-to-Speech na Natureza

VoiceCraft é uma ferramenta poderosa de código aberto que traz desempenho de ponta para edição de voz e text-to-speech (TTS) zero-shot. Ele se destaca no manuseio de dados de áudio diversos e do mundo real, incluindo audiolivros, vídeos da internet e podcasts. O que diferencia o VoiceCraft é sua capacidade de clonar ou editar uma voz invisível usando apenas alguns segundos de áudio de referência.

O que é VoiceCraft?

VoiceCraft é um modelo de linguagem de codec neural de preenchimento de token projetado para tarefas de edição de voz e TTS de alta qualidade. Ele aproveita o aprendizado zero-shot, o que significa que pode se adaptar a novas vozes com dados de treinamento mínimos.

Como funciona o VoiceCraft?

VoiceCraft opera como um modelo de linguagem de codec neural. Os principais aspectos de sua funcionalidade incluem:

  • Preenchimento de Token: VoiceCraft usa uma técnica de preenchimento de token para editar e gerar fala perfeitamente.
  • Aprendizado Zero-Shot: Ele pode se adaptar a novas vozes com apenas alguns segundos de áudio de referência, eliminando a necessidade de dados de treinamento extensivos.
  • Modelo de Linguagem de Codec Neural: Esta arquitetura permite a síntese e edição de fala de alta qualidade.

Como usar o VoiceCraft?

Existem várias maneiras de usar o VoiceCraft:

  • Google Colab: A maneira mais simples de começar é usar os notebooks do Google Colab fornecidos para edição de voz e inferência de TTS.
  • Docker: Use a imagem Docker fornecida para um ambiente consistente e reproduzível.
  • Script Independente: Integre o VoiceCraft em seus projetos usando os scripts independentes.

Aqui está uma análise de cada método:

Google Colab

O Google Colab oferece uma maneira direta de começar a usar o VoiceCraft. Siga estes passos:

  1. Abra o notebook do Speech Editing Colab.
  2. Abra o notebook do TTS Inference Colab.
  3. Siga as instruções nos notebooks para executar as demonstrações.

Docker

O Docker fornece um ambiente consistente para executar o VoiceCraft. Veja como configurá-lo:

  1. Clone o repositório:

    git clone git@github.com:jasonppy/VoiceCraft.git
    cd VoiceCraft
    
  2. Construa a imagem do Docker:

    docker build --tag "voicecraft" .
    
  3. Inicie o contêiner Docker:

    ./start-jupyter.sh  # linux
    start-jupyter.bat   # windows
    
  4. Abra o URL mostrado nos logs do Docker em seu navegador.

  5. Abra inference_tts.ipynb e siga as instruções.

Script Independente

Para usar o VoiceCraft como um script independente:

  1. Certifique-se de que seu ambiente esteja configurado corretamente (consulte a seção Configuração do Ambiente).

  2. Use os scripts tts_demo.py e speech_editing_demo.py.

    python3 tts_demo.py -h
    

Por que escolher o VoiceCraft?

  • Capacidade Zero-Shot: Adapta-se a novas vozes rapidamente com dados mínimos.
  • Saída de Alta Qualidade: Oferece desempenho de ponta em edição de voz e TTS.
  • Versátil: Funciona bem com diversas fontes de áudio.
  • Código Aberto: Incentiva contribuições e personalização da comunidade.

Para quem é o VoiceCraft?

VoiceCraft é ideal para:

  • Pesquisadores: Explorando técnicas de síntese e edição de fala.
  • Desenvolvedores: Integrando recursos avançados de TTS em aplicativos.
  • Criadores de Conteúdo: Gerando locuções de alta qualidade e áudio editado.
  • Hobbistas: Experimentando clonagem de voz e manipulação de áudio.

Características Principais:

  • Smart Transcript: Permite que os usuários especifiquem exatamente o que desejam gerar.
  • Modo TTS: TTS zero-shot para gerar fala a partir de texto.
  • Modo Editar: Recursos de edição de fala para modificar o áudio existente.
  • Modo TTS Longo: Simplifica o TTS em textos longos.

Configuração do Ambiente:

Para configurar seu ambiente para VoiceCraft:

  1. Crie um novo ambiente Conda:

    conda create -n voicecraft python=3.9.16
    conda activate voicecraft
    
  2. Instale os pacotes necessários:

    pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
    pip install xformers==0.0.22
    pip install torchaudio==2.0.2 torch==2.0.1
    apt-get install ffmpeg
    apt-get install espeak-ng
    pip install tensorboard==2.16.2
    pip install phonemizer==3.2.1
    pip install datasets==2.16.0
    pip install torchmetrics==0.11.1
    pip install huggingface_hub==0.22.2
    conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
    mfa model download dictionary english_us_arpa
    mfa model download acoustic english_us_arpa
    conda install -n voicecraft ipykernel --no-deps --force-reinstall
    

Treinamento e Ajuste Fino:

VoiceCraft oferece suporte a treinamento e ajuste fino em conjuntos de dados personalizados. O processo envolve:

  1. Preparar enunciados e suas transcrições.
  2. Codificar enunciados em códigos usando Encodec.
  3. Converter transcrições em sequências de fonemas.
  4. Criar um arquivo de manifesto.

A melhor maneira de aproveitar o VoiceCraft é utilizando os scripts e notebooks fornecidos e adaptando-os ao seu caso de uso específico. Seja edição de voz, TTS ou clonagem de voz, o VoiceCraft oferece uma solução robusta e flexível.

VoiceCraft é licenciado sob CC BY-NC-SA 4.0 (LICENSE-CODE) para o código-fonte e Coqui Public Model License 1.0.0 (LICENSE-MODEL) para os pesos do modelo. Ele também incorpora código de outros repositórios sob as licenças MIT e Apache 2.0.

Melhores ferramentas alternativas para "VoiceCraft"

VidMax AI
Imagem não disponível
354 0

VidMax AI é um gerador de vídeos AI que permite criar vídeos virais sem rosto em minutos. Transforme ideias em vídeos virais sem rosto instantaneamente com a criação de vídeos com tecnologia de IA, clonagem de voz, postagem automática e modelos. Junte-se a mais de 100.000 criadores que criam conteúdo envolvente.

Criação de vídeos com IA
Mureka
Imagem não disponível
93 0

Descubra o gerador de música com IA que cria músicas, letras e trilhas únicas e personalizáveis para qualquer projeto. Perfeito para criadores de conteúdo, músicos e cineastas, nosso algoritmo inteligente usa tecnologia avançada para gerar música livre de royalties adaptada às suas necessidades. Explore o futuro da composição musical com as inovadoras ferramentas de IA do Mureka, projetadas para inspirar criatividade e agilizar a produção. Experimente integração perfeita e qualidade excepcional com nossas soluções de ponta.

geração de música
composição IA
KoboldCpp
Imagem não disponível
86 0

KoboldCpp: Execute modelos GGUF facilmente para geração de texto e imagem com IA usando uma interface KoboldAI. Arquivo único, instalação zero. Suporta CPU/GPU, STT, TTS e Stable Diffusion.

geração de texto
geração de imagens
Videotok
Imagem não disponível
27 0

Videotok é um gerador de vídeos com IA que transforma texto, imagens ou áudio em vídeos envolventes para TikTok, Instagram, YouTube e muito mais. Crie anúncios, vídeos sem rosto e conteúdo totalmente personalizável em minutos.

Criação de vídeos com IA
BollywoodAI
Imagem não disponível
83 0

BollywoodAI oferece chats no estilo WhatsApp e notas de voz incrivelmente realistas com estrelas de Bollywood como Salman Khan e Shah Rukh Khan. Converse em hindi gratuitamente, atualize para acesso ilimitado a avatares e conversas com especialistas.

Avatares de Bollywood
koolio.ai
Imagem não disponível
81 0

koolio.ai permite que você transforme um conceito em um podcast completo em questão de minutos. Ajudamos você a editar podcasts e criar conteúdo de qualidade sem dor. Seja transcrevendo áudio, colaborando com outros, selecionando automaticamente efeitos sonoros ou música com base no contexto para aprimorar seu podcast, ou realizando operações e manipulações de áudio facilmente, koolio.ai fornece uma interface simples, baseada na web, fácil de usar e intuitiva para você se concentrar na sua criatividade.

edição de podcasts
melhoria de áudio
Deepfake Detector
Imagem não disponível
100 0

Deepfake Detector é uma ferramenta baseada em IA projetada para detectar vídeos, áudios e imagens manipulados com 95% de precisão. Proteja-se de golpes deepfake em plataformas como YouTube e WhatsApp verificando a autenticidade dos meios rapidamente.

verificação de deepfakes
Voice AI
Imagem não disponível
106 0

Experimente Voice AI de ponta com nosso gerador e conversor gratuito de texto para fala. Desfrute de síntese de voz rápida e de alta qualidade alimentada por modelos de IA avançados como Deepseek, Hailuo, Grok e Kling para fala natural e expressiva em várias aplicações.

síntese de texto para fala
Voicely 2.0
Imagem não disponível
78 0

Voicely 2.0 é um clonador de voz e conversor de texto em voz alimentado por IA que cria vozes em off naturais em 60+ idiomas com 500+ vozes. Perfeito para criadores de vídeo, marketers e produtores de conteúdo.

clonagem de voz
texto em voz
Klyra AI
Imagem não disponível
84 0

Klyra AI é a plataforma tudo-em-um definitiva para criar vídeos, narrações, imagens, blogs, música e mais usando ferramentas de IA avançadas. Aumente a produtividade com automação de conteúdo perfeita.

geração de conteúdo
criação de vídeo
Kits AI
Imagem não disponível
220 0

Kits AI oferece ferramentas de música AI com qualidade de estúdio para produtores, incluindo clonagem de voz, remoção vocal e masterização AI, garantindo um uso 100% livre de direitos autorais.

Produção de música AI
TTSMaker
Imagem não disponível
73 0

TTSMaker é uma ferramenta online gratuita de texto para voz que converte texto em voz natural usando tecnologia IA. Suporta 100+ idiomas e 600+ vozes IA, oferecendo direitos de uso comercial e downloads MP3/WAV.

síntese de voz
geração de voz
Jammable
Imagem não disponível
168 0

Crie capas de IA em segundos com Jammable, usando milhares de modelos de voz de IA enviados pela comunidade. Treine sua própria voz e explore possibilidades criativas!

Cover de música AI
clonagem de voz
Audio Enhancer
Imagem não disponível
270 0

Melhore a qualidade do áudio com o Audio Enhancer, uma ferramenta online com tecnologia de IA. Remova ruído de fundo, eco e muito mais com um clique. Perfeito para podcasts, vídeos e músicas.

melhoria de áudio
redução de ruído
Syllaby
Imagem não disponível
295 0

Syllaby é um gerador de vídeos com tecnologia de IA que transforma ideias em vídeos envolventes e sem rosto para mídias sociais. Crie scripts, visuais e vozes de IA facilmente, economizando tempo e dinheiro.

Geração de vídeo AI
vídeo sem rosto