VoiceCraft: Edição de fala zero-shot e Text-to-Speech

VoiceCraft

3.5 | 418 | 0
Tipo:
Projetos de Código Aberto
Última atualização:
2025/10/04
Descrição:
VoiceCraft é uma ferramenta de IA de código aberto para edição de voz zero-shot e conversão de texto em fala, permitindo a clonagem de voz com apenas alguns segundos de áudio de referência. Obtenha desempenho de última geração em dados reais.
Compartilhar:
síntese de voz
clonagem de voz
edição de áudio
TTS
TTS zero-shot

Visão geral de VoiceCraft

VoiceCraft: Edição de Voz Zero-Shot e Text-to-Speech na Natureza

VoiceCraft é uma ferramenta poderosa de código aberto que traz desempenho de ponta para edição de voz e text-to-speech (TTS) zero-shot. Ele se destaca no manuseio de dados de áudio diversos e do mundo real, incluindo audiolivros, vídeos da internet e podcasts. O que diferencia o VoiceCraft é sua capacidade de clonar ou editar uma voz invisível usando apenas alguns segundos de áudio de referência.

O que é VoiceCraft?

VoiceCraft é um modelo de linguagem de codec neural de preenchimento de token projetado para tarefas de edição de voz e TTS de alta qualidade. Ele aproveita o aprendizado zero-shot, o que significa que pode se adaptar a novas vozes com dados de treinamento mínimos.

Como funciona o VoiceCraft?

VoiceCraft opera como um modelo de linguagem de codec neural. Os principais aspectos de sua funcionalidade incluem:

  • Preenchimento de Token: VoiceCraft usa uma técnica de preenchimento de token para editar e gerar fala perfeitamente.
  • Aprendizado Zero-Shot: Ele pode se adaptar a novas vozes com apenas alguns segundos de áudio de referência, eliminando a necessidade de dados de treinamento extensivos.
  • Modelo de Linguagem de Codec Neural: Esta arquitetura permite a síntese e edição de fala de alta qualidade.

Como usar o VoiceCraft?

Existem várias maneiras de usar o VoiceCraft:

  • Google Colab: A maneira mais simples de começar é usar os notebooks do Google Colab fornecidos para edição de voz e inferência de TTS.
  • Docker: Use a imagem Docker fornecida para um ambiente consistente e reproduzível.
  • Script Independente: Integre o VoiceCraft em seus projetos usando os scripts independentes.

Aqui está uma análise de cada método:

Google Colab

O Google Colab oferece uma maneira direta de começar a usar o VoiceCraft. Siga estes passos:

  1. Abra o notebook do Speech Editing Colab.
  2. Abra o notebook do TTS Inference Colab.
  3. Siga as instruções nos notebooks para executar as demonstrações.

Docker

O Docker fornece um ambiente consistente para executar o VoiceCraft. Veja como configurá-lo:

  1. Clone o repositório:

    git clone git@github.com:jasonppy/VoiceCraft.git
    cd VoiceCraft
    
  2. Construa a imagem do Docker:

    docker build --tag "voicecraft" .
    
  3. Inicie o contêiner Docker:

    ./start-jupyter.sh  # linux
    start-jupyter.bat   # windows
    
  4. Abra o URL mostrado nos logs do Docker em seu navegador.

  5. Abra inference_tts.ipynb e siga as instruções.

Script Independente

Para usar o VoiceCraft como um script independente:

  1. Certifique-se de que seu ambiente esteja configurado corretamente (consulte a seção Configuração do Ambiente).

  2. Use os scripts tts_demo.py e speech_editing_demo.py.

    python3 tts_demo.py -h
    

Por que escolher o VoiceCraft?

  • Capacidade Zero-Shot: Adapta-se a novas vozes rapidamente com dados mínimos.
  • Saída de Alta Qualidade: Oferece desempenho de ponta em edição de voz e TTS.
  • Versátil: Funciona bem com diversas fontes de áudio.
  • Código Aberto: Incentiva contribuições e personalização da comunidade.

Para quem é o VoiceCraft?

VoiceCraft é ideal para:

  • Pesquisadores: Explorando técnicas de síntese e edição de fala.
  • Desenvolvedores: Integrando recursos avançados de TTS em aplicativos.
  • Criadores de Conteúdo: Gerando locuções de alta qualidade e áudio editado.
  • Hobbistas: Experimentando clonagem de voz e manipulação de áudio.

Características Principais:

  • Smart Transcript: Permite que os usuários especifiquem exatamente o que desejam gerar.
  • Modo TTS: TTS zero-shot para gerar fala a partir de texto.
  • Modo Editar: Recursos de edição de fala para modificar o áudio existente.
  • Modo TTS Longo: Simplifica o TTS em textos longos.

Configuração do Ambiente:

Para configurar seu ambiente para VoiceCraft:

  1. Crie um novo ambiente Conda:

    conda create -n voicecraft python=3.9.16
    conda activate voicecraft
    
  2. Instale os pacotes necessários:

    pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
    pip install xformers==0.0.22
    pip install torchaudio==2.0.2 torch==2.0.1
    apt-get install ffmpeg
    apt-get install espeak-ng
    pip install tensorboard==2.16.2
    pip install phonemizer==3.2.1
    pip install datasets==2.16.0
    pip install torchmetrics==0.11.1
    pip install huggingface_hub==0.22.2
    conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
    mfa model download dictionary english_us_arpa
    mfa model download acoustic english_us_arpa
    conda install -n voicecraft ipykernel --no-deps --force-reinstall
    

Treinamento e Ajuste Fino:

VoiceCraft oferece suporte a treinamento e ajuste fino em conjuntos de dados personalizados. O processo envolve:

  1. Preparar enunciados e suas transcrições.
  2. Codificar enunciados em códigos usando Encodec.
  3. Converter transcrições em sequências de fonemas.
  4. Criar um arquivo de manifesto.

A melhor maneira de aproveitar o VoiceCraft é utilizando os scripts e notebooks fornecidos e adaptando-os ao seu caso de uso específico. Seja edição de voz, TTS ou clonagem de voz, o VoiceCraft oferece uma solução robusta e flexível.

VoiceCraft é licenciado sob CC BY-NC-SA 4.0 (LICENSE-CODE) para o código-fonte e Coqui Public Model License 1.0.0 (LICENSE-MODEL) para os pesos do modelo. Ele também incorpora código de outros repositórios sob as licenças MIT e Apache 2.0.

Melhores ferramentas alternativas para "VoiceCraft"

Typecast
Imagem não disponível
404 0

Typecast é um gerador de voz IA que oferece 600+ vozes personalizáveis, clonagem de voz, edição de vídeo e avatares falantes para criadores de conteúdo.

síntese-vocal
TTS-emocional
Listnr AI
Imagem não disponível
381 0

Crie e automatize vídeos faceless sem esforço com o Listnr AI. Nossa plataforma impulsionada por IA gera e publica conteúdo fresco diariamente para crescer seus canais do TikTok e YouTube. Confiado por milhões!

geração de vídeo sem rosto
AI Avatar Generator
Imagem não disponível
339 0

Transforme fotos e vídeos em avatares IA falantes realistas instantaneamente. Vídeos profissionais com sincronização labial em mais de 40 idiomas. Comece a criar de graça hoje!

avatares falantes
Audiobox
Imagem não disponível
451 0

Audiobox é o novo modelo de pesquisa fundamental da Meta para geração de áudio. Ele pode gerar vozes e efeitos sonoros usando uma combinação de entradas de voz e prompts de texto em linguagem natural.

geração de áudio
síntese de voz
Dub AI
Imagem não disponível
399 0

Dub AI capacita criadores de conteúdo a traduzir e dublar vídeos sem esforço usando clonagem de voz e tradução por IA, expandindo o alcance para audiências globais em mais de 30 idiomas com resultados naturais.

dublagem de vídeo
clonagem de voz
Me.bot
Imagem não disponível
345 0

Me.bot é seu segundo eu com IA que transforma ideias em apresentações de voz e visuais personalizadas. Ele aprende com seus dados para falar e se engajar como você, oferecendo palestras interativas para conexões e insights mais profundos.

avatar IA pessoal
clonagem de voz
AIEasy.life
Imagem não disponível
565 0

AIEasy.life é uma plataforma de ferramentas de IA que oferece um diretório gratuito e uma experiência de descoberta. Encontre suas ferramentas de IA favoritas com AIEasy.life.

Diretório de ferramentas de IA
AIVocal
Imagem não disponível
344 0

AIVocal é uma plataforma tudo-em-um de IA para geração de voz, clonagem, podcasts e transcrição. Crie discursos realistas, audiolivros e mais com ferramentas gratuitas em +140 idiomas para criadores e profissionais.

geração de voz
síntese de fala
ToMoviee AI
Imagem não disponível
333 0

Gere vídeos, imagens, música e sons com IA. Rápido, realista, totalmente controlável. Projetado para criadores, profissionais de marketing, cineastas, designers e equipes.

texto para vídeo
geração de imagens
Trump AI Voice Generator
Imagem não disponível
340 0

Seu gerador de voz AI Donald Trump para texto em fala e vídeo—cadência realista, exportações rápidas para paródias e mídias sociais.

clonagem de voz
AutoPostsAI
Imagem não disponível
481 0

AutoPostsAI: Crie vídeos virais com IA avançada e uma interface de vidro líquido. Os recursos incluem síntese de voz neural, renderização quântica e IA de contexto para compreensão semelhante à humana.

Editor de vídeo AI
clonagem de voz
Musicfy
Imagem não disponível
386 0

Musicfy é um gerador de músicas com voz de IA líder na indústria que permite criar covers em qualquer voz de mais de 100.000 opções ou clonar a sua. Simples, grátis e eleva suas habilidades musicais.

clonagem de voz
texto para música
Vaanee AI
Imagem não disponível
285 0

Vaanee AI fornece clonagem de voz AI realista e tecnologia de fala generativa para criar narrações com som natural em vários idiomas. Perfeito para dublagem de vídeo AI, criação de conteúdo e muito mais.

Clonagem de voz AI
VoiSpark
Imagem não disponível
307 0

Crie vozes de IA realistas com a plataforma VoiSpark. Inclui texto para fala, clonagem de voz e design de voz personalizado. Comece seu teste 100% gratuito hoje mesmo!

texto para voz
clonagem de voz