VoiceCraft
Visão geral de VoiceCraft
VoiceCraft: Edição de Voz Zero-Shot e Text-to-Speech na Natureza
VoiceCraft é uma ferramenta poderosa de código aberto que traz desempenho de ponta para edição de voz e text-to-speech (TTS) zero-shot. Ele se destaca no manuseio de dados de áudio diversos e do mundo real, incluindo audiolivros, vídeos da internet e podcasts. O que diferencia o VoiceCraft é sua capacidade de clonar ou editar uma voz invisível usando apenas alguns segundos de áudio de referência.
O que é VoiceCraft?
VoiceCraft é um modelo de linguagem de codec neural de preenchimento de token projetado para tarefas de edição de voz e TTS de alta qualidade. Ele aproveita o aprendizado zero-shot, o que significa que pode se adaptar a novas vozes com dados de treinamento mínimos.
Como funciona o VoiceCraft?
VoiceCraft opera como um modelo de linguagem de codec neural. Os principais aspectos de sua funcionalidade incluem:
- Preenchimento de Token: VoiceCraft usa uma técnica de preenchimento de token para editar e gerar fala perfeitamente.
- Aprendizado Zero-Shot: Ele pode se adaptar a novas vozes com apenas alguns segundos de áudio de referência, eliminando a necessidade de dados de treinamento extensivos.
- Modelo de Linguagem de Codec Neural: Esta arquitetura permite a síntese e edição de fala de alta qualidade.
Como usar o VoiceCraft?
Existem várias maneiras de usar o VoiceCraft:
- Google Colab: A maneira mais simples de começar é usar os notebooks do Google Colab fornecidos para edição de voz e inferência de TTS.
- Docker: Use a imagem Docker fornecida para um ambiente consistente e reproduzível.
- Script Independente: Integre o VoiceCraft em seus projetos usando os scripts independentes.
Aqui está uma análise de cada método:
Google Colab
O Google Colab oferece uma maneira direta de começar a usar o VoiceCraft. Siga estes passos:
- Abra o notebook do Speech Editing Colab.
- Abra o notebook do TTS Inference Colab.
- Siga as instruções nos notebooks para executar as demonstrações.
Docker
O Docker fornece um ambiente consistente para executar o VoiceCraft. Veja como configurá-lo:
Clone o repositório:
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraftConstrua a imagem do Docker:
docker build --tag "voicecraft" .Inicie o contêiner Docker:
./start-jupyter.sh # linux start-jupyter.bat # windowsAbra o URL mostrado nos logs do Docker em seu navegador.
Abra
inference_tts.ipynbe siga as instruções.
Script Independente
Para usar o VoiceCraft como um script independente:
Certifique-se de que seu ambiente esteja configurado corretamente (consulte a seção Configuração do Ambiente).
Use os scripts
tts_demo.pyespeech_editing_demo.py.python3 tts_demo.py -h
Por que escolher o VoiceCraft?
- Capacidade Zero-Shot: Adapta-se a novas vozes rapidamente com dados mínimos.
- Saída de Alta Qualidade: Oferece desempenho de ponta em edição de voz e TTS.
- Versátil: Funciona bem com diversas fontes de áudio.
- Código Aberto: Incentiva contribuições e personalização da comunidade.
Para quem é o VoiceCraft?
VoiceCraft é ideal para:
- Pesquisadores: Explorando técnicas de síntese e edição de fala.
- Desenvolvedores: Integrando recursos avançados de TTS em aplicativos.
- Criadores de Conteúdo: Gerando locuções de alta qualidade e áudio editado.
- Hobbistas: Experimentando clonagem de voz e manipulação de áudio.
Características Principais:
- Smart Transcript: Permite que os usuários especifiquem exatamente o que desejam gerar.
- Modo TTS: TTS zero-shot para gerar fala a partir de texto.
- Modo Editar: Recursos de edição de fala para modificar o áudio existente.
- Modo TTS Longo: Simplifica o TTS em textos longos.
Configuração do Ambiente:
Para configurar seu ambiente para VoiceCraft:
Crie um novo ambiente Conda:
conda create -n voicecraft python=3.9.16 conda activate voicecraftInstale os pacotes necessários:
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers==0.0.22 pip install torchaudio==2.0.2 torch==2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard==2.16.2 pip install phonemizer==3.2.1 pip install datasets==2.16.0 pip install torchmetrics==0.11.1 pip install huggingface_hub==0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall
Treinamento e Ajuste Fino:
VoiceCraft oferece suporte a treinamento e ajuste fino em conjuntos de dados personalizados. O processo envolve:
- Preparar enunciados e suas transcrições.
- Codificar enunciados em códigos usando Encodec.
- Converter transcrições em sequências de fonemas.
- Criar um arquivo de manifesto.
A melhor maneira de aproveitar o VoiceCraft é utilizando os scripts e notebooks fornecidos e adaptando-os ao seu caso de uso específico. Seja edição de voz, TTS ou clonagem de voz, o VoiceCraft oferece uma solução robusta e flexível.
VoiceCraft é licenciado sob CC BY-NC-SA 4.0 (LICENSE-CODE) para o código-fonte e Coqui Public Model License 1.0.0 (LICENSE-MODEL) para os pesos do modelo. Ele também incorpora código de outros repositórios sob as licenças MIT e Apache 2.0.
Melhores ferramentas alternativas para "VoiceCraft"
Typecast é um gerador de voz IA que oferece 600+ vozes personalizáveis, clonagem de voz, edição de vídeo e avatares falantes para criadores de conteúdo.
Crie e automatize vídeos faceless sem esforço com o Listnr AI. Nossa plataforma impulsionada por IA gera e publica conteúdo fresco diariamente para crescer seus canais do TikTok e YouTube. Confiado por milhões!
Transforme fotos e vídeos em avatares IA falantes realistas instantaneamente. Vídeos profissionais com sincronização labial em mais de 40 idiomas. Comece a criar de graça hoje!
Audiobox é o novo modelo de pesquisa fundamental da Meta para geração de áudio. Ele pode gerar vozes e efeitos sonoros usando uma combinação de entradas de voz e prompts de texto em linguagem natural.
Dub AI capacita criadores de conteúdo a traduzir e dublar vídeos sem esforço usando clonagem de voz e tradução por IA, expandindo o alcance para audiências globais em mais de 30 idiomas com resultados naturais.
Me.bot é seu segundo eu com IA que transforma ideias em apresentações de voz e visuais personalizadas. Ele aprende com seus dados para falar e se engajar como você, oferecendo palestras interativas para conexões e insights mais profundos.
AIEasy.life é uma plataforma de ferramentas de IA que oferece um diretório gratuito e uma experiência de descoberta. Encontre suas ferramentas de IA favoritas com AIEasy.life.
AIVocal é uma plataforma tudo-em-um de IA para geração de voz, clonagem, podcasts e transcrição. Crie discursos realistas, audiolivros e mais com ferramentas gratuitas em +140 idiomas para criadores e profissionais.
Gere vídeos, imagens, música e sons com IA. Rápido, realista, totalmente controlável. Projetado para criadores, profissionais de marketing, cineastas, designers e equipes.
Seu gerador de voz AI Donald Trump para texto em fala e vídeo—cadência realista, exportações rápidas para paródias e mídias sociais.
AutoPostsAI: Crie vídeos virais com IA avançada e uma interface de vidro líquido. Os recursos incluem síntese de voz neural, renderização quântica e IA de contexto para compreensão semelhante à humana.
Musicfy é um gerador de músicas com voz de IA líder na indústria que permite criar covers em qualquer voz de mais de 100.000 opções ou clonar a sua. Simples, grátis e eleva suas habilidades musicais.
Vaanee AI fornece clonagem de voz AI realista e tecnologia de fala generativa para criar narrações com som natural em vários idiomas. Perfeito para dublagem de vídeo AI, criação de conteúdo e muito mais.
Crie vozes de IA realistas com a plataforma VoiSpark. Inclui texto para fala, clonagem de voz e design de voz personalizado. Comece seu teste 100% gratuito hoje mesmo!