VoiceCraft: Edición de voz de disparo cero y texto a voz

VoiceCraft

3.5 | 413 | 0
Tipo:
Proyectos de Código Abierto
Última actualización:
2025/10/04
Descripción:
VoiceCraft es una herramienta de IA de código abierto para la edición de voz de disparo cero y texto a voz, que permite la clonación de voz con solo unos segundos de audio de referencia. Logre un rendimiento de última generación en datos reales.
Compartir:
síntesis de voz
clonación de voz
edición de audio
TTS
TTS de disparo cero

Descripción general de VoiceCraft

VoiceCraft: Edición de Voz Zero-Shot y Texto a Voz en la Naturaleza

VoiceCraft es una herramienta potente y de código abierto que ofrece un rendimiento de última generación tanto en la edición de voz como en el texto a voz (TTS) zero-shot. Destaca en el manejo de datos de audio diversos y del mundo real, incluyendo audiolibros, vídeos de internet y podcasts. Lo que distingue a VoiceCraft es su capacidad para clonar o editar una voz no vista utilizando solo unos segundos de audio de referencia.

¿Qué es VoiceCraft?

VoiceCraft es un modelo de lenguaje de códec neuronal de relleno de tokens diseñado para tareas de edición de voz y TTS de alta calidad. Aprovecha el aprendizaje zero-shot, lo que significa que puede adaptarse a nuevas voces con datos de entrenamiento mínimos.

¿Cómo funciona VoiceCraft?

VoiceCraft funciona como un modelo de lenguaje de códec neuronal. Los aspectos clave de su funcionalidad incluyen:

  • Relleno de Tokens: VoiceCraft utiliza una técnica de relleno de tokens para editar y generar voz sin problemas.
  • Aprendizaje Zero-Shot: Puede adaptarse a nuevas voces con solo unos segundos de audio de referencia, eliminando la necesidad de extensos datos de entrenamiento.
  • Modelo de Lenguaje de Códec Neuronal: Esta arquitectura permite la síntesis y edición de voz de alta calidad.

¿Cómo usar VoiceCraft?

Hay varias formas de usar VoiceCraft:

  • Google Colab: La forma más sencilla de empezar es usar los cuadernos de Google Colab proporcionados para la edición de voz y la inferencia TTS.
  • Docker: Utilice la imagen de Docker proporcionada para un entorno consistente y reproducible.
  • Script Independiente: Integre VoiceCraft en sus proyectos utilizando los scripts independientes.

Aquí hay un desglose de cada método:

Google Colab

Google Colab proporciona una forma sencilla de empezar a usar VoiceCraft. Siga estos pasos:

  1. Abra el cuaderno de Speech Editing Colab.
  2. Abra el cuaderno de TTS Inference Colab.
  3. Siga las instrucciones dentro de los cuadernos para ejecutar las demostraciones.

Docker

Docker proporciona un entorno consistente para ejecutar VoiceCraft. Aquí se explica cómo configurarlo:

  1. Clone el repositorio:

    git clone git@github.com:jasonppy/VoiceCraft.git
    cd VoiceCraft
    
  2. Construya la imagen de Docker:

    docker build --tag "voicecraft" .
    
  3. Inicie el contenedor de Docker:

    ./start-jupyter.sh  # linux
    start-jupyter.bat   # windows
    
  4. Abra la URL que se muestra en los registros de Docker en su navegador.

  5. Abra inference_tts.ipynb y siga las instrucciones.

Script Independiente

Para usar VoiceCraft como un script independiente:

  1. Asegúrese de que su entorno esté configurado correctamente (consulte la sección Configuración del Entorno).

  2. Utilice los scripts tts_demo.py y speech_editing_demo.py.

    python3 tts_demo.py -h
    

¿Por qué elegir VoiceCraft?

  • Capacidad Zero-Shot: Se adapta a nuevas voces rápidamente con datos mínimos.
  • Salida de Alta Calidad: Ofrece un rendimiento de última generación en la edición de voz y TTS.
  • Versátil: Funciona bien con diversas fuentes de audio.
  • Código Abierto: Fomenta las contribuciones y la personalización de la comunidad.

¿Para quién es VoiceCraft?

VoiceCraft es ideal para:

  • Investigadores: Explorando la síntesis de voz y las técnicas de edición.
  • Desarrolladores: Integrando capacidades TTS avanzadas en aplicaciones.
  • Creadores de Contenido: Generando locuciones de alta calidad y audio editado.
  • Aficionados: Experimentando con la clonación de voz y la manipulación de audio.

Características Clave:

  • Smart Transcript: Permite a los usuarios especificar exactamente lo que quieren generar.
  • Modo TTS: TTS zero-shot para generar voz a partir de texto.
  • Modo Editar: Capacidades de edición de voz para modificar el audio existente.
  • Modo TTS Largo: Simplifica el TTS en textos largos.

Configuración del Entorno:

Para configurar su entorno para VoiceCraft:

  1. Cree un nuevo entorno Conda:

    conda create -n voicecraft python=3.9.16
    conda activate voicecraft
    
  2. Instale los paquetes necesarios:

    pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
    pip install xformers==0.0.22
    pip install torchaudio==2.0.2 torch==2.0.1
    apt-get install ffmpeg
    apt-get install espeak-ng
    pip install tensorboard==2.16.2
    pip install phonemizer==3.2.1
    pip install datasets==2.16.0
    pip install torchmetrics==0.11.1
    pip install huggingface_hub==0.22.2
    conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
    mfa model download dictionary english_us_arpa
    mfa model download acoustic english_us_arpa
    conda install -n voicecraft ipykernel --no-deps --force-reinstall
    

Entrenamiento y Ajuste Fino:

VoiceCraft soporta el entrenamiento y el ajuste fino en conjuntos de datos personalizados. El proceso implica:

  1. Preparar las expresiones y sus transcripciones.
  2. Codificar las expresiones en códigos usando Encodec.
  3. Convertir las transcripciones en secuencias de fonemas.
  4. Crear un archivo de manifiesto.

La mejor manera de aprovechar VoiceCraft es utilizando los scripts y cuadernos proporcionados, y adaptándolos a su caso de uso específico. Ya sea edición de voz, TTS o clonación de voz, VoiceCraft ofrece una solución robusta y flexible.

VoiceCraft tiene licencia CC BY-NC-SA 4.0 (LICENSE-CODE) para la base de código y Coqui Public Model License 1.0.0 (LICENSE-MODEL) para los pesos del modelo. También incorpora código de otros repositorios bajo licencias MIT y Apache 2.0.

Mejores herramientas alternativas a "VoiceCraft"

Typecast
Imagen no disponible
404 0

Typecast es un generador de voz AI que ofrece 600+ voces personalizables, clonación de voz, edición de video y avatares parlantes para creadores de contenido.

síntesis-de-voz
TTS-emocional
Listnr AI
Imagen no disponible
381 0

Crea y automatiza videos faceless fácilmente con Listnr AI. Nuestra plataforma impulsada por IA genera y publica contenido fresco diariamente para hacer crecer tus canales de TikTok y YouTube. ¡Confiada por millones!

generación de video sin rostro
AI Avatar Generator
Imagen no disponible
339 0

Transforma fotos y videos en avatares AI parlantes realistas al instante. Videos profesionales con sincronización labial en más de 40 idiomas. ¡Comienza a crear gratis hoy!

avatares parlantes
Audiobox
Imagen no disponible
451 0

Audiobox es el nuevo modelo de investigación fundamental de Meta para la generación de audio. Puede generar voces y efectos de sonido usando una combinación de entradas de voz y indicaciones de texto en lenguaje natural.

generación de audio
síntesis de voz
Dub AI
Imagen no disponible
399 0

Dub AI permite a los creadores de contenido traducir y doblar videos sin esfuerzo con clonación de voz y traducción por IA, expandiendo el alcance a audiencias globales en más de 30 idiomas con resultados naturales.

doblaje de video
clonación de voz
Me.bot
Imagen no disponible
345 0

Me.bot es tu segundo yo con IA que convierte ideas en presentaciones de voz y visuales personalizadas. Aprende de tus datos para hablar y comprometerse como tú, ofreciendo charlas interactivas para conexiones y perspectivas más profundas.

avatar AI personal
clonación de voz
AIEasy.life
Imagen no disponible
565 0

AIEasy.life es una plataforma de herramientas de IA que proporciona un directorio gratuito y una experiencia de descubrimiento. Encuentra tus herramientas de IA favoritas con AIEasy.life.

Directorio de herramientas de IA
AIVocal
Imagen no disponible
344 0

AIVocal es una plataforma todo-en-uno de IA para generación de voz, clonación, podcasts y transcripción. Crea discursos realistas, audiolibros y más con herramientas gratuitas en +140 idiomas para creadores y profesionales.

generación de voz
síntesis de habla
Trump AI Voice Generator
Imagen no disponible
340 0

Tu generador de voz AI de Donald Trump para texto a voz y video—cadencia realista, exportaciones rápidas para parodias y redes sociales.

clonación de voz
AutoPostsAI
Imagen no disponible
481 0

AutoPostsAI: Cree videos virales con IA avanzada y una interfaz de vidrio líquido. Las características incluyen síntesis de voz neuronal, renderizado cuántico e IA de contexto para una comprensión similar a la humana.

Editor de video AI
clonación de voz
Musicfy
Imagen no disponible
386 0

Musicfy es un generador de canciones con voz de IA líder en la industria que te permite crear covers en cualquier voz de más de 100,000 opciones o clonar la tuya. Simple, gratis y eleva tus habilidades musicales.

clonación de voz
texto a música
All Voice Lab
Imagen no disponible
355 0

All Voice Lab ofrece herramientas AI de texto a voz, clonación de voz y cambiador de voz para audio realista y multilingüe. Crea doblajes atractivos con expresividad emocional—prueba gratuita hoy.

clonación de voz
texto a voz
VoiSpark
Imagen no disponible
307 0

Crea voces de IA realistas con la plataforma de VoiSpark. Incluye texto a voz, clonación de voz y diseño de voz personalizado. ¡Comienza tu prueba 100% gratuita hoy mismo!

texto a voz
clonación de voz
FineVoice AI Voice Generator
Imagen no disponible
163 0

FineVoice AI Voice Generator: Convierte texto a voz con voces de IA realistas, clona voces en cualquier estilo o idioma. Ideal para medios, entretenimiento, educación y negocios. ¡Pruébalo gratis!

texto a voz
clonación de voz