VoiceCraft: Edición de voz de disparo cero y texto a voz

VoiceCraft

3.5 | 68 | 0
Tipo:
Proyectos de Código Abierto
Última actualización:
2025/10/04
Descripción:
VoiceCraft es una herramienta de IA de código abierto para la edición de voz de disparo cero y texto a voz, que permite la clonación de voz con solo unos segundos de audio de referencia. Logre un rendimiento de última generación en datos reales.
Compartir:
síntesis de voz
clonación de voz
edición de audio
TTS
TTS de disparo cero

Descripción general de VoiceCraft

VoiceCraft: Edición de Voz Zero-Shot y Texto a Voz en la Naturaleza

VoiceCraft es una herramienta potente y de código abierto que ofrece un rendimiento de última generación tanto en la edición de voz como en el texto a voz (TTS) zero-shot. Destaca en el manejo de datos de audio diversos y del mundo real, incluyendo audiolibros, vídeos de internet y podcasts. Lo que distingue a VoiceCraft es su capacidad para clonar o editar una voz no vista utilizando solo unos segundos de audio de referencia.

¿Qué es VoiceCraft?

VoiceCraft es un modelo de lenguaje de códec neuronal de relleno de tokens diseñado para tareas de edición de voz y TTS de alta calidad. Aprovecha el aprendizaje zero-shot, lo que significa que puede adaptarse a nuevas voces con datos de entrenamiento mínimos.

¿Cómo funciona VoiceCraft?

VoiceCraft funciona como un modelo de lenguaje de códec neuronal. Los aspectos clave de su funcionalidad incluyen:

  • Relleno de Tokens: VoiceCraft utiliza una técnica de relleno de tokens para editar y generar voz sin problemas.
  • Aprendizaje Zero-Shot: Puede adaptarse a nuevas voces con solo unos segundos de audio de referencia, eliminando la necesidad de extensos datos de entrenamiento.
  • Modelo de Lenguaje de Códec Neuronal: Esta arquitectura permite la síntesis y edición de voz de alta calidad.

¿Cómo usar VoiceCraft?

Hay varias formas de usar VoiceCraft:

  • Google Colab: La forma más sencilla de empezar es usar los cuadernos de Google Colab proporcionados para la edición de voz y la inferencia TTS.
  • Docker: Utilice la imagen de Docker proporcionada para un entorno consistente y reproducible.
  • Script Independiente: Integre VoiceCraft en sus proyectos utilizando los scripts independientes.

Aquí hay un desglose de cada método:

Google Colab

Google Colab proporciona una forma sencilla de empezar a usar VoiceCraft. Siga estos pasos:

  1. Abra el cuaderno de Speech Editing Colab.
  2. Abra el cuaderno de TTS Inference Colab.
  3. Siga las instrucciones dentro de los cuadernos para ejecutar las demostraciones.

Docker

Docker proporciona un entorno consistente para ejecutar VoiceCraft. Aquí se explica cómo configurarlo:

  1. Clone el repositorio:

    git clone git@github.com:jasonppy/VoiceCraft.git
    cd VoiceCraft
    
  2. Construya la imagen de Docker:

    docker build --tag "voicecraft" .
    
  3. Inicie el contenedor de Docker:

    ./start-jupyter.sh  # linux
    start-jupyter.bat   # windows
    
  4. Abra la URL que se muestra en los registros de Docker en su navegador.

  5. Abra inference_tts.ipynb y siga las instrucciones.

Script Independiente

Para usar VoiceCraft como un script independiente:

  1. Asegúrese de que su entorno esté configurado correctamente (consulte la sección Configuración del Entorno).

  2. Utilice los scripts tts_demo.py y speech_editing_demo.py.

    python3 tts_demo.py -h
    

¿Por qué elegir VoiceCraft?

  • Capacidad Zero-Shot: Se adapta a nuevas voces rápidamente con datos mínimos.
  • Salida de Alta Calidad: Ofrece un rendimiento de última generación en la edición de voz y TTS.
  • Versátil: Funciona bien con diversas fuentes de audio.
  • Código Abierto: Fomenta las contribuciones y la personalización de la comunidad.

¿Para quién es VoiceCraft?

VoiceCraft es ideal para:

  • Investigadores: Explorando la síntesis de voz y las técnicas de edición.
  • Desarrolladores: Integrando capacidades TTS avanzadas en aplicaciones.
  • Creadores de Contenido: Generando locuciones de alta calidad y audio editado.
  • Aficionados: Experimentando con la clonación de voz y la manipulación de audio.

Características Clave:

  • Smart Transcript: Permite a los usuarios especificar exactamente lo que quieren generar.
  • Modo TTS: TTS zero-shot para generar voz a partir de texto.
  • Modo Editar: Capacidades de edición de voz para modificar el audio existente.
  • Modo TTS Largo: Simplifica el TTS en textos largos.

Configuración del Entorno:

Para configurar su entorno para VoiceCraft:

  1. Cree un nuevo entorno Conda:

    conda create -n voicecraft python=3.9.16
    conda activate voicecraft
    
  2. Instale los paquetes necesarios:

    pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
    pip install xformers==0.0.22
    pip install torchaudio==2.0.2 torch==2.0.1
    apt-get install ffmpeg
    apt-get install espeak-ng
    pip install tensorboard==2.16.2
    pip install phonemizer==3.2.1
    pip install datasets==2.16.0
    pip install torchmetrics==0.11.1
    pip install huggingface_hub==0.22.2
    conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
    mfa model download dictionary english_us_arpa
    mfa model download acoustic english_us_arpa
    conda install -n voicecraft ipykernel --no-deps --force-reinstall
    

Entrenamiento y Ajuste Fino:

VoiceCraft soporta el entrenamiento y el ajuste fino en conjuntos de datos personalizados. El proceso implica:

  1. Preparar las expresiones y sus transcripciones.
  2. Codificar las expresiones en códigos usando Encodec.
  3. Convertir las transcripciones en secuencias de fonemas.
  4. Crear un archivo de manifiesto.

La mejor manera de aprovechar VoiceCraft es utilizando los scripts y cuadernos proporcionados, y adaptándolos a su caso de uso específico. Ya sea edición de voz, TTS o clonación de voz, VoiceCraft ofrece una solución robusta y flexible.

VoiceCraft tiene licencia CC BY-NC-SA 4.0 (LICENSE-CODE) para la base de código y Coqui Public Model License 1.0.0 (LICENSE-MODEL) para los pesos del modelo. También incorpora código de otros repositorios bajo licencias MIT y Apache 2.0.

Mejores herramientas alternativas a "VoiceCraft"

Videotok
Imagen no disponible
27 0

Videotok es un generador de videos con IA que convierte texto, imágenes o audio en videos atractivos para TikTok, Instagram, YouTube y más. Crea anuncios, reels sin rostro y contenido totalmente personalizable en minutos.

Creación de videos con IA
Voice AI
Imagen no disponible
106 0

Experimenta Voice AI de vanguardia con nuestro generador y convertidor gratuito de texto a habla. Disfruta de una síntesis de voz rápida y de alta calidad impulsada por modelos de IA avanzados como Deepseek, Hailuo, Grok y Kling para discursos naturales y expresivos en diversas aplicaciones.

síntesis de texto a voz
Deepfake Detector
Imagen no disponible
100 0

Deepfake Detector es una herramienta basada en IA diseñada para detectar videos, audios e imágenes manipulados con un 95% de precisión. Protégete de estafas deepfake en plataformas como YouTube y WhatsApp verificando la autenticidad de los medios rápidamente.

verificación de deepfakes
koolio.ai
Imagen no disponible
81 0

koolio.ai te permite convertir un concepto en un podcast completo en cuestión de minutos. Te ayudamos a editar podcasts y crear contenido de calidad sin complicaciones. Ya sea transcribiendo audio, colaborando con otros, seleccionando automáticamente efectos de sonido o música según el contexto para mejorar tu podcast, o realizando operaciones y manipulaciones de audio fácilmente, koolio.ai ofrece una interfaz simple, basada en web, fácil de usar e intuitiva para que te enfoques en tu creatividad.

edición de podcasts
mejora de audio
Mureka
Imagen no disponible
93 0

Descubre el generador de música con IA que crea canciones, letras y pistas únicas y personalizables para cualquier proyecto. Perfecto para creadores de contenido, músicos y cineastas, nuestro algoritmo inteligente utiliza tecnología avanzada para generar música libre de derechos adaptada a tus necesidades. Explora el futuro de la composición musical con las innovadoras herramientas de IA de Mureka, diseñadas para inspirar la creatividad y agilizar la producción. Experimenta una integración fluida y una calidad excepcional con nuestras soluciones de vanguardia.

generación de música
composición IA
BollywoodAI
Imagen no disponible
83 0

BollywoodAI ofrece chats estilo WhatsApp y notas de voz increíblemente realistas con estrellas de Bollywood como Salman Khan y Shah Rukh Khan. Chatea en hindi gratis, actualiza para acceso ilimitado a avatares y conversaciones expertas.

Avatares de Bollywood
KoboldCpp
Imagen no disponible
86 0

KoboldCpp: Ejecuta modelos GGUF fácilmente para generación de texto e imágenes con IA usando una interfaz de KoboldAI. Un solo archivo, sin instalación. Compatible con CPU/GPU, STT, TTS y Stable Diffusion.

generación de texto
VidMax AI
Imagen no disponible
354 0

VidMax AI es un generador de videos AI que te permite crear videos virales sin rostro en minutos. Convierte ideas en videos virales sin rostro al instante con la creación de videos impulsada por AI, clonación de voz, publicación automática y plantillas. Únete a más de 100,000 creadores que crean contenido atractivo.

Creación de videos con IA
Voice-Swap
Imagen no disponible
252 0

Voice-Swap es una plataforma profesional de transformación de voz con IA para músicos y creadores. Crea modelos de voz con IA personalizados y transforma tu sonido con tecnología de IA de vanguardia.

Voz AI
transformación de voz
Audie
Imagen no disponible
214 0

Audie es un lector de audiolibros con IA que ofrece narración de nivel humano con una amplia selección de voces. Convierte tu libro en un audiolibro de forma fácil, asequible y con alta calidad.

creación de audiolibros
Hoody AI
Imagen no disponible
77 0

Hoody AI ofrece acceso anónimo a LLMs líderes como GPT-4o, Claude 3.7 y Llama 3.1 a través de un tablero seguro. Disfruta de chats multi-modelo, interacciones por voz, cargas de archivos y privacidad total sin seguimiento ni datos personales.

acceso anónimo a LLM
article2audio
Imagen no disponible
228 0

article2audio convierte artículos en audio de sonido natural, interpretando imágenes y agregando pausas inteligentes. Experimente la conversión de texto a voz impulsada por IA para una mejor experiencia auditiva.

texto a voz
resumen de audio
Animaker
Imagen no disponible
249 0

Animaker es un creador de videos en línea y software de animación impulsado por IA. Crea videos animados y de acción en vivo impresionantes fácilmente con herramientas de IA. ¡Empieza gratis!

generación de videos con IA
Musajjel
Imagen no disponible
349 0

Musajjel es una plataforma impulsada por IA para la grabación, edición y distribución de podcasts sin esfuerzo. Graba desde cualquier lugar, mejora el audio con IA y llega a oyentes en Spotify, Apple Podcasts y más.

podcasting con IA
edición de audio
Talking Avatar
Imagen no disponible
26 0

¡Crea videos atractivos con Talking Avatar AI! Clona voces, sincroniza labios y reescribe videos fácilmente. Perfecto para creadores de contenido y empresas.

avatar IA
creación de video