Categorías de HerramientasAudio y VozSíntesis de Voz con IA

VoiceCraft

3.5 413 0

Tipo:

Proyectos de Código Abierto

Última actualización:

2025/10/04

Descripción:

VoiceCraft es una herramienta de IA de código abierto para la edición de voz de disparo cero y texto a voz, que permite la clonación de voz con solo unos segundos de audio de referencia. Logre un rendimiento de última generación en datos reales.

síntesis de voz

clonación de voz

edición de audio

TTS

TTS de disparo cero

VoiceCraft es una herramienta de IA de código abierto para la edición de voz de disparo cero y texto a voz, que permite la clonación de voz con solo unos segundos de audio de referencia. Logre un rendimiento de última generación en datos reales.

Abrir Sitio Web

Descripción general de VoiceCraft

VoiceCraft: Edición de Voz Zero-Shot y Texto a Voz en la Naturaleza

VoiceCraft es una herramienta potente y de código abierto que ofrece un rendimiento de última generación tanto en la edición de voz como en el texto a voz (TTS) zero-shot. Destaca en el manejo de datos de audio diversos y del mundo real, incluyendo audiolibros, vídeos de internet y podcasts. Lo que distingue a VoiceCraft es su capacidad para clonar o editar una voz no vista utilizando solo unos segundos de audio de referencia.

¿Qué es VoiceCraft?

VoiceCraft es un modelo de lenguaje de códec neuronal de relleno de tokens diseñado para tareas de edición de voz y TTS de alta calidad. Aprovecha el aprendizaje zero-shot, lo que significa que puede adaptarse a nuevas voces con datos de entrenamiento mínimos.

¿Cómo funciona VoiceCraft?

VoiceCraft funciona como un modelo de lenguaje de códec neuronal. Los aspectos clave de su funcionalidad incluyen:

Relleno de Tokens: VoiceCraft utiliza una técnica de relleno de tokens para editar y generar voz sin problemas.
Aprendizaje Zero-Shot: Puede adaptarse a nuevas voces con solo unos segundos de audio de referencia, eliminando la necesidad de extensos datos de entrenamiento.
Modelo de Lenguaje de Códec Neuronal: Esta arquitectura permite la síntesis y edición de voz de alta calidad.

¿Cómo usar VoiceCraft?

Hay varias formas de usar VoiceCraft:

Google Colab: La forma más sencilla de empezar es usar los cuadernos de Google Colab proporcionados para la edición de voz y la inferencia TTS.
Docker: Utilice la imagen de Docker proporcionada para un entorno consistente y reproducible.
Script Independiente: Integre VoiceCraft en sus proyectos utilizando los scripts independientes.

Aquí hay un desglose de cada método:

Google Colab

Google Colab proporciona una forma sencilla de empezar a usar VoiceCraft. Siga estos pasos:

Abra el cuaderno de Speech Editing Colab.
Abra el cuaderno de TTS Inference Colab.
Siga las instrucciones dentro de los cuadernos para ejecutar las demostraciones.

Docker

Docker proporciona un entorno consistente para ejecutar VoiceCraft. Aquí se explica cómo configurarlo:

Clone el repositorio:

git clone git@github.com:jasonppy/VoiceCraft.git
cd VoiceCraft

Construya la imagen de Docker:
```
docker build --tag "voicecraft" .
```

Inicie el contenedor de Docker:

./start-jupyter.sh  # linux
start-jupyter.bat   # windows

Abra la URL que se muestra en los registros de Docker en su navegador.
Abra inference_tts.ipynb y siga las instrucciones.

Script Independiente

Para usar VoiceCraft como un script independiente:

Asegúrese de que su entorno esté configurado correctamente (consulte la sección Configuración del Entorno).
Utilice los scripts tts_demo.py y speech_editing_demo.py.
```
python3 tts_demo.py -h
```

¿Por qué elegir VoiceCraft?

Capacidad Zero-Shot: Se adapta a nuevas voces rápidamente con datos mínimos.
Salida de Alta Calidad: Ofrece un rendimiento de última generación en la edición de voz y TTS.
Versátil: Funciona bien con diversas fuentes de audio.
Código Abierto: Fomenta las contribuciones y la personalización de la comunidad.

¿Para quién es VoiceCraft?

VoiceCraft es ideal para:

Investigadores: Explorando la síntesis de voz y las técnicas de edición.
Desarrolladores: Integrando capacidades TTS avanzadas en aplicaciones.
Creadores de Contenido: Generando locuciones de alta calidad y audio editado.
Aficionados: Experimentando con la clonación de voz y la manipulación de audio.

Características Clave:

Smart Transcript: Permite a los usuarios especificar exactamente lo que quieren generar.
Modo TTS: TTS zero-shot para generar voz a partir de texto.
Modo Editar: Capacidades de edición de voz para modificar el audio existente.
Modo TTS Largo: Simplifica el TTS en textos largos.

Configuración del Entorno:

Para configurar su entorno para VoiceCraft:

Cree un nuevo entorno Conda:

conda create -n voicecraft python=3.9.16
conda activate voicecraft

Instale los paquetes necesarios:

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install xformers==0.0.22
pip install torchaudio==2.0.2 torch==2.0.1
apt-get install ffmpeg
apt-get install espeak-ng
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
pip install huggingface_hub==0.22.2
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
mfa model download dictionary english_us_arpa
mfa model download acoustic english_us_arpa
conda install -n voicecraft ipykernel --no-deps --force-reinstall

Entrenamiento y Ajuste Fino:

VoiceCraft soporta el entrenamiento y el ajuste fino en conjuntos de datos personalizados. El proceso implica:

Preparar las expresiones y sus transcripciones.
Codificar las expresiones en códigos usando Encodec.
Convertir las transcripciones en secuencias de fonemas.
Crear un archivo de manifiesto.

La mejor manera de aprovechar VoiceCraft es utilizando los scripts y cuadernos proporcionados, y adaptándolos a su caso de uso específico. Ya sea edición de voz, TTS o clonación de voz, VoiceCraft ofrece una solución robusta y flexible.

VoiceCraft tiene licencia CC BY-NC-SA 4.0 (LICENSE-CODE) para la base de código y Coqui Public Model License 1.0.0 (LICENSE-MODEL) para los pesos del modelo. También incorpora código de otros repositorios bajo licencias MIT y Apache 2.0.

Directorio Recomendado

Síntesis de Voz con IA Cambiador de Voz con IA Creación de Música con IA De Voz a Texto Servicio al Cliente y Asistente de Voz con IA Podcast y Doblaje de Video

Mejores herramientas alternativas a "VoiceCraft"

Typecast

404 0

Typecast es un generador de voz AI que ofrece 600+ voces personalizables, clonación de voz, edición de video y avatares parlantes para creadores de contenido.

síntesis-de-voz

TTS-emocional

Listnr AI

381 0

Crea y automatiza videos faceless fácilmente con Listnr AI. Nuestra plataforma impulsada por IA genera y publica contenido fresco diariamente para hacer crecer tus canales de TikTok y YouTube. ¡Confiada por millones!

generación de video sin rostro

AI Avatar Generator

339 0

Transforma fotos y videos en avatares AI parlantes realistas al instante. Videos profesionales con sincronización labial en más de 40 idiomas. ¡Comienza a crear gratis hoy!

avatares parlantes

Audiobox

451 0

Audiobox es el nuevo modelo de investigación fundamental de Meta para la generación de audio. Puede generar voces y efectos de sonido usando una combinación de entradas de voz y indicaciones de texto en lenguaje natural.

generación de audio

síntesis de voz

Dub AI

399 0

Dub AI permite a los creadores de contenido traducir y doblar videos sin esfuerzo con clonación de voz y traducción por IA, expandiendo el alcance a audiencias globales en más de 30 idiomas con resultados naturales.

doblaje de video

clonación de voz

Me.bot

345 0

Me.bot es tu segundo yo con IA que convierte ideas en presentaciones de voz y visuales personalizadas. Aprende de tus datos para hablar y comprometerse como tú, ofreciendo charlas interactivas para conexiones y perspectivas más profundas.

avatar AI personal

clonación de voz

AIEasy.life

565 0

AIEasy.life es una plataforma de herramientas de IA que proporciona un directorio gratuito y una experiencia de descubrimiento. Encuentra tus herramientas de IA favoritas con AIEasy.life.

Directorio de herramientas de IA

AIVocal

344 0

AIVocal es una plataforma todo-en-uno de IA para generación de voz, clonación, podcasts y transcripción. Crea discursos realistas, audiolibros y más con herramientas gratuitas en +140 idiomas para creadores y profesionales.

generación de voz

síntesis de habla

Trump AI Voice Generator

340 0

Tu generador de voz AI de Donald Trump para texto a voz y video—cadencia realista, exportaciones rápidas para parodias y redes sociales.

clonación de voz

AutoPostsAI

481 0

AutoPostsAI: Cree videos virales con IA avanzada y una interfaz de vidrio líquido. Las características incluyen síntesis de voz neuronal, renderizado cuántico e IA de contexto para una comprensión similar a la humana.

Editor de video AI

clonación de voz

Musicfy

386 0

Musicfy es un generador de canciones con voz de IA líder en la industria que te permite crear covers en cualquier voz de más de 100,000 opciones o clonar la tuya. Simple, gratis y eleva tus habilidades musicales.

clonación de voz

texto a música

All Voice Lab

355 0

All Voice Lab ofrece herramientas AI de texto a voz, clonación de voz y cambiador de voz para audio realista y multilingüe. Crea doblajes atractivos con expresividad emocional—prueba gratuita hoy.

clonación de voz

texto a voz

VoiSpark

307 0

Crea voces de IA realistas con la plataforma de VoiSpark. Incluye texto a voz, clonación de voz y diseño de voz personalizado. ¡Comienza tu prueba 100% gratuita hoy mismo!

texto a voz

clonación de voz

FineVoice AI Voice Generator

163 0

FineVoice AI Voice Generator: Convierte texto a voz con voces de IA realistas, clona voces en cualquier estilo o idioma. Ideal para medios, entretenimiento, educación y negocios. ¡Pruébalo gratis!

texto a voz

clonación de voz

Añadir a Favoritos

Editar favorito

VoiceCraft

Descripción general de VoiceCraft

VoiceCraft: Edición de Voz Zero-Shot y Texto a Voz en la Naturaleza

Google Colab

Docker

Script Independiente

Mejores herramientas alternativas a "VoiceCraft"