VoiceCraft
Descripción general de VoiceCraft
VoiceCraft: Edición de Voz Zero-Shot y Texto a Voz en la Naturaleza
VoiceCraft es una herramienta potente y de código abierto que ofrece un rendimiento de última generación tanto en la edición de voz como en el texto a voz (TTS) zero-shot. Destaca en el manejo de datos de audio diversos y del mundo real, incluyendo audiolibros, vídeos de internet y podcasts. Lo que distingue a VoiceCraft es su capacidad para clonar o editar una voz no vista utilizando solo unos segundos de audio de referencia.
¿Qué es VoiceCraft?
VoiceCraft es un modelo de lenguaje de códec neuronal de relleno de tokens diseñado para tareas de edición de voz y TTS de alta calidad. Aprovecha el aprendizaje zero-shot, lo que significa que puede adaptarse a nuevas voces con datos de entrenamiento mínimos.
¿Cómo funciona VoiceCraft?
VoiceCraft funciona como un modelo de lenguaje de códec neuronal. Los aspectos clave de su funcionalidad incluyen:
- Relleno de Tokens: VoiceCraft utiliza una técnica de relleno de tokens para editar y generar voz sin problemas.
- Aprendizaje Zero-Shot: Puede adaptarse a nuevas voces con solo unos segundos de audio de referencia, eliminando la necesidad de extensos datos de entrenamiento.
- Modelo de Lenguaje de Códec Neuronal: Esta arquitectura permite la síntesis y edición de voz de alta calidad.
¿Cómo usar VoiceCraft?
Hay varias formas de usar VoiceCraft:
- Google Colab: La forma más sencilla de empezar es usar los cuadernos de Google Colab proporcionados para la edición de voz y la inferencia TTS.
- Docker: Utilice la imagen de Docker proporcionada para un entorno consistente y reproducible.
- Script Independiente: Integre VoiceCraft en sus proyectos utilizando los scripts independientes.
Aquí hay un desglose de cada método:
Google Colab
Google Colab proporciona una forma sencilla de empezar a usar VoiceCraft. Siga estos pasos:
- Abra el cuaderno de Speech Editing Colab.
- Abra el cuaderno de TTS Inference Colab.
- Siga las instrucciones dentro de los cuadernos para ejecutar las demostraciones.
Docker
Docker proporciona un entorno consistente para ejecutar VoiceCraft. Aquí se explica cómo configurarlo:
Clone el repositorio:
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraftConstruya la imagen de Docker:
docker build --tag "voicecraft" .Inicie el contenedor de Docker:
./start-jupyter.sh # linux start-jupyter.bat # windowsAbra la URL que se muestra en los registros de Docker en su navegador.
Abra
inference_tts.ipynby siga las instrucciones.
Script Independiente
Para usar VoiceCraft como un script independiente:
Asegúrese de que su entorno esté configurado correctamente (consulte la sección Configuración del Entorno).
Utilice los scripts
tts_demo.pyyspeech_editing_demo.py.python3 tts_demo.py -h
¿Por qué elegir VoiceCraft?
- Capacidad Zero-Shot: Se adapta a nuevas voces rápidamente con datos mínimos.
- Salida de Alta Calidad: Ofrece un rendimiento de última generación en la edición de voz y TTS.
- Versátil: Funciona bien con diversas fuentes de audio.
- Código Abierto: Fomenta las contribuciones y la personalización de la comunidad.
¿Para quién es VoiceCraft?
VoiceCraft es ideal para:
- Investigadores: Explorando la síntesis de voz y las técnicas de edición.
- Desarrolladores: Integrando capacidades TTS avanzadas en aplicaciones.
- Creadores de Contenido: Generando locuciones de alta calidad y audio editado.
- Aficionados: Experimentando con la clonación de voz y la manipulación de audio.
Características Clave:
- Smart Transcript: Permite a los usuarios especificar exactamente lo que quieren generar.
- Modo TTS: TTS zero-shot para generar voz a partir de texto.
- Modo Editar: Capacidades de edición de voz para modificar el audio existente.
- Modo TTS Largo: Simplifica el TTS en textos largos.
Configuración del Entorno:
Para configurar su entorno para VoiceCraft:
Cree un nuevo entorno Conda:
conda create -n voicecraft python=3.9.16 conda activate voicecraftInstale los paquetes necesarios:
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers==0.0.22 pip install torchaudio==2.0.2 torch==2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard==2.16.2 pip install phonemizer==3.2.1 pip install datasets==2.16.0 pip install torchmetrics==0.11.1 pip install huggingface_hub==0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall
Entrenamiento y Ajuste Fino:
VoiceCraft soporta el entrenamiento y el ajuste fino en conjuntos de datos personalizados. El proceso implica:
- Preparar las expresiones y sus transcripciones.
- Codificar las expresiones en códigos usando Encodec.
- Convertir las transcripciones en secuencias de fonemas.
- Crear un archivo de manifiesto.
La mejor manera de aprovechar VoiceCraft es utilizando los scripts y cuadernos proporcionados, y adaptándolos a su caso de uso específico. Ya sea edición de voz, TTS o clonación de voz, VoiceCraft ofrece una solución robusta y flexible.
VoiceCraft tiene licencia CC BY-NC-SA 4.0 (LICENSE-CODE) para la base de código y Coqui Public Model License 1.0.0 (LICENSE-MODEL) para los pesos del modelo. También incorpora código de otros repositorios bajo licencias MIT y Apache 2.0.
Mejores herramientas alternativas a "VoiceCraft"
Typecast es un generador de voz AI que ofrece 600+ voces personalizables, clonación de voz, edición de video y avatares parlantes para creadores de contenido.
Crea y automatiza videos faceless fácilmente con Listnr AI. Nuestra plataforma impulsada por IA genera y publica contenido fresco diariamente para hacer crecer tus canales de TikTok y YouTube. ¡Confiada por millones!
Transforma fotos y videos en avatares AI parlantes realistas al instante. Videos profesionales con sincronización labial en más de 40 idiomas. ¡Comienza a crear gratis hoy!
Audiobox es el nuevo modelo de investigación fundamental de Meta para la generación de audio. Puede generar voces y efectos de sonido usando una combinación de entradas de voz y indicaciones de texto en lenguaje natural.
Dub AI permite a los creadores de contenido traducir y doblar videos sin esfuerzo con clonación de voz y traducción por IA, expandiendo el alcance a audiencias globales en más de 30 idiomas con resultados naturales.
Me.bot es tu segundo yo con IA que convierte ideas en presentaciones de voz y visuales personalizadas. Aprende de tus datos para hablar y comprometerse como tú, ofreciendo charlas interactivas para conexiones y perspectivas más profundas.
AIEasy.life es una plataforma de herramientas de IA que proporciona un directorio gratuito y una experiencia de descubrimiento. Encuentra tus herramientas de IA favoritas con AIEasy.life.
AIVocal es una plataforma todo-en-uno de IA para generación de voz, clonación, podcasts y transcripción. Crea discursos realistas, audiolibros y más con herramientas gratuitas en +140 idiomas para creadores y profesionales.
Tu generador de voz AI de Donald Trump para texto a voz y video—cadencia realista, exportaciones rápidas para parodias y redes sociales.
AutoPostsAI: Cree videos virales con IA avanzada y una interfaz de vidrio líquido. Las características incluyen síntesis de voz neuronal, renderizado cuántico e IA de contexto para una comprensión similar a la humana.
Musicfy es un generador de canciones con voz de IA líder en la industria que te permite crear covers en cualquier voz de más de 100,000 opciones o clonar la tuya. Simple, gratis y eleva tus habilidades musicales.
All Voice Lab ofrece herramientas AI de texto a voz, clonación de voz y cambiador de voz para audio realista y multilingüe. Crea doblajes atractivos con expresividad emocional—prueba gratuita hoy.
Crea voces de IA realistas con la plataforma de VoiSpark. Incluye texto a voz, clonación de voz y diseño de voz personalizado. ¡Comienza tu prueba 100% gratuita hoy mismo!
FineVoice AI Voice Generator: Convierte texto a voz con voces de IA realistas, clona voces en cualquier estilo o idioma. Ideal para medios, entretenimiento, educación y negocios. ¡Pruébalo gratis!