VoiceCraft
Vue d'ensemble de VoiceCraft
VoiceCraft : édition vocale zero-shot et synthèse vocale (TTS) en conditions réelles
VoiceCraft est un outil open source puissant qui offre des performances de pointe pour l’édition vocale et la synthèse vocale zero-shot (TTS). Il excelle dans le traitement de données audio variées et réelles, notamment les livres audio, les vidéos sur Internet et les podcasts. Ce qui distingue VoiceCraft, c’est sa capacité à cloner ou à modifier une voix inédite en utilisant seulement quelques secondes d’audio de référence.
Qu’est-ce que VoiceCraft ?
VoiceCraft est un modèle de langage de codec neuronal de remplissage de jetons conçu pour des tâches d’édition vocale et de TTS de haute qualité. Il tire parti de l’apprentissage zero-shot, ce qui signifie qu’il peut s’adapter à de nouvelles voix avec un minimum de données d’entraînement.
Comment fonctionne VoiceCraft ?
VoiceCraft fonctionne comme un modèle de langage de codec neuronal. Les aspects clés de sa fonctionnalité sont les suivants :
- Remplissage de jetons: VoiceCraft utilise une technique de remplissage de jetons pour éditer et générer de la parole de manière fluide.
- Apprentissage Zero-Shot: Il peut s’adapter à de nouvelles voix avec seulement quelques secondes d’audio de référence, éliminant ainsi le besoin de données d’entraînement importantes.
- Modèle de langage de codec neuronal: Cette architecture permet une synthèse et une édition vocales de haute qualité.
Comment utiliser VoiceCraft ?
Il existe plusieurs façons d’utiliser VoiceCraft :
- Google Colab: La façon la plus simple de commencer est d’utiliser les blocs-notes Google Colab fournis pour l’édition vocale et l’inférence TTS.
- Docker: Utilisez l’image Docker fournie pour un environnement cohérent et reproductible.
- Script autonome: Intégrez VoiceCraft dans vos projets à l’aide des scripts autonomes.
Voici une ventilation de chaque méthode :
Google Colab
Google Colab offre un moyen simple de commencer à utiliser VoiceCraft. Suivez ces étapes :
- Ouvrez le bloc-notes Speech Editing Colab.
- Ouvrez le bloc-notes TTS Inference Colab.
- Suivez les instructions dans les blocs-notes pour exécuter les démos.
Docker
Docker fournit un environnement cohérent pour exécuter VoiceCraft. Voici comment le configurer :
Clonez le référentiel :
git clone git@github.com:jasonppy/VoiceCraft.git cd VoiceCraft
Construisez l’image Docker :
docker build --tag "voicecraft" .
Démarrez le conteneur Docker :
./start-jupyter.sh # linux start-jupyter.bat # windows
Ouvrez l’URL indiquée dans les journaux Docker dans votre navigateur.
Ouvrez
inference_tts.ipynb
et suivez les instructions.
Script autonome
Pour utiliser VoiceCraft comme script autonome :
Assurez-vous que votre environnement est correctement configuré (consultez la section Configuration de l’environnement).
Utilisez les scripts
tts_demo.py
etspeech_editing_demo.py
.python3 tts_demo.py -h
Pourquoi choisir VoiceCraft ?
- Capacité Zero-Shot: S’adapte rapidement à de nouvelles voix avec un minimum de données.
- Sortie de haute qualité: Offre des performances de pointe en matière d’édition vocale et de TTS.
- Polyvalence: Fonctionne bien avec diverses sources audio.
- Open Source: Encourage les contributions et la personnalisation de la communauté.
À qui s’adresse VoiceCraft ?
VoiceCraft est idéal pour :
- Les chercheurs: Exploration de la synthèse vocale et des techniques d’édition.
- Les développeurs: Intégration de capacités TTS avancées dans les applications.
- Les créateurs de contenu: Génération de voix off de haute qualité et d’audio modifié.
- Les amateurs: Expérimentation avec le clonage de voix et la manipulation audio.
Principales caractéristiques:
- Smart Transcript: Permet aux utilisateurs de spécifier exactement ce qu’ils veulent générer.
- Mode TTS: TTS zero-shot pour générer de la parole à partir de texte.
- Mode Édition: Capacités d’édition vocale pour modifier l’audio existant.
- Mode TTS long: Simplifie la TTS sur les textes longs.
Configuration de l’environnement:
Pour configurer votre environnement pour VoiceCraft :
Créez un nouvel environnement Conda :
conda create -n voicecraft python=3.9.16 conda activate voicecraft
Installez les packages nécessaires :
pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft pip install xformers==0.0.22 pip install torchaudio==2.0.2 torch==2.0.1 apt-get install ffmpeg apt-get install espeak-ng pip install tensorboard==2.16.2 pip install phonemizer==3.2.1 pip install datasets==2.16.0 pip install torchmetrics==0.11.1 pip install huggingface_hub==0.22.2 conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068 mfa model download dictionary english_us_arpa mfa model download acoustic english_us_arpa conda install -n voicecraft ipykernel --no-deps --force-reinstall
Formation et mise au point:
VoiceCraft prend en charge la formation et la mise au point sur des ensembles de données personnalisés. Le processus implique :
- Préparation des énoncés et de leurs transcriptions.
- Codage des énoncés en codes à l’aide d’Encodec.
- Conversion des transcriptions en séquences phonémiques.
- Création d’un fichier manifeste.
La meilleure façon d’exploiter VoiceCraft est d’utiliser les scripts et les blocs-notes fournis, et de les adapter à votre cas d’utilisation spécifique. Qu’il s’agisse d’édition vocale, de TTS ou de clonage vocal, VoiceCraft offre une solution robuste et flexible.
VoiceCraft est concédé sous licence CC BY-NC-SA 4.0 (LICENSE-CODE) pour le code de base et Coqui Public Model License 1.0.0 (LICENSE-MODEL) pour les pondérations du modèle. Il incorpore également du code provenant d’autres référentiels sous les licences MIT et Apache 2.0.
Meilleurs outils alternatifs à "VoiceCraft"

koolio.ai vous permet de transformer un concept en podcast complet en quelques minutes. Nous vous aidons à éditer des podcasts et à créer du contenu de qualité sans effort. Que ce soit pour transcrire l'audio, collaborer avec d'autres, sélectionner automatiquement des effets sonores ou de la musique en fonction du contexte pour améliorer votre podcast, ou effectuer des opérations et manipulations audio facilement, koolio.ai offre une interface simple, basée sur le web, facile à utiliser et intuitive pour vous concentrer sur votre créativité.

Découvrez le générateur de musique IA qui crée des chansons, paroles et pistes uniques et personnalisables pour n'importe quel projet. Parfait pour les créateurs de contenu, musiciens et cinéastes, notre algorithme intelligent utilise une technologie avancée pour générer de la musique sans droits d'auteur adaptée à vos besoins. Explorez l'avenir de la composition musicale avec les outils IA innovants de Mureka, conçus pour inspirer la créativité et rationaliser la production. Vivez une intégration fluide et une qualité exceptionnelle avec nos solutions de pointe.

BollywoodAI propose des chats style WhatsApp et des notes vocales incroyablement réalistes avec des stars de Bollywood comme Salman Khan et Shah Rukh Khan. Discutez en hindi gratuitement, passez au niveau supérieur pour un accès illimité aux avatars et conversations expertes.

Videotok est un générateur de vidéos IA qui transforme du texte, des images ou de l'audio en vidéos attrayantes pour TikTok, Instagram, YouTube et plus encore. Créez des publicités, des bobines sans visage et du contenu entièrement personnalisable en quelques minutes.

Deepfake Detector est un outil basé sur l'IA conçu pour détecter les vidéos, audios et images manipulés avec 95% de précision. Protégez-vous des arnaques deepfake sur des plateformes comme YouTube et WhatsApp en vérifiant rapidement l'authenticité des médias.

KoboldCpp : Exécutez facilement des modèles GGUF pour la génération de texte et d'images IA avec une interface utilisateur KoboldAI. Fichier unique, installation zéro. Prend en charge CPU/GPU, STT, TTS et Stable Diffusion.

VidMax AI est un générateur de vidéos IA qui vous permet de créer des vidéos virales sans visage en quelques minutes. Transformez instantanément des idées en vidéos virales sans visage grâce à la création de vidéos alimentée par l'IA, au clonage de voix, à la publication automatique et aux modèles. Rejoignez plus de 100 000 créateurs qui créent du contenu attrayant.

Découvrez Voice AI de pointe avec notre générateur et convertisseur gratuit de texte en parole. Profitez d'une synthèse vocale rapide et de haute qualité alimentée par des modèles d'IA avancés comme Deepseek, Hailuo, Grok et Kling pour un discours naturel et expressif dans diverses applications.

Deepdub est une plateforme de doublage et de voix off alimentée par l'IA qui étend la localisation pour la production vocale, offrant des solutions de haute qualité et rentables.

Voicv propose des services de clonage de voix IA, de synthèse vocale (TTS) et de reconnaissance vocale (ASR). Clonez votre voix, générez une voix naturelle et transcrivez facilement l'audio. Prend en charge plusieurs langues.

Voice-Swap est une plateforme professionnelle de transformation de la voix par IA pour les musiciens et les créateurs. Créez des modèles de voix IA personnalisés et transformez votre son grâce à une technologie IA de pointe.

Créez d'incroyables voix off audio d'IA pour les podcasts, les présentations et les médias sociaux avec CloneMyVoice.io. Économisez plus de 80 % par rapport à la concurrence. Commencez pour 14,99 $.

Kits AI offre des outils de musique IA de qualité studio pour les producteurs, notamment le clonage de voix, la suppression vocale et le mastering IA, garantissant une utilisation 100 % libre de droits.

Copyter est une plateforme alimentée par l'IA pour générer du contenu texte, image, voix et vidéo. Augmentez votre productivité avec cet outil tout-en-un conçu pour les blogueurs, les spécialistes du marketing et les créateurs de contenu.

AINIRO fournit des solutions d'IA sans code pour créer des chatbots et des agents d'IA personnalisés. Automatisez le service client et augmentez les ventes grâce à l'IA.