Catégories d’OutilsAudio et VoixSynthèse vocale par IA

VoiceCraft

3.5 412 0

Type:

Projets Open Source

Dernière mise à jour:

2025/10/04

Description:

VoiceCraft est un outil d'IA open source pour l'édition vocale zéro-shot et la synthèse vocale, permettant le clonage de voix avec seulement quelques secondes d'audio de référence. Obtenez des performances de pointe sur des données réelles.

synthèse vocale

clonage de voix

édition audio

TTS

TTS zéro-shot

VoiceCraft est un outil d'IA open source pour l'édition vocale zéro-shot et la synthèse vocale, permettant le clonage de voix avec seulement quelques secondes d'audio de référence. Obtenez des performances de pointe sur des données réelles.

Ouvrir le Site Web

Vue d'ensemble de VoiceCraft

VoiceCraft : édition vocale zero-shot et synthèse vocale (TTS) en conditions réelles

VoiceCraft est un outil open source puissant qui offre des performances de pointe pour l’édition vocale et la synthèse vocale zero-shot (TTS). Il excelle dans le traitement de données audio variées et réelles, notamment les livres audio, les vidéos sur Internet et les podcasts. Ce qui distingue VoiceCraft, c’est sa capacité à cloner ou à modifier une voix inédite en utilisant seulement quelques secondes d’audio de référence.

Qu’est-ce que VoiceCraft ?

VoiceCraft est un modèle de langage de codec neuronal de remplissage de jetons conçu pour des tâches d’édition vocale et de TTS de haute qualité. Il tire parti de l’apprentissage zero-shot, ce qui signifie qu’il peut s’adapter à de nouvelles voix avec un minimum de données d’entraînement.

Comment fonctionne VoiceCraft ?

VoiceCraft fonctionne comme un modèle de langage de codec neuronal. Les aspects clés de sa fonctionnalité sont les suivants :

Remplissage de jetons: VoiceCraft utilise une technique de remplissage de jetons pour éditer et générer de la parole de manière fluide.
Apprentissage Zero-Shot: Il peut s’adapter à de nouvelles voix avec seulement quelques secondes d’audio de référence, éliminant ainsi le besoin de données d’entraînement importantes.
Modèle de langage de codec neuronal: Cette architecture permet une synthèse et une édition vocales de haute qualité.

Comment utiliser VoiceCraft ?

Il existe plusieurs façons d’utiliser VoiceCraft :

Google Colab: La façon la plus simple de commencer est d’utiliser les blocs-notes Google Colab fournis pour l’édition vocale et l’inférence TTS.
Docker: Utilisez l’image Docker fournie pour un environnement cohérent et reproductible.
Script autonome: Intégrez VoiceCraft dans vos projets à l’aide des scripts autonomes.

Voici une ventilation de chaque méthode :

Google Colab

Google Colab offre un moyen simple de commencer à utiliser VoiceCraft. Suivez ces étapes :

Ouvrez le bloc-notes Speech Editing Colab.
Ouvrez le bloc-notes TTS Inference Colab.
Suivez les instructions dans les blocs-notes pour exécuter les démos.

Docker

Docker fournit un environnement cohérent pour exécuter VoiceCraft. Voici comment le configurer :

Clonez le référentiel :

git clone git@github.com:jasonppy/VoiceCraft.git
cd VoiceCraft

Construisez l’image Docker :
```
docker build --tag "voicecraft" .
```

Démarrez le conteneur Docker :

./start-jupyter.sh  # linux
start-jupyter.bat   # windows

Ouvrez l’URL indiquée dans les journaux Docker dans votre navigateur.
Ouvrez inference_tts.ipynb et suivez les instructions.

Script autonome

Pour utiliser VoiceCraft comme script autonome :

Assurez-vous que votre environnement est correctement configuré (consultez la section Configuration de l’environnement).
Utilisez les scripts tts_demo.py et speech_editing_demo.py.
```
python3 tts_demo.py -h
```

Pourquoi choisir VoiceCraft ?

Capacité Zero-Shot: S’adapte rapidement à de nouvelles voix avec un minimum de données.
Sortie de haute qualité: Offre des performances de pointe en matière d’édition vocale et de TTS.
Polyvalence: Fonctionne bien avec diverses sources audio.
Open Source: Encourage les contributions et la personnalisation de la communauté.

À qui s’adresse VoiceCraft ?

VoiceCraft est idéal pour :

Les chercheurs: Exploration de la synthèse vocale et des techniques d’édition.
Les développeurs: Intégration de capacités TTS avancées dans les applications.
Les créateurs de contenu: Génération de voix off de haute qualité et d’audio modifié.
Les amateurs: Expérimentation avec le clonage de voix et la manipulation audio.

Principales caractéristiques:

Smart Transcript: Permet aux utilisateurs de spécifier exactement ce qu’ils veulent générer.
Mode TTS: TTS zero-shot pour générer de la parole à partir de texte.
Mode Édition: Capacités d’édition vocale pour modifier l’audio existant.
Mode TTS long: Simplifie la TTS sur les textes longs.

Configuration de l’environnement:

Pour configurer votre environnement pour VoiceCraft :

Créez un nouvel environnement Conda :

conda create -n voicecraft python=3.9.16
conda activate voicecraft

Installez les packages nécessaires :

pip install -e git+https://github.com/facebookresearch/audiocraft.git@c5157b5bf14bf83449c17ea1eeb66c19fb4bc7f0#egg=audiocraft
pip install xformers==0.0.22
pip install torchaudio==2.0.2 torch==2.0.1
apt-get install ffmpeg
apt-get install espeak-ng
pip install tensorboard==2.16.2
pip install phonemizer==3.2.1
pip install datasets==2.16.0
pip install torchmetrics==0.11.1
pip install huggingface_hub==0.22.2
conda install -c conda-forge montreal-forced-aligner=2.2.17 openfst=1.8.2 kaldi=5.5.1068
mfa model download dictionary english_us_arpa
mfa model download acoustic english_us_arpa
conda install -n voicecraft ipykernel --no-deps --force-reinstall

Formation et mise au point:

VoiceCraft prend en charge la formation et la mise au point sur des ensembles de données personnalisés. Le processus implique :

Préparation des énoncés et de leurs transcriptions.
Codage des énoncés en codes à l’aide d’Encodec.
Conversion des transcriptions en séquences phonémiques.
Création d’un fichier manifeste.

La meilleure façon d’exploiter VoiceCraft est d’utiliser les scripts et les blocs-notes fournis, et de les adapter à votre cas d’utilisation spécifique. Qu’il s’agisse d’édition vocale, de TTS ou de clonage vocal, VoiceCraft offre une solution robuste et flexible.

VoiceCraft est concédé sous licence CC BY-NC-SA 4.0 (LICENSE-CODE) pour le code de base et Coqui Public Model License 1.0.0 (LICENSE-MODEL) pour les pondérations du modèle. Il incorpore également du code provenant d’autres référentiels sous les licences MIT et Apache 2.0.

Répertoire Recommandé

Synthèse vocale par IA Changeur de Voix par IA Création Musicale par IA De la Voix au Texte Service Client et Assistant Vocal par IA Podcast et Doublage de Vidéo

Meilleurs outils alternatifs à "VoiceCraft"

AudioPod AI

419 0

AudioPod AI est une station de travail audio IA et une suite de production tout-en-un. Générez des voix off, divisez des stems, créez de la musique, doublez automatiquement du contenu et plus encore. Inclut la synthèse vocale, la reconnaissance vocale et la génération de musique IA.

texte à parole

parole à texte

Narration Box

253 0

Créez des voix off IA réalistes instantanément avec Narration Box. Plus de 1500 voix dans plus de 80 langues pour les créateurs de contenu, les éducateurs et les entreprises.

Voix off IA

synthèse vocale

Typecast

404 0

Typecast est un générateur de voix IA offrant 600+ voix personnalisables, clonage vocal, édition vidéo et avatars parlants pour les créateurs de contenu.

synthèse-vocale

TTS-émotionnel

Resemble AI

373 0

Resemble AI offre des solutions d'IA vocale de niveau entreprise, notamment le clonage vocal réaliste, la détection de deepfakes et les filigranes d'IA. Sécurisé, évolutif et conçu pour la production.

clonage vocal

détection de deepfakes

Listnr AI

381 0

Créez et automatisez des vidéos faceless sans effort avec Listnr AI. Notre plateforme alimentée par l'IA génère et publie du contenu frais quotidiennement pour développer vos chaînes TikTok et YouTube. De confiance pour des millions !

génération de vidéo sans visage

Fineshare FineVoice

487 0

Fineshare FineVoice fournit des outils audio IA pour générer sans effort des voix réalistes, créer de la musique de qualité et produire des effets sonores réalistes. Explorez le clonage de voix IA, la synthèse vocale, et bien plus encore.

Clonage de voix IA

synthèse vocale

AI Voice Generator

231 0

AI Voice Generator est un outil qui transforme le texte en voix naturelles. Il offre le clonage de voix, la synthèse vocale, les effets sonores et la génération de dialogues, et est utilisé par plus de 10 000 créateurs.

texte à parole

clonage de voix

LOVO AI

578 0

Générateur de voix IA primé et logiciel de synthèse vocale avec plus de 500 voix dans 100 langues. Voix IA réalistes avec éditeur vidéo en ligne. Clonez votre propre voix.

Générateur de voix IA

Altered Studio

332 0

Altered Studio fournit des logiciels et des services de changement de voix basés sur l'IA pour les performances vocales professionnelles, le clonage de voix et la modification de la voix en temps réel.

Morphing vocal IA

clonage de voix

VideoPlus Studio

470 0

VideoPlus Studio : Cartoonisez des vidéos, créez des livres de contes parlants et ajoutez une voix off IA dans 80 langues. Obtenez des crédits gratuits quotidiens pour la génération et l’édition de vidéos !

montage vidéo

voix off IA

Verbatik

472 0

Transformez le texte en parole naturelle avec Verbatik AI. Clonez des voix et personnalisez l'audio pour le marketing et plus encore. Essayez gratuitement avec 1000 caractères !

synthèse vocale

clonage de voix

Trump AI Voice Generator

340 0

Votre générateur de voix AI Donald Trump pour texte vers parole et vidéo—cadence réaliste, exports rapides pour parodies et médias sociaux.

clonage de voix

FuturiBooks

100 0

FuturiBooks est une plateforme basée sur l'IA pour créer des livres audio de haute qualité. Elle offre le clonage de voix par l'IA, une production professionnelle et de multiples options linguistiques, ce qui simplifie le processus de création de livres audio.

Livre audio IA

clonage de voix

Get Selfie Pov

332 0

Get Selfie Pov est un outil IA qui génère des prises selfie POV virales à partir de photos téléchargées et de texte de voix off, en utilisant des modèles de memes et d'influenceurs pour booster l'engagement sur les vidéos courtes des plateformes sociales.

POV selfie viral

modèles vidéo meme

Ajouter aux Favoris

Modifier le favori

VoiceCraft

Vue d'ensemble de VoiceCraft

VoiceCraft : édition vocale zero-shot et synthèse vocale (TTS) en conditions réelles

Google Colab

Docker

Script autonome

Meilleurs outils alternatifs à "VoiceCraft"