Sesame AI : Franchir la vallée dérangeante de la voix conversationnelle

Sesame

3.5 | 314 | 0
Type:
Site Web
Dernière mise à jour:
2025/10/06
Description:
Sesame AI vise à atteindre une « présence vocale » dans l’IA, afin que les interactions orales soient réelles et comprises. Découvrez leur modèle de parole conversationnelle (CSM) pour un dialogue naturel.
Partager:
voix conversationnelle
génération vocale
IA multimodale
texte-parole
compagnon d'IA

Vue d'ensemble de Sesame

Sesame AI : Franchir la vallée dérangeante de la voix conversationnelle

Qu’est-ce que Sesame AI ? Sesame AI se consacre à la réalisation de la « présence vocale » dans l’intelligence artificielle, dans le but de rendre les interactions orales réelles, comprises et valorisées. Leurs recherches se concentrent sur la création de partenaires conversationnels qui s’engagent dans un dialogue authentique, renforçant ainsi la confiance au fil du temps.

Comment fonctionne Sesame AI ? Sesame AI présente le modèle de parole conversationnelle (CSM), une tâche d’apprentissage multimodal de bout en bout utilisant des transformateurs. CSM exploite l’historique de la conversation pour produire une parole plus naturelle et cohérente.

Éléments clés:

  • Intelligence émotionnelle : lecture et réponse aux contextes émotionnels.
  • Dynamique conversationnelle : synchronisation naturelle, pauses, interruptions et emphase.
  • Conscience contextuelle : ajustement du ton et du style en fonction de la situation.
  • Personnalité cohérente : maintien d’une présence cohérente, fiable et appropriée.

Détails techniques du CSM:

  • Le CSM fonctionne comme un modèle à un seul étage, ce qui améliore l’efficacité et l’expressivité.
  • Il utilise deux transformateurs autorégressifs basés sur l’architecture Llama.
  • Le modèle traite le texte et l’audio entrelacés pour modéliser le livre de codes zéro.
  • Un décodeur audio distinct utilise un en-tête linéaire distinct pour chaque livre de codes afin de reconstruire la parole à partir des représentations de la structure de base.

Amortissement du calcul:

Pour relever les défis liés à l’infrastructure pendant la formation, Sesame AI utilise un schéma d’amortissement du calcul qui atténue le goulot d’étranglement de la mémoire tout en préservant la fidélité des livres de codes RVQ complets. Le décodeur audio est entraîné sur seulement un sous-ensemble aléatoire de 1/16 des trames audio, tandis que le livre de codes zéro est entraîné sur chaque trame.

Expériences et résultats:

Sesame AI a formé trois tailles de modèles (Tiny, Small et Medium) sur un vaste ensemble de données audio accessibles au public. L’évaluation comprenait des mesures objectives telles que le taux d’erreur de mots (WER) et la similarité des locuteurs (SIM), ainsi que de nouveaux critères de référence basés sur la transcription phonétique pour la désambiguïsation des homographes et la cohérence de la prononciation.

Les mesures subjectives, utilisant des études de score d’opinion moyen comparatif (CMOS) sur l’ensemble de données Expresso, ont révélé que, bien que le naturel soit saturé, il subsiste un écart entre la prosodie générée et la prosodie humaine dans la génération de parole conversationnelle.

Pourquoi choisir Sesame AI ? L’approche de Sesame AI offre une voie prometteuse vers des conversations d’IA plus naturelles et engageantes. En se concentrant sur l’intelligence émotionnelle, la conscience contextuelle et la dynamique conversationnelle, Sesame AI vise à créer des compagnons numériques qui comprennent et répondent véritablement aux besoins humains.

Comment utiliser Sesame AI ? Essayez l’aperçu de la parole conversationnelle sur le site Web de Sesame AI pour découvrir le potentiel de leur approche. Les modèles seront disponibles sous une licence Apache 2.0.

À qui s’adresse Sesame AI ? Sesame AI s’adresse aux chercheurs, aux développeurs et à toute personne intéressée à faire progresser le domaine de l’IA conversationnelle. Leur travail a des applications dans divers domaines, notamment :

  • Assistants d’IA
  • Service à la clientèle
  • Éducation
  • Divertissement

Open Source et travaux futurs:

Sesame AI s’engage à rendre open source les éléments clés de ses recherches, permettant ainsi à la communauté d’expérimenter, de s’appuyer sur son approche et de l’améliorer. Les travaux futurs comprennent l’augmentation de la taille du modèle, l’augmentation du volume de l’ensemble de données, l’extension de la prise en charge linguistique et l’exploration de moyens d’utiliser des modèles linguistiques pré-entraînés.

Meilleurs outils alternatifs à "Sesame"

Twinning
Image non disponible
416 0

Twinning permet aux influenceurs de créer des jumeaux IA personnalisés pour discuter avec les fans par texte et audio. Rejoignez la liste d'attente, enregistrez un audio court et commencez à monétiser les interactions sans frais mensuels.

création de jumeau IA
clonage vocal
Scoopika
Image non disponible
276 0

Scoopika est une plateforme open source pour créer des applications d'IA multimodales avec des LLM et des agents d'IA, avec récupération des erreurs, streaming et validation des données.

Développement d'applications LLM
Innervu
Image non disponible
346 0

Innervu propose des agents d'IA adaptatifs et des solutions d'automatisation, permettant aux entreprises d'utiliser des prompts intelligents, le RAG et des flux de travail d'agents. Améliorez l'efficacité et la sécurité avec Innervu.

Agents d'IA
Inbenta AI
Image non disponible
330 0

Inbenta propose des solutions d'expérience client et employé alimentées par l'IA avec un support omnicanal personnalisé 24/7 qui automatise les interactions, réduit les coûts et augmente la satisfaction.

IA conversationnelle
Convo
Image non disponible
348 0

Échellez la recherche qualitative avec des entretiens utilisateurs alimentés par l'IA. Obtenez des insights instantanés et analysez les retours 10 fois plus vite. Approuvé par LinkedIn, Ford et Miro. Essayez gratuitement.

recherche qualitative
bntr
Image non disponible
319 0

Automatisez les interactions clients avec l'IA vocale et chat de bntr. Configuration facile, entraînée sur vos données—nous vous aidons à démarrer. Essayez gratuitement aujourd'hui !

IA de service client
Voice AI
Image non disponible
417 0

Découvrez Voice AI de pointe avec notre générateur et convertisseur gratuit de texte en parole. Profitez d'une synthèse vocale rapide et de haute qualité alimentée par des modèles d'IA avancés comme Deepseek, Hailuo, Grok et Kling pour un discours naturel et expressif dans diverses applications.

synthèse texte-parole
clonage vocal
ChatTTS
Image non disponible
309 0

ChatTTS est un outil alimenté par l'IA qui génère une parole naturelle à partir de texte, conçu pour les scénarios conversationnels et les assistants LLM. Essayez-le gratuitement!

Voix IA
texte vers parole
ElevenLabs
Image non disponible
483 0

ElevenLabs est une plateforme de voix IA réaliste offrant la synthèse vocale, le clonage de voix, le doublage et la génération de musique pour les créateurs, les développeurs et les entreprises.

synthèse vocale
clonage de voix
Octave
Image non disponible
319 0

Octave de Hume AI est un outil de génération de voix IA réaliste qui comprend le contexte et les émotions, permettant aux utilisateurs de créer des voix personnalisées avec des styles et des livraisons spécifiques.

Voix IA
texte à parole
AssemblyAI
Image non disponible
641 0

AssemblyAI propose des modèles d'IA vocale à la pointe de l'industrie pour une conversion précise de la parole en texte et des informations sur les données vocales. Créez facilement des applications d'IA vocale révolutionnaires.

API de parole en texte
IA vocale
Sindarin
Image non disponible
271 0

IA vocale à faible latence de pointe alimentant les compagnons, centres d'appels, expériences immersives et plus encore.

voix à faible latence
Cognitiev
Image non disponible
451 0

Cognitiev fournit des solutions d'IA vocale sécurisées et évolutives pour les entreprises, améliorant les interactions avec les clients et l'efficacité opérationnelle. Découvrez les solutions de service client, de recrutement et de vente basées sur l'IA.

IA vocale d'entreprise
Millis AI
Image non disponible
376 0

Millis AI : Créez des applications vocales avancées avec une latence ultra-faible de 600 ms. Créez des agents vocaux IA pour le support client, les assistants virtuels, etc. Démarrez en quelques minutes !

IA vocale
IA conversationnelle