Sesame AI : Franchir la vallée dérangeante de la voix conversationnelle

Sesame

3.5 | 50 | 0
Type:
Site Web
Dernière mise à jour:
2025/10/06
Description:
Sesame AI vise à atteindre une « présence vocale » dans l’IA, afin que les interactions orales soient réelles et comprises. Découvrez leur modèle de parole conversationnelle (CSM) pour un dialogue naturel.
Partager:
voix conversationnelle
génération vocale
IA multimodale
texte-parole
compagnon d'IA

Vue d'ensemble de Sesame

Sesame AI : Franchir la vallée dérangeante de la voix conversationnelle

Qu’est-ce que Sesame AI ? Sesame AI se consacre à la réalisation de la « présence vocale » dans l’intelligence artificielle, dans le but de rendre les interactions orales réelles, comprises et valorisées. Leurs recherches se concentrent sur la création de partenaires conversationnels qui s’engagent dans un dialogue authentique, renforçant ainsi la confiance au fil du temps.

Comment fonctionne Sesame AI ? Sesame AI présente le modèle de parole conversationnelle (CSM), une tâche d’apprentissage multimodal de bout en bout utilisant des transformateurs. CSM exploite l’historique de la conversation pour produire une parole plus naturelle et cohérente.

Éléments clés:

  • Intelligence émotionnelle : lecture et réponse aux contextes émotionnels.
  • Dynamique conversationnelle : synchronisation naturelle, pauses, interruptions et emphase.
  • Conscience contextuelle : ajustement du ton et du style en fonction de la situation.
  • Personnalité cohérente : maintien d’une présence cohérente, fiable et appropriée.

Détails techniques du CSM:

  • Le CSM fonctionne comme un modèle à un seul étage, ce qui améliore l’efficacité et l’expressivité.
  • Il utilise deux transformateurs autorégressifs basés sur l’architecture Llama.
  • Le modèle traite le texte et l’audio entrelacés pour modéliser le livre de codes zéro.
  • Un décodeur audio distinct utilise un en-tête linéaire distinct pour chaque livre de codes afin de reconstruire la parole à partir des représentations de la structure de base.

Amortissement du calcul:

Pour relever les défis liés à l’infrastructure pendant la formation, Sesame AI utilise un schéma d’amortissement du calcul qui atténue le goulot d’étranglement de la mémoire tout en préservant la fidélité des livres de codes RVQ complets. Le décodeur audio est entraîné sur seulement un sous-ensemble aléatoire de 1/16 des trames audio, tandis que le livre de codes zéro est entraîné sur chaque trame.

Expériences et résultats:

Sesame AI a formé trois tailles de modèles (Tiny, Small et Medium) sur un vaste ensemble de données audio accessibles au public. L’évaluation comprenait des mesures objectives telles que le taux d’erreur de mots (WER) et la similarité des locuteurs (SIM), ainsi que de nouveaux critères de référence basés sur la transcription phonétique pour la désambiguïsation des homographes et la cohérence de la prononciation.

Les mesures subjectives, utilisant des études de score d’opinion moyen comparatif (CMOS) sur l’ensemble de données Expresso, ont révélé que, bien que le naturel soit saturé, il subsiste un écart entre la prosodie générée et la prosodie humaine dans la génération de parole conversationnelle.

Pourquoi choisir Sesame AI ? L’approche de Sesame AI offre une voie prometteuse vers des conversations d’IA plus naturelles et engageantes. En se concentrant sur l’intelligence émotionnelle, la conscience contextuelle et la dynamique conversationnelle, Sesame AI vise à créer des compagnons numériques qui comprennent et répondent véritablement aux besoins humains.

Comment utiliser Sesame AI ? Essayez l’aperçu de la parole conversationnelle sur le site Web de Sesame AI pour découvrir le potentiel de leur approche. Les modèles seront disponibles sous une licence Apache 2.0.

À qui s’adresse Sesame AI ? Sesame AI s’adresse aux chercheurs, aux développeurs et à toute personne intéressée à faire progresser le domaine de l’IA conversationnelle. Leur travail a des applications dans divers domaines, notamment :

  • Assistants d’IA
  • Service à la clientèle
  • Éducation
  • Divertissement

Open Source et travaux futurs:

Sesame AI s’engage à rendre open source les éléments clés de ses recherches, permettant ainsi à la communauté d’expérimenter, de s’appuyer sur son approche et de l’améliorer. Les travaux futurs comprennent l’augmentation de la taille du modèle, l’augmentation du volume de l’ensemble de données, l’extension de la prise en charge linguistique et l’exploration de moyens d’utiliser des modèles linguistiques pré-entraînés.

Meilleurs outils alternatifs à "Sesame"

Solvemigo
Image non disponible
248 0

Accédez à ChatGPT, Whisper et Dall-E via Telegram avec Solvemigo ! Bénéficiez de la rédaction de contenu, du marketing, du codage, de la génération d'art basés sur l'IA et des conseils d'experts 24h/24 et 7j/7. 9,99 $/mois.

ChatGPT
Dall-E
Whisper
ChatLLaMA
Image non disponible
86 0

ChatLLaMA est un assistant IA entraîné avec LoRA basé sur les modèles LLaMA, permettant des conversations personnalisées sur votre GPU local. Inclut une interface graphique de bureau, entraîné sur le dataset HH d'Anthropic, disponible pour les modèles 7B, 13B et 30B.

Ajust fin LoRA
IA conversationnelle
Skywork.ai
Image non disponible
130 0

Skywork - Skywork transforme des entrées simples en contenu multimodal - docs, slides, feuilles avec recherche approfondie, podcasts et pages web. Parfait pour les analystes créant des rapports, les éducateurs concevant des slides, ou les parents faisant des livres audio. Si vous l'imaginez, Skywork le réalise.

DeepResearch
Super Agents
Mureka
Image non disponible
93 0

Découvrez le générateur de musique IA qui crée des chansons, paroles et pistes uniques et personnalisables pour n'importe quel projet. Parfait pour les créateurs de contenu, musiciens et cinéastes, notre algorithme intelligent utilise une technologie avancée pour générer de la musique sans droits d'auteur adaptée à vos besoins. Explorez l'avenir de la composition musicale avec les outils IA innovants de Mureka, conçus pour inspirer la créativité et rationaliser la production. Vivez une intégration fluide et une qualité exceptionnelle avec nos solutions de pointe.

génération de musique
composition IA
T-Rex Label
Image non disponible
353 0

T-Rex Label est un outil d'annotation de données alimenté par l'IA qui prend en charge les modèles Grounding DINO, DINO-X et T-Rex. Il est compatible avec les ensembles de données COCO et YOLO, offrant des fonctionnalités telles que les cadres de délimitation, la segmentation d'images et l'annotation de masques pour la création efficace d'ensembles de données de vision par ordinateur.

annotation de données
Oh One Pro
Image non disponible
92 0

Oh One Pro est une utilité gratuite pour macOS permettant d'analyser les PDF, le code source et les documents avec les modèles o1-pro et o3 de ChatGPT. Convertit les fichiers en XML ou images pour une intégration fluide, en assurant la confidentialité avec un traitement local.

conversion de documents
DialogAi
Image non disponible
104 0

DialogAi est un chatbot WhatsApp innovant alimenté par l'IA qui convertit les notes vocales en texte via la technologie OpenAI et fournit des réponses intelligentes avec ChatGPT. Commencez à discuter instantanément en envoyant un message à +44 7893 943425 pour une assistance IA en déplacement.

transcription voix WhatsApp
NextReady
Image non disponible
278 0

NextReady est un modèle Next.js prêt à l'emploi avec Prisma, TypeScript et shadcn/ui, conçu pour aider les développeurs à créer des applications web plus rapidement. Inclut l'authentification, les paiements et le panneau d'administration.

Next.js
TypeScript
Prisma
EasyPrompt
Image non disponible
104 0

EasyPrompt est un chatbot IA basé sur Telegram intégrant ChatGPT et Midjourney pour une génération de prompts, création d'images, bots personnalisés et collaboration d'équipe. Pas de login ni de codage—commencez gratuitement.

ingénierie de prompts
Nano Banana AI
Image non disponible
84 0

Découvrez Nano Banana AI, alimenté par Gemini 2.5 Flash Image, pour la génération et l'édition d'images en ligne gratuites. Créez des personnages cohérents, éditez des photos sans effort et explorez des styles comme l'anime ou les conversions 3D sur NanoBananaArt.ai.

édition d'images
transfert de style
ZekAI
Image non disponible
94 0

ZekAI est une plateforme IA polyvalente offrant des outils comme Assistant pour des chats personnalisés, Author pour les tâches d'écriture, Designer pour la création d'images et Explorer pour l'interaction avec les documents. Accédez à des modèles de pointe comme GPT-4o pour booster la productivité en éducation, retail et médias.

assistants IA personnalisés
Pal Chat
Image non disponible
93 0

Découvrez Pal Chat, le client de chat IA léger mais puissant pour iOS. Accédez à GPT-4o, Claude 3.5 et plus de modèles avec une confidentialité totale : aucune donnée collectée. Générez des images, éditez des prompts et profitez d'interactions IA fluides sur iPhone ou iPad.

chat IA multi-modèle
Voice AI
Image non disponible
104 0

Découvrez Voice AI de pointe avec notre générateur et convertisseur gratuit de texte en parole. Profitez d'une synthèse vocale rapide et de haute qualité alimentée par des modèles d'IA avancés comme Deepseek, Hailuo, Grok et Kling pour un discours naturel et expressif dans diverses applications.

synthèse texte-parole
clonage vocal
KoboldCpp
Image non disponible
82 0

KoboldCpp : Exécutez facilement des modèles GGUF pour la génération de texte et d'images IA avec une interface utilisateur KoboldAI. Fichier unique, installation zéro. Prend en charge CPU/GPU, STT, TTS et Stable Diffusion.

génération de texte
Knowlee
Image non disponible
291 0

Knowlee est une plateforme d'agents d'IA qui automatise les tâches dans diverses applications telles que Gmail et Slack, ce qui permet de gagner du temps et d'améliorer la productivité de l'entreprise. Créez des agents d'IA personnalisés adaptés aux besoins uniques de votre entreprise et qui s'intègrent parfaitement à vos outils et flux de travail existants.

Automatisation de l'IA