Sesame AI: Cruzando el valle inquietante de la voz conversacional

Sesame

3.5 | 318 | 0
Tipo:
Sitio Web
Última actualización:
2025/10/06
Descripción:
Sesame AI tiene como objetivo lograr la 'presencia de voz' en la IA, haciendo que las interacciones habladas se sientan reales y comprensibles. Explore su modelo de voz conversacional (CSM) para un diálogo natural.
Compartir:
voz conversacional
generación de voz
IA multimodal
texto a voz
compañero de IA

Descripción general de Sesame

Sesame AI: Cruzando el Valle Inquietante de la Voz Conversacional

¿Qué es Sesame AI? Sesame AI se dedica a lograr la "presencia de voz" en la inteligencia artificial, con el objetivo de que las interacciones habladas se sientan reales, comprendidas y valoradas. Su investigación se centra en la creación de interlocutores que participen en un diálogo genuino, generando confianza con el tiempo.

¿Cómo funciona Sesame AI? Sesame AI introduce el Modelo de Voz Conversacional (CSM), una tarea de aprendizaje multimodal de extremo a extremo que utiliza transformadores. CSM aprovecha el historial de la conversación para producir un habla más natural y coherente.

Componentes Clave:

  • Inteligencia emocional: leer y responder a contextos emocionales.
  • Dinámica conversacional: sincronización natural, pausas, interrupciones y énfasis.
  • Conciencia contextual: ajustar el tono y el estilo para que coincidan con la situación.
  • Personalidad consistente: mantener una presencia coherente, confiable y apropiada.

Detalles Técnicos de CSM:

  • CSM opera como un modelo de una sola etapa, mejorando la eficiencia y la expresividad.
  • Utiliza dos transformadores autorregresivos basados en la arquitectura Llama.
  • El modelo procesa texto y audio entrelazados para modelar el libro de códigos cero.
  • Un decodificador de audio separado utiliza un encabezado lineal distinto para cada libro de códigos para reconstruir el habla a partir de las representaciones de la columna vertebral.

Amortización de Computación:

Para abordar los desafíos de infraestructura durante el entrenamiento, Sesame AI utiliza un esquema de amortización de cómputo que alivia el cuello de botella de la memoria al tiempo que preserva la fidelidad de los libros de códigos RVQ completos. El decodificador de audio se entrena solo en un subconjunto aleatorio de 1/16 de los fotogramas de audio, mientras que el libro de códigos cero se entrena en cada fotograma.

Experimentos y Resultados:

Sesame AI entrenó tres tamaños de modelo (Tiny, Small y Medium) en un gran conjunto de datos de audio disponible públicamente. La evaluación incluyó métricas objetivas como la Tasa de Error de Palabra (WER) y la Similitud del Hablante (SIM), así como nuevos puntos de referencia basados en la transcripción fonética para la desambiguación de homógrafos y la coherencia de la pronunciación.

Métricas subjetivas, utilizando estudios de Puntuación de Opinión Media Comparativa (CMOS) en el conjunto de datos Expresso, revelaron que, si bien la naturalidad está saturada, existe una brecha entre la prosodia generada y la humana en la generación de voz conversacional.

¿Por qué elegir Sesame AI? El enfoque de Sesame AI ofrece un camino prometedor hacia conversaciones de AI más naturales y atractivas. Al centrarse en la inteligencia emocional, la conciencia contextual y la dinámica conversacional, Sesame AI tiene como objetivo crear compañeros digitales que realmente comprendan y respondan a las necesidades humanas.

¿Cómo usar Sesame AI? Pruebe la vista previa de voz conversacional en el sitio web de Sesame AI para experimentar el potencial de su enfoque. Los modelos estarán disponibles bajo una licencia Apache 2.0.

¿Para quién es Sesame AI? Sesame AI es para investigadores, desarrolladores y cualquier persona interesada en avanzar en el campo de la AI conversacional. Su trabajo tiene aplicaciones en diversas áreas, incluyendo:

  • Asistentes de AI
  • Servicio al cliente
  • Educación
  • Entretenimiento

Código Abierto y Trabajo Futuro:

Sesame AI está comprometido con el código abierto de los componentes clave de su investigación, lo que permite a la comunidad experimentar, construir y mejorar su enfoque. El trabajo futuro incluye ampliar el tamaño del modelo, aumentar el volumen del conjunto de datos, expandir el soporte de idiomas y explorar formas de utilizar modelos de lenguaje pre-entrenados.

Mejores herramientas alternativas a "Sesame"

Futurepedia
Imagen no disponible
319 0

Futurepedia es un sitio gratuito que te ayuda a encontrar las mejores herramientas y software de IA para hacer tu trabajo y vida más eficiente y productiva. Actualizado diariamente, únete a millones de seguidores de nuestro sitio web, boletín y YouTube.

directorio de herramientas de IA
mistral.rs
Imagen no disponible
416 0

mistral.rs es un motor de inferencia LLM increíblemente rápido escrito en Rust, que admite flujos de trabajo multimodales y cuantización. Ofrece API de Rust, Python y servidor HTTP compatible con OpenAI.

motor de inferencia LLM
Rust
Innervu
Imagen no disponible
346 0

Innervu ofrece agentes de IA adaptativos y soluciones de automatización, que empoderan a las empresas con prompts inteligentes, RAG y flujos de trabajo de agentes. Mejore la eficiencia y la seguridad con Innervu.

Agentes de IA
DaveAI
Imagen no disponible
178 0

DaveAI es una nube de experiencia conversacional que utiliza agentes de IA, avatares y visualizaciones para personalizar los recorridos de los clientes e impulsar el compromiso en la web, quioscos, WhatsApp e implementaciones perimetrales.

IA conversacional
Agentes de IA
Convo
Imagen no disponible
348 0

Escala la investigación cualitativa con entrevistas a usuarios impulsadas por IA. Obtén insights instantáneos y analiza feedback 10 veces más rápido. Confiado por LinkedIn, Ford y Miro. Prueba gratis.

investigación cualitativa
Twinning
Imagen no disponible
416 0

Twinning permite a los influencers crear gemelos IA personalizados para charlas con fans por texto y audio. Únete a la lista de espera, graba un audio corto y comienza a monetizar interacciones sin cuotas mensuales.

creación de gemelo IA
Valossa
Imagen no disponible
309 0

Valossa es una plataforma de análisis de video impulsada por IA que convierte video en texto, lo que permite la búsqueda, la generación de subtítulos y el recorte de momentos destacados. Automatiza los flujos de trabajo de video, ahorrando tiempo y recursos.

transcripción de video
Makir.ai
Imagen no disponible
421 0

Makir.ai es el mercado de IA para explorar herramientas de IA de vanguardia y lanzar las tuyas propias. Descubra soluciones de IA para escritura, diseño, codificación, productividad y más.

Mercado de herramientas de IA
Scoopika
Imagen no disponible
284 0

Scoopika es una plataforma de código abierto para construir aplicaciones de IA multimodal con LLM y agentes de IA, con recuperación de errores, transmisión y validación de datos.

Desarrollo de aplicaciones LLM
Pal Chat
Imagen no disponible
336 0

Descubre Pal Chat, el cliente de chat AI ligero pero potente para iOS. Accede a GPT-4o, Claude 3.5 y más modelos con privacidad total: no se recopila datos. Genera imágenes, edita prompts y disfruta interacciones AI fluidas en iPhone o iPad.

chat AI multi-modelo
Google Gemini
Imagen no disponible
336 0

Google Gemini es un asistente de IA multimodal que se integra con el ecosistema de Google para proporcionar asistencia avanzada en escritura, planificación, lluvia de ideas y herramientas de productividad mediante interacciones de texto, voz y visuales.

IA multimodal
asistente de Google
Famulor
Imagen no disponible
684 0

Famulor es un asistente telefónico de IA líder que automatiza las llamadas de su negocio con agentes de IA inteligentes y similares a humanos disponibles las 24 horas, los 7 días de la semana. Cumple con GDPR y está alojado en la UE.

Centro de llamadas de IA
Anakin.ai
Imagen no disponible
315 0

Genera Contenido, Imágenes, Videos y Voz; Crea Flujos de Trabajo Automatizados, Apps IA Personalizadas e Inteligentes Agentes. Tu estación de trabajo exclusiva de personalización de apps IA.

constructor IA sin código
GPT-4o
Imagen no disponible
410 0

Explora GPT-4o, la plataforma de IA multimodal de OpenAI para texto, imágenes y audio. Experimenta velocidad, rentabilidad y accesibilidad. Perfecto para entusiastas de la tecnología y empresas.

IA multimodal
plataforma de IA