
Sesame
Descripción general de Sesame
Sesame AI: Cruzando el Valle Inquietante de la Voz Conversacional
¿Qué es Sesame AI? Sesame AI se dedica a lograr la "presencia de voz" en la inteligencia artificial, con el objetivo de que las interacciones habladas se sientan reales, comprendidas y valoradas. Su investigación se centra en la creación de interlocutores que participen en un diálogo genuino, generando confianza con el tiempo.
¿Cómo funciona Sesame AI? Sesame AI introduce el Modelo de Voz Conversacional (CSM), una tarea de aprendizaje multimodal de extremo a extremo que utiliza transformadores. CSM aprovecha el historial de la conversación para producir un habla más natural y coherente.
Componentes Clave:
- Inteligencia emocional: leer y responder a contextos emocionales.
- Dinámica conversacional: sincronización natural, pausas, interrupciones y énfasis.
- Conciencia contextual: ajustar el tono y el estilo para que coincidan con la situación.
- Personalidad consistente: mantener una presencia coherente, confiable y apropiada.
Detalles Técnicos de CSM:
- CSM opera como un modelo de una sola etapa, mejorando la eficiencia y la expresividad.
- Utiliza dos transformadores autorregresivos basados en la arquitectura Llama.
- El modelo procesa texto y audio entrelazados para modelar el libro de códigos cero.
- Un decodificador de audio separado utiliza un encabezado lineal distinto para cada libro de códigos para reconstruir el habla a partir de las representaciones de la columna vertebral.
Amortización de Computación:
Para abordar los desafíos de infraestructura durante el entrenamiento, Sesame AI utiliza un esquema de amortización de cómputo que alivia el cuello de botella de la memoria al tiempo que preserva la fidelidad de los libros de códigos RVQ completos. El decodificador de audio se entrena solo en un subconjunto aleatorio de 1/16 de los fotogramas de audio, mientras que el libro de códigos cero se entrena en cada fotograma.
Experimentos y Resultados:
Sesame AI entrenó tres tamaños de modelo (Tiny, Small y Medium) en un gran conjunto de datos de audio disponible públicamente. La evaluación incluyó métricas objetivas como la Tasa de Error de Palabra (WER) y la Similitud del Hablante (SIM), así como nuevos puntos de referencia basados en la transcripción fonética para la desambiguación de homógrafos y la coherencia de la pronunciación.
Métricas subjetivas, utilizando estudios de Puntuación de Opinión Media Comparativa (CMOS) en el conjunto de datos Expresso, revelaron que, si bien la naturalidad está saturada, existe una brecha entre la prosodia generada y la humana en la generación de voz conversacional.
¿Por qué elegir Sesame AI? El enfoque de Sesame AI ofrece un camino prometedor hacia conversaciones de AI más naturales y atractivas. Al centrarse en la inteligencia emocional, la conciencia contextual y la dinámica conversacional, Sesame AI tiene como objetivo crear compañeros digitales que realmente comprendan y respondan a las necesidades humanas.
¿Cómo usar Sesame AI? Pruebe la vista previa de voz conversacional en el sitio web de Sesame AI para experimentar el potencial de su enfoque. Los modelos estarán disponibles bajo una licencia Apache 2.0.
¿Para quién es Sesame AI? Sesame AI es para investigadores, desarrolladores y cualquier persona interesada en avanzar en el campo de la AI conversacional. Su trabajo tiene aplicaciones en diversas áreas, incluyendo:
- Asistentes de AI
- Servicio al cliente
- Educación
- Entretenimiento
Código Abierto y Trabajo Futuro:
Sesame AI está comprometido con el código abierto de los componentes clave de su investigación, lo que permite a la comunidad experimentar, construir y mejorar su enfoque. El trabajo futuro incluye ampliar el tamaño del modelo, aumentar el volumen del conjunto de datos, expandir el soporte de idiomas y explorar formas de utilizar modelos de lenguaje pre-entrenados.
Mejores herramientas alternativas a "Sesame"

Skywork - Skywork convierte entradas simples en contenido multimodal - docs, slides, sheets con investigación profunda, podcasts y páginas web. Perfecto para analistas creando informes, educadores diseñando slides o padres haciendo audiolibros. Si puedes imaginarlo, Skywork lo realiza.

KoboldCpp: Ejecuta modelos GGUF fácilmente para generación de texto e imágenes con IA usando una interfaz de KoboldAI. Un solo archivo, sin instalación. Compatible con CPU/GPU, STT, TTS y Stable Diffusion.

Experimenta Voice AI de vanguardia con nuestro generador y convertidor gratuito de texto a habla. Disfruta de una síntesis de voz rápida y de alta calidad impulsada por modelos de IA avanzados como Deepseek, Hailuo, Grok y Kling para discursos naturales y expresivos en diversas aplicaciones.

Descubre Nano Banana AI, impulsado por Gemini 2.5 Flash Image, para generación y edición de imágenes en línea gratuita. Crea personajes consistentes, edita fotos sin esfuerzo y explora estilos como anime o conversiones 3D en NanoBananaArt.ai.

BlitzVideo convierte texto en videos profesionales al instante con IA. Genera guiones, clips, subtítulos, música y transiciones sin esfuerzo. Ideal para creadores de YouTube, TikTok e Instagram que buscan contenido rápido y escalable sin complicaciones de edición.

Descubre Pal Chat, el cliente de chat AI ligero pero potente para iOS. Accede a GPT-4o, Claude 3.5 y más modelos con privacidad total: no se recopila datos. Genera imágenes, edita prompts y disfruta interacciones AI fluidas en iPhone o iPad.

Descubre el generador de música con IA que crea canciones, letras y pistas únicas y personalizables para cualquier proyecto. Perfecto para creadores de contenido, músicos y cineastas, nuestro algoritmo inteligente utiliza tecnología avanzada para generar música libre de derechos adaptada a tus necesidades. Explora el futuro de la composición musical con las innovadoras herramientas de IA de Mureka, diseñadas para inspirar la creatividad y agilizar la producción. Experimenta una integración fluida y una calidad excepcional con nuestras soluciones de vanguardia.

EasyPrompt es un chatbot de IA basado en Telegram que integra ChatGPT y Midjourney para generación de prompts, creación de imágenes, bots personalizados y colaboración en equipo. Sin login ni codificación—empieza gratis.

T-Rex Label es una herramienta de anotación de datos impulsada por IA que admite los modelos Grounding DINO, DINO-X y T-Rex. Es compatible con los conjuntos de datos COCO y YOLO, y ofrece funciones como cuadros delimitadores, segmentación de imágenes y anotación de máscaras para la creación eficiente de conjuntos de datos de visión artificial.

Knowlee es una plataforma de agentes de IA que automatiza tareas en varias aplicaciones como Gmail y Slack, ahorrando tiempo y aumentando la productividad empresarial. Cree agentes de IA personalizados adaptados a las necesidades únicas de su negocio que se integran perfectamente con sus herramientas y flujos de trabajo existentes.

NextReady es una plantilla Next.js lista para usar con Prisma, TypeScript y shadcn/ui, diseñada para ayudar a los desarrolladores a crear aplicaciones web más rápido. Incluye autenticación, pagos y panel de administración.

Oh One Pro es una utilidad gratuita para macOS que analiza PDFs, código fuente y documentos usando los modelos o1-pro y o3 de ChatGPT. Convierte archivos a XML o imágenes para una integración fluida, garantizando privacidad con procesamiento local.

¡Accede a ChatGPT, Whisper y Dall-E a través de Telegram con Solvemigo! Obtén redacción de contenido, marketing, codificación, generación de arte impulsados por IA y asesoramiento de expertos 24/7. $9.99/mes.

ChatLLaMA es un asistente de IA entrenado con LoRA basado en modelos LLaMA, que permite conversaciones personalizadas en tu GPU local. Incluye GUI de escritorio, entrenado en el conjunto de datos HH de Anthropic, disponible para modelos de 7B, 13B y 30B.

ZekAI es una plataforma de IA versátil que ofrece herramientas como Assistant para chats personalizados, Author para tareas de escritura, Designer para creación de imágenes y Explorer para interacción con documentos. Accede a modelos líderes como GPT-4o para mejorar la productividad en educación, retail y medios.