Sesame AI: Cruzando o vale da estranheza da voz conversacional

Sesame

3.5 | 49 | 0
Tipo:
Site Web
Última atualização:
2025/10/06
Descrição:
Sesame AI tem como objetivo alcançar a 'presença de voz' na IA, fazendo com que as interações faladas pareçam reais e compreensíveis. Explore seu modelo de fala conversacional (CSM) para um diálogo natural.
Compartilhar:
voz conversacional
geração de fala
IA multimodal
texto para voz
companheiro de IA

Visão geral de Sesame

Sesame AI: Cruzando o Vale da Estranheza da Voz Conversacional

O que é Sesame AI? A Sesame AI se dedica a alcançar a "presença de voz" na inteligência artificial, com o objetivo de tornar as interações faladas reais, compreendidas e valorizadas. Sua pesquisa se concentra na criação de parceiros de conversação que se envolvem em um diálogo genuíno, construindo confiança ao longo do tempo.

Como funciona a Sesame AI? A Sesame AI apresenta o Modelo de Fala Conversacional (CSM), uma tarefa de aprendizado multimodal de ponta a ponta usando transformadores. O CSM aproveita o histórico da conversa para produzir uma fala mais natural e coerente.

Componentes-chave:

  • Inteligência emocional: ler e responder a contextos emocionais.
  • Dinâmica conversacional: tempo natural, pausas, interrupções e ênfase.
  • Consciência contextual: ajustar o tom e o estilo para corresponder à situação.
  • Personalidade consistente: manter uma presença coerente, confiável e apropriada.

Detalhes Técnicos do CSM:

  • O CSM opera como um modelo de estágio único, melhorando a eficiência e a expressividade.
  • Ele usa dois transformadores auto-regressivos baseados na arquitetura Llama.
  • O modelo processa texto e áudio intercalados para modelar o codebook zero.
  • Um decodificador de áudio separado usa um cabeçalho linear distinto para cada codebook para reconstruir a fala a partir das representações da espinha dorsal.

Amortização de Computação:

Para resolver os desafios de infraestrutura durante o treinamento, a Sesame AI usa um esquema de amortização de computação que alivia o gargalo de memória, preservando a fidelidade dos codebooks RVQ completos. O decodificador de áudio é treinado apenas em um subconjunto aleatório de 1/16 dos quadros de áudio, enquanto o codebook zero é treinado em todos os quadros.

Experimentos e Resultados:

A Sesame AI treinou três tamanhos de modelo (Tiny, Small e Medium) em um grande conjunto de dados de áudio disponível publicamente. A avaliação incluiu métricas objetivas como Taxa de Erro de Palavras (WER) e Similaridade de Falantes (SIM), bem como novos benchmarks baseados em transcrição fonética para desambiguação de homógrafos e consistência de pronúncia.

Métricas subjetivas, usando estudos de Pontuação Média de Opinião Comparativa (CMOS) no conjunto de dados Expresso, revelaram que, embora a naturalidade esteja saturada, permanece uma lacuna entre a prosódia gerada e a humana na geração de fala conversacional.

Por que escolher Sesame AI? A abordagem da Sesame AI oferece um caminho promissor para conversas de IA mais naturais e envolventes. Ao se concentrar na inteligência emocional, na consciência contextual e na dinâmica conversacional, a Sesame AI visa criar companheiros digitais que realmente entendam e respondam às necessidades humanas.

Como usar Sesame AI? Experimente a visualização da fala conversacional no site da Sesame AI para experimentar o potencial de sua abordagem. Os modelos estarão disponíveis sob uma licença Apache 2.0.

Para quem é a Sesame AI? A Sesame AI é para pesquisadores, desenvolvedores e qualquer pessoa interessada em avançar no campo da IA conversacional. Seu trabalho tem aplicações em diversas áreas, incluindo:

  • Assistentes de IA
  • Atendimento ao cliente
  • Educação
  • Entretenimento

Código Aberto e Trabalho Futuro:

A Sesame AI está comprometida em abrir o código de componentes-chave de sua pesquisa, permitindo que a comunidade experimente, construa e aprimore sua abordagem. O trabalho futuro inclui aumentar o tamanho do modelo, aumentar o volume do conjunto de dados, expandir o suporte a idiomas e explorar maneiras de utilizar modelos de linguagem pré-treinados.

Melhores ferramentas alternativas para "Sesame"

ChatLLaMA
Imagem não disponível
86 0

ChatLLaMA é um assistente de IA treinado com LoRA baseado em modelos LLaMA, permitindo conversas personalizadas no seu GPU local. Inclui GUI de desktop, treinado no dataset HH da Anthropic, disponível para modelos 7B, 13B e 30B.

Ajuste fino LoRA
IA conversacional
ZekAI
Imagem não disponível
94 0

ZekAI é uma plataforma de IA versátil que oferece ferramentas como Assistant para chats personalizados, Author para tarefas de escrita, Designer para criação de imagens e Explorer para interação com documentos. Acesse modelos líderes como GPT-4o para aprimorar a produtividade em educação, varejo e mídia.

assistentes IA personalizados
Skywork.ai
Imagem não disponível
130 0

Skywork - Skywork transforma entradas simples em conteúdo multimodal - docs, slides, planilhas com pesquisa profunda, podcasts e páginas web. Perfeito para analistas criando relatórios, educadores projetando slides ou pais fazendo audiolivros. Se você imaginar, Skywork realiza.

DeepResearch
Super Agents
T-Rex Label
Imagem não disponível
353 0

T-Rex Label é uma ferramenta de anotação de dados com tecnologia de IA que oferece suporte aos modelos Grounding DINO, DINO-X e T-Rex. É compatível com os conjuntos de dados COCO e YOLO, oferecendo recursos como caixas delimitadoras, segmentação de imagem e anotação de máscara para criação eficiente de conjuntos de dados de visão computacional.

anotação de dados
NextReady
Imagem não disponível
278 0

NextReady é um template Next.js pronto para usar com Prisma, TypeScript e shadcn/ui, projetado para ajudar os desenvolvedores a criar aplicações web mais rapidamente. Inclui autenticação, pagamentos e painel de administração.

Next.js
TypeScript
Prisma
EasyPrompt
Imagem não disponível
104 0

EasyPrompt é um chatbot de IA baseado no Telegram que integra ChatGPT e Midjourney para geração de prompts, criação de imagens, bots personalizados e colaboração em equipe. Sem login ou codificação—comece grátis.

engenharia de prompts
Nano Banana AI
Imagem não disponível
84 0

Descubra Nano Banana AI, alimentado por Gemini 2.5 Flash Image, para geração e edição de imagens online gratuitas. Crie personagens consistentes, edite fotos sem esforço e explore estilos como anime ou conversões 3D no NanoBananaArt.ai.

edição de imagens
Solvemigo
Imagem não disponível
248 0

Acesse ChatGPT, Whisper e Dall-E via Telegram com Solvemigo! Obtenha redação de conteúdo, marketing, codificação, geração de arte com tecnologia de IA e aconselhamento de especialistas 24 horas por dia, 7 dias por semana. $ 9,99/mês.

ChatGPT
Dall-E
Whisper
Oh One Pro
Imagem não disponível
92 0

Oh One Pro é uma utilidade gratuita para macOS que analisa PDFs, código-fonte e documentos usando os modelos o1-pro e o3 do ChatGPT. Converte arquivos para XML ou imagens para integração perfeita, garantindo privacidade com processamento local.

conversão de documentos
Knowlee
Imagem não disponível
291 0

Knowlee é uma plataforma de agente de IA que automatiza tarefas em vários aplicativos como Gmail e Slack, economizando tempo e aumentando a produtividade dos negócios. Crie agentes de IA personalizados, adaptados às necessidades exclusivas de sua empresa, que se integram perfeitamente com suas ferramentas e fluxos de trabalho existentes.

Automação de IA
KoboldCpp
Imagem não disponível
82 0

KoboldCpp: Execute modelos GGUF facilmente para geração de texto e imagem com IA usando uma interface KoboldAI. Arquivo único, instalação zero. Suporta CPU/GPU, STT, TTS e Stable Diffusion.

geração de texto
geração de imagens
Mureka
Imagem não disponível
93 0

Descubra o gerador de música com IA que cria músicas, letras e trilhas únicas e personalizáveis para qualquer projeto. Perfeito para criadores de conteúdo, músicos e cineastas, nosso algoritmo inteligente usa tecnologia avançada para gerar música livre de royalties adaptada às suas necessidades. Explore o futuro da composição musical com as inovadoras ferramentas de IA do Mureka, projetadas para inspirar criatividade e agilizar a produção. Experimente integração perfeita e qualidade excepcional com nossas soluções de ponta.

geração de música
composição IA
Pal Chat
Imagem não disponível
93 0

Descubra o Pal Chat, o cliente de chat IA leve mas poderoso para iOS. Acesse GPT-4o, Claude 3.5 e mais modelos com privacidade total: nenhum dado coletado. Gere imagens, edite prompts e desfrute de interações IA fluidas no iPhone ou iPad.

chat IA multi-modelo
SteosVoice
Imagem não disponível
250 0

SteosVoice é um gerador de voz AI que oferece síntese de fala ultra-realista para criadores de conteúdo. Duble vídeos, crie podcasts e monetize sua voz com mais de 800 vozes.

texto para voz
voz AI
síntese de voz
Spicy Chat
Imagem não disponível
279 0

Desfrute de conversas ousadas com IA no Spicy Chat! Se você quer uma namorada de IA romântica ou uma conversa profunda, o Spicy Chat AI está disponível 24 horas por dia, 7 dias por semana!

Chatbot de IA
Companheiro de IA