Sesame AI:跨越对话语音的恐怖谷

Sesame

3.5 | 320 | 0
类型:
网站
最后更新:
2025/10/06
资源描述:
Sesame AI 致力于在人工智能中实现“语音呈现”,使口语互动感觉真实且易于理解。探索他们的对话语音模型 (CSM),以实现自然的对话。
分享:
对话语音
语音生成
多模态人工智能
文本转语音
人工智能助手

Sesame 概述

Sesame AI:跨越对话语音的恐怖谷

什么是 Sesame AI? Sesame AI 致力于在人工智能中实现“声音呈现”,旨在使口语互动感觉真实、被理解和被重视。他们的研究重点是创建能够进行真诚对话的对话伙伴,随着时间的推移建立信心和信任。

Sesame AI 如何工作? Sesame AI 引入了对话语音模型 (CSM),这是一种使用 transformers 的端到端多模态学习任务。CSM 利用对话的历史记录来产生更自然和连贯的语音。

主要组成部分

  • 情商:阅读和回应情感语境。
  • 对话动态:自然的节奏、停顿、中断和强调。
  • 情境意识:调整语气和风格以适应具体情况。
  • 一致的个性:保持连贯、可靠和适当的表现。

CSM 的技术细节

  • CSM 作为单阶段模型运行,提高了效率和表现力。
  • 它使用两个基于 Llama 架构的自回归 transformers。
  • 该模型处理交错的文本和音频,以对第零个码本进行建模。
  • 一个单独的音频解码器为每个码本使用一个不同的线性头,以从主干的表示中重建语音。

计算摊销

为了解决训练期间的基础设施挑战,Sesame AI 使用了一种计算摊销方案,该方案缓解了内存瓶颈,同时保持了完整 RVQ 码本的保真度。音频解码器仅在音频帧的随机 1/16 子集上进行训练,而第零个码本在每个帧上进行训练。

实验与结果

Sesame AI 在大型公开音频数据集上训练了三种模型尺寸(Tiny、Small 和 Medium)。评估包括客观指标,如词错误率 (WER) 和说话人相似度 (SIM),以及用于同形异义词消歧和发音一致性的新的基于语音转录的基准。

使用 Expresso 数据集上的比较平均意见评分 (CMOS) 研究的主观指标表明,虽然自然度已经饱和,但在对话语音生成中,生成的韵律和人类韵律之间仍然存在差距。

为什么选择 Sesame AI? Sesame AI 的方法为更自然和更具吸引力的 AI 对话提供了一条有希望的途径。通过专注于情商、情境意识和对话动态,Sesame AI 旨在创建真正理解和响应人类需求的数字伙伴。

如何使用 Sesame AI? 在 Sesame AI 网站上尝试对话语音预览,以体验其方法的潜力。这些模型将在 Apache 2.0 许可下提供。

Sesame AI 适用于谁? Sesame AI 适用于研究人员、开发人员以及任何有兴趣推进对话 AI 领域的人。他们的工作在各个领域都有应用,包括:

  • AI 助手
  • 客户服务
  • 教育
  • 娱乐

开源和未来工作

Sesame AI 致力于开源其研究的关键组件,使社区能够试验、构建和改进其方法。未来的工作包括扩大模型尺寸、增加数据集量、扩展语言支持以及探索利用预训练语言模型的方法。

"Sesame"的最佳替代工具

Audiobox
暂无图片
451 0

Audiobox 是 Meta 的新型基础研究模型,用于音频生成。它可以使用语音输入和自然语言文本提示的组合来生成语音和音效。

音频生成
语音合成
音效创建
VeedoAI
暂无图片
439 0

VeedoAI是一个人工智能驱动的视频洞察平台,可将视频内容转化为可搜索、可操作和智能的资源,从而提升用户互动,加速学习并最大化收入。

视频分析
AI视频搜索
视频摘要
Valossa
暂无图片
309 0

Valossa 是一个 AI 驱动的视频分析平台,可将视频转换为文本,从而实现搜索、字幕生成和精彩片段剪辑。它可以自动执行视频工作流程,从而节省时间和资源。

视频转录
AI视频分析
自动字幕
GPT-4o
暂无图片
410 0

探索 GPT-4o,OpenAI 的多模态 AI 平台,处理文本、视觉和音频。体验速度、成本效益和可访问性。非常适合技术爱好者和企业。

多模态 AI
AI 平台
视觉识别
Futurepedia
暂无图片
319 0

Futurepedia是一个免费网站,帮助您找到最佳的AI工具和软件,使您的工作和生活更高效和富有成效。每日更新,加入数百万粉丝的网站、新闻通讯和YouTube频道。

AI工具目录
生产力增强器
AI资源中心
Chat Data
暂无图片
533 0

Chat Data是一款AI聊天机器人创建工具,适用于网站、Discord、Slack、Shopify、WordPress等。一次训练,随处部署。自定义、连接和分享。

AI 聊天机器人
客户支持
自动化
Inbenta AI
暂无图片
330 0

Inbenta 提供基于 AI 的客户和员工体验解决方案,具有个性化的 24/7 全渠道支持,可自动化互动、降低成本并提升满意度。

对话式AI
知识工程
工作流自动化
scalerX.ai
暂无图片
294 0

使用您的数据训练的个性化 GenAI RAG 代理。适合企业主、频道管理员、客户服务、销售、教育等领域。

RAG 代理
Telegram 集成
Convo
暂无图片
348 0

使用AI驱动的用户访谈扩展定性研究。即时获得洞察,10倍速度分析反馈。受LinkedIn、Ford和Miro信赖。免费试用。

定性研究
用户访谈
AI洞察
bntr
暂无图片
319 0

使用bntr的语音和聊天AI自动化客户互动。易于设置,以您的数据训练—我们将帮助您入门。今天免费试用!

客户服务AI
语音自动化
聊天代理
Orga AI
暂无图片
310 0

Orga AI 是面向企业的对话式和多模态 AI 平台,通过类人交互提升客户服务并提高生产力。

对话式AI
多模态代理
客户互动
Scoopika
暂无图片
284 0

Scoopika 是一个开源平台,用于构建具有 LLM 和 AI 代理的多模态 AI 应用,具有错误恢复、流式传输和数据验证功能。

LLM应用开发
AI代理
多模态AI
Famulor
暂无图片
684 0

Famulor 是一款领先的AI电话助理,通过类人、智能的AI代理全天候24/7自动处理您的商务电话。符合GDPR,并在欧盟托管。

AI呼叫中心
虚拟助理
客户服务
Google Gemini
暂无图片
336 0

Google Gemini是一款多模态AI助手,与Google生态系统深度集成,通过文本、语音和视觉交互提供高级写作辅助、规划、头脑风暴和生产力工具。

多模态AI
Google助手