Sesame 概述
Sesame AI:跨越对话语音的恐怖谷
什么是 Sesame AI? Sesame AI 致力于在人工智能中实现“声音呈现”,旨在使口语互动感觉真实、被理解和被重视。他们的研究重点是创建能够进行真诚对话的对话伙伴,随着时间的推移建立信心和信任。
Sesame AI 如何工作? Sesame AI 引入了对话语音模型 (CSM),这是一种使用 transformers 的端到端多模态学习任务。CSM 利用对话的历史记录来产生更自然和连贯的语音。
主要组成部分:
- 情商:阅读和回应情感语境。
- 对话动态:自然的节奏、停顿、中断和强调。
- 情境意识:调整语气和风格以适应具体情况。
- 一致的个性:保持连贯、可靠和适当的表现。
CSM 的技术细节:
- CSM 作为单阶段模型运行,提高了效率和表现力。
- 它使用两个基于 Llama 架构的自回归 transformers。
- 该模型处理交错的文本和音频,以对第零个码本进行建模。
- 一个单独的音频解码器为每个码本使用一个不同的线性头,以从主干的表示中重建语音。
计算摊销:
为了解决训练期间的基础设施挑战,Sesame AI 使用了一种计算摊销方案,该方案缓解了内存瓶颈,同时保持了完整 RVQ 码本的保真度。音频解码器仅在音频帧的随机 1/16 子集上进行训练,而第零个码本在每个帧上进行训练。
实验与结果:
Sesame AI 在大型公开音频数据集上训练了三种模型尺寸(Tiny、Small 和 Medium)。评估包括客观指标,如词错误率 (WER) 和说话人相似度 (SIM),以及用于同形异义词消歧和发音一致性的新的基于语音转录的基准。
使用 Expresso 数据集上的比较平均意见评分 (CMOS) 研究的主观指标表明,虽然自然度已经饱和,但在对话语音生成中,生成的韵律和人类韵律之间仍然存在差距。
为什么选择 Sesame AI? Sesame AI 的方法为更自然和更具吸引力的 AI 对话提供了一条有希望的途径。通过专注于情商、情境意识和对话动态,Sesame AI 旨在创建真正理解和响应人类需求的数字伙伴。
如何使用 Sesame AI? 在 Sesame AI 网站上尝试对话语音预览,以体验其方法的潜力。这些模型将在 Apache 2.0 许可下提供。
Sesame AI 适用于谁? Sesame AI 适用于研究人员、开发人员以及任何有兴趣推进对话 AI 领域的人。他们的工作在各个领域都有应用,包括:
- AI 助手
- 客户服务
- 教育
- 娱乐
开源和未来工作:
Sesame AI 致力于开源其研究的关键组件,使社区能够试验、构建和改进其方法。未来的工作包括扩大模型尺寸、增加数据集量、扩展语言支持以及探索利用预训练语言模型的方法。
"Sesame"的最佳替代工具
Valossa 是一个 AI 驱动的视频分析平台,可将视频转换为文本,从而实现搜索、字幕生成和精彩片段剪辑。它可以自动执行视频工作流程,从而节省时间和资源。
Futurepedia是一个免费网站,帮助您找到最佳的AI工具和软件,使您的工作和生活更高效和富有成效。每日更新,加入数百万粉丝的网站、新闻通讯和YouTube频道。
Chat Data是一款AI聊天机器人创建工具,适用于网站、Discord、Slack、Shopify、WordPress等。一次训练,随处部署。自定义、连接和分享。
Google Gemini是一款多模态AI助手,与Google生态系统深度集成,通过文本、语音和视觉交互提供高级写作辅助、规划、头脑风暴和生产力工具。