Sesame 概述
Sesame AI:跨越对话语音的恐怖谷
什么是 Sesame AI? Sesame AI 致力于在人工智能中实现“声音呈现”,旨在使口语互动感觉真实、被理解和被重视。他们的研究重点是创建能够进行真诚对话的对话伙伴,随着时间的推移建立信心和信任。
Sesame AI 如何工作? Sesame AI 引入了对话语音模型 (CSM),这是一种使用 transformers 的端到端多模态学习任务。CSM 利用对话的历史记录来产生更自然和连贯的语音。
主要组成部分:
- 情商:阅读和回应情感语境。
- 对话动态:自然的节奏、停顿、中断和强调。
- 情境意识:调整语气和风格以适应具体情况。
- 一致的个性:保持连贯、可靠和适当的表现。
CSM 的技术细节:
- CSM 作为单阶段模型运行,提高了效率和表现力。
- 它使用两个基于 Llama 架构的自回归 transformers。
- 该模型处理交错的文本和音频,以对第零个码本进行建模。
- 一个单独的音频解码器为每个码本使用一个不同的线性头,以从主干的表示中重建语音。
计算摊销:
为了解决训练期间的基础设施挑战,Sesame AI 使用了一种计算摊销方案,该方案缓解了内存瓶颈,同时保持了完整 RVQ 码本的保真度。音频解码器仅在音频帧的随机 1/16 子集上进行训练,而第零个码本在每个帧上进行训练。
实验与结果:
Sesame AI 在大型公开音频数据集上训练了三种模型尺寸(Tiny、Small 和 Medium)。评估包括客观指标,如词错误率 (WER) 和说话人相似度 (SIM),以及用于同形异义词消歧和发音一致性的新的基于语音转录的基准。
使用 Expresso 数据集上的比较平均意见评分 (CMOS) 研究的主观指标表明,虽然自然度已经饱和,但在对话语音生成中,生成的韵律和人类韵律之间仍然存在差距。
为什么选择 Sesame AI? Sesame AI 的方法为更自然和更具吸引力的 AI 对话提供了一条有希望的途径。通过专注于情商、情境意识和对话动态,Sesame AI 旨在创建真正理解和响应人类需求的数字伙伴。
如何使用 Sesame AI? 在 Sesame AI 网站上尝试对话语音预览,以体验其方法的潜力。这些模型将在 Apache 2.0 许可下提供。
Sesame AI 适用于谁? Sesame AI 适用于研究人员、开发人员以及任何有兴趣推进对话 AI 领域的人。他们的工作在各个领域都有应用,包括:
- AI 助手
- 客户服务
- 教育
- 娱乐
开源和未来工作:
Sesame AI 致力于开源其研究的关键组件,使社区能够试验、构建和改进其方法。未来的工作包括扩大模型尺寸、增加数据集量、扩展语言支持以及探索利用预训练语言模型的方法。
"Sesame"的最佳替代工具

使用我们的免费文本转语音生成器和转换器体验先进的Voice AI。享受由Deepseek、Hailuo、Grok和Kling等先进AI模型驱动的快速、高质量语音合成,适用于各种自然、富有表现力的语音应用。

grafychat 是一款一体化、注重隐私的 AI 聊天客户端,支持 ChatGPT、Gemini、Claude、Llama 3 等。在画布上以可视化方式组织聊天,利用所有 AI 功能,并掌控您的数据。

KoboldCpp:使用 KoboldAI UI 轻松运行 GGUF 模型,进行 AI 文本和图像生成。单文件,零安装。支持 CPU/GPU、语音转文本、文本转语音和 Stable Diffusion。

发现创建独特且可定制歌曲、歌词和曲目的AI音乐生成器。完美适用于内容创作者、音乐家和电影制作人,我们的智能算法使用先进技术生成符合您需求的免版税音乐。探索Mureka创新AI工具带来的音乐作曲未来,这些工具旨在激发创意并简化制作。体验无缝集成和卓越质量的尖端解决方案。




使用此插件将 ChatGPT 集成到 Outlook 中!直接从您的收件箱总结电子邮件、生成内容等。需要您自己的 ChatGPT API 密钥。




探索Skelet AI,您的一站式平台,用于生成AI驱动的内容、惊人图像和80多种语言的自然文本转语音。提供免费计划,并可升级到高级版以获得HD功能。



VoiceCraft 是一款开源 AI 工具,用于零样本语音编辑和文本到语音转换,只需几秒钟的参考音频即可实现声音克隆。在实际数据上实现最先进的性能。