Sesame AI:跨越对话语音的恐怖谷

Sesame

3.5 | 45 | 0
类型:
网站
最后更新:
2025/10/06
资源描述:
Sesame AI 致力于在人工智能中实现“语音呈现”,使口语互动感觉真实且易于理解。探索他们的对话语音模型 (CSM),以实现自然的对话。
分享:
对话语音
语音生成
多模态人工智能
文本转语音
人工智能助手

Sesame 概述

Sesame AI:跨越对话语音的恐怖谷

什么是 Sesame AI? Sesame AI 致力于在人工智能中实现“声音呈现”,旨在使口语互动感觉真实、被理解和被重视。他们的研究重点是创建能够进行真诚对话的对话伙伴,随着时间的推移建立信心和信任。

Sesame AI 如何工作? Sesame AI 引入了对话语音模型 (CSM),这是一种使用 transformers 的端到端多模态学习任务。CSM 利用对话的历史记录来产生更自然和连贯的语音。

主要组成部分

  • 情商:阅读和回应情感语境。
  • 对话动态:自然的节奏、停顿、中断和强调。
  • 情境意识:调整语气和风格以适应具体情况。
  • 一致的个性:保持连贯、可靠和适当的表现。

CSM 的技术细节

  • CSM 作为单阶段模型运行,提高了效率和表现力。
  • 它使用两个基于 Llama 架构的自回归 transformers。
  • 该模型处理交错的文本和音频,以对第零个码本进行建模。
  • 一个单独的音频解码器为每个码本使用一个不同的线性头,以从主干的表示中重建语音。

计算摊销

为了解决训练期间的基础设施挑战,Sesame AI 使用了一种计算摊销方案,该方案缓解了内存瓶颈,同时保持了完整 RVQ 码本的保真度。音频解码器仅在音频帧的随机 1/16 子集上进行训练,而第零个码本在每个帧上进行训练。

实验与结果

Sesame AI 在大型公开音频数据集上训练了三种模型尺寸(Tiny、Small 和 Medium)。评估包括客观指标,如词错误率 (WER) 和说话人相似度 (SIM),以及用于同形异义词消歧和发音一致性的新的基于语音转录的基准。

使用 Expresso 数据集上的比较平均意见评分 (CMOS) 研究的主观指标表明,虽然自然度已经饱和,但在对话语音生成中,生成的韵律和人类韵律之间仍然存在差距。

为什么选择 Sesame AI? Sesame AI 的方法为更自然和更具吸引力的 AI 对话提供了一条有希望的途径。通过专注于情商、情境意识和对话动态,Sesame AI 旨在创建真正理解和响应人类需求的数字伙伴。

如何使用 Sesame AI? 在 Sesame AI 网站上尝试对话语音预览,以体验其方法的潜力。这些模型将在 Apache 2.0 许可下提供。

Sesame AI 适用于谁? Sesame AI 适用于研究人员、开发人员以及任何有兴趣推进对话 AI 领域的人。他们的工作在各个领域都有应用,包括:

  • AI 助手
  • 客户服务
  • 教育
  • 娱乐

开源和未来工作

Sesame AI 致力于开源其研究的关键组件,使社区能够试验、构建和改进其方法。未来的工作包括扩大模型尺寸、增加数据集量、扩展语言支持以及探索利用预训练语言模型的方法。

"Sesame"的最佳替代工具

Voice AI
暂无图片
104 0

使用我们的免费文本转语音生成器和转换器体验先进的Voice AI。享受由Deepseek、Hailuo、Grok和Kling等先进AI模型驱动的快速、高质量语音合成,适用于各种自然、富有表现力的语音应用。

文本转语音合成
语音克隆
grafychat
暂无图片
307 0

grafychat 是一款一体化、注重隐私的 AI 聊天客户端,支持 ChatGPT、Gemini、Claude、Llama 3 等。在画布上以可视化方式组织聊天,利用所有 AI 功能,并掌控您的数据。

AI聊天
画布界面
多AI支持
KoboldCpp
暂无图片
81 0

KoboldCpp:使用 KoboldAI UI 轻松运行 GGUF 模型,进行 AI 文本和图像生成。单文件,零安装。支持 CPU/GPU、语音转文本、文本转语音和 Stable Diffusion。

文本生成
图像生成
GGUF
Mureka
暂无图片
93 0

发现创建独特且可定制歌曲、歌词和曲目的AI音乐生成器。完美适用于内容创作者、音乐家和电影制作人,我们的智能算法使用先进技术生成符合您需求的免版税音乐。探索Mureka创新AI工具带来的音乐作曲未来,这些工具旨在激发创意并简化制作。体验无缝集成和卓越质量的尖端解决方案。

音乐生成
AI作曲
歌词创作
Voxify
暂无图片
271 0

使用 Voxify 的 AI 语音生成器将文本转换为语音。访问 450 多种声音,自定义音高、速度和情感。非常适合内容创作者和教育工作者。

文本转语音
AI配音
语音生成器
Speechify
暂无图片
286 0

Speechify 是一款文本转语音阅读器,可让您收听任何文本。拥有超过 5000 万用户,它可以帮助您更快、更高效地阅读。

文本转语音
tts
ai语音
DesiVocal
暂无图片
329 0

DesiVocal是一款免费的AI语音生成器,可用于多种语言的文本转语音。在几秒钟内为YouTube、有声读物、销售等创建高清AI语音。

文本转语音
AI语音
语音克隆
ChatGPT Add-in for Outlook
暂无图片
279 0

使用此插件将 ChatGPT 集成到 Outlook 中!直接从您的收件箱总结电子邮件、生成内容等。需要您自己的 ChatGPT API 密钥。

邮件摘要
人工智能助手
生产力
Arcads
暂无图片
273 0

Arcads 简化了 AI 驱动的 UGC 视频创作。几分钟内通过文本和 AI 演员生成成功的视频广告,从而节省效果营销的时间和成本。

AI 视频生成器
AI 演员
UGC
Octave
暂无图片
78 0

Hume AI 的 Octave 是一款逼真的 AI 语音生成工具,它可以理解上下文和情感,允许用户创建具有特定风格和表达方式的自定义声音。

AI语音
文本转语音
情感AI
Fotol AI
暂无图片
215 0

Fotol AI 提供 AGI 网关,为视频、图像、语音、音乐、3D 资产生成和对话提供强大的 AI 解决方案。梦想成真!

AI 视频
AI 图像
AI 音乐
Skelet AI
暂无图片
79 0

探索Skelet AI,您的一站式平台,用于生成AI驱动的内容、惊人图像和80多种语言的自然文本转语音。提供免费计划,并可升级到高级版以获得HD功能。

内容生成
图像合成
文本转语音
Homeway
暂无图片
280 0

Homeway:免费且安全的家庭助手云。远程访问,ChatGPT 5 AI助手,Alexa和Google助手支持等等!

家庭助手
人工智能
ChatGPT
Kits AI
暂无图片
220 0

Kits AI 为音乐制作人提供录音室品质的 AI 音乐工具,包括声音克隆、人声移除和 AI 母带处理,确保 100% 免版税使用。

AI音乐制作
声音克隆
AI母带处理
VoiceCraft
暂无图片
61 0

VoiceCraft 是一款开源 AI 工具,用于零样本语音编辑和文本到语音转换,只需几秒钟的参考音频即可实现声音克隆。在实际数据上实现最先进的性能。

语音合成
声音克隆
音频编辑