Sesame AI：跨越对话语音的恐怖谷

Sesame 概述

Sesame AI：跨越对话语音的恐怖谷

什么是 Sesame AI？ Sesame AI 致力于在人工智能中实现“声音呈现”，旨在使口语互动感觉真实、被理解和被重视。他们的研究重点是创建能够进行真诚对话的对话伙伴，随着时间的推移建立信心和信任。

Sesame AI 如何工作？ Sesame AI 引入了对话语音模型 (CSM)，这是一种使用 transformers 的端到端多模态学习任务。CSM 利用对话的历史记录来产生更自然和连贯的语音。

主要组成部分：

情商：阅读和回应情感语境。
对话动态：自然的节奏、停顿、中断和强调。
情境意识：调整语气和风格以适应具体情况。
一致的个性：保持连贯、可靠和适当的表现。

CSM 的技术细节：

CSM 作为单阶段模型运行，提高了效率和表现力。
它使用两个基于 Llama 架构的自回归 transformers。
该模型处理交错的文本和音频，以对第零个码本进行建模。
一个单独的音频解码器为每个码本使用一个不同的线性头，以从主干的表示中重建语音。

计算摊销：

为了解决训练期间的基础设施挑战，Sesame AI 使用了一种计算摊销方案，该方案缓解了内存瓶颈，同时保持了完整 RVQ 码本的保真度。音频解码器仅在音频帧的随机 1/16 子集上进行训练，而第零个码本在每个帧上进行训练。

实验与结果：

Sesame AI 在大型公开音频数据集上训练了三种模型尺寸（Tiny、Small 和 Medium）。评估包括客观指标，如词错误率 (WER) 和说话人相似度 (SIM)，以及用于同形异义词消歧和发音一致性的新的基于语音转录的基准。

使用 Expresso 数据集上的比较平均意见评分 (CMOS) 研究的主观指标表明，虽然自然度已经饱和，但在对话语音生成中，生成的韵律和人类韵律之间仍然存在差距。

为什么选择 Sesame AI？ Sesame AI 的方法为更自然和更具吸引力的 AI 对话提供了一条有希望的途径。通过专注于情商、情境意识和对话动态，Sesame AI 旨在创建真正理解和响应人类需求的数字伙伴。

如何使用 Sesame AI？在 Sesame AI 网站上尝试对话语音预览，以体验其方法的潜力。这些模型将在 Apache 2.0 许可下提供。

Sesame AI 适用于谁？ Sesame AI 适用于研究人员、开发人员以及任何有兴趣推进对话 AI 领域的人。他们的工作在各个领域都有应用，包括：

AI 助手
客户服务
教育
娱乐

开源和未来工作：

Sesame AI 致力于开源其研究的关键组件，使社区能够试验、构建和改进其方法。未来的工作包括扩大模型尺寸、增加数据集量、扩展语言支持以及探索利用预训练语言模型的方法。

推荐目录

AI语音合成 AI语音变声 AI音乐创作语音转文本 AI语音客服与语音助手播客与视频配音

"Sesame"的最佳替代工具

Audiobox

451 0

Audiobox 是 Meta 的新型基础研究模型，用于音频生成。它可以使用语音输入和自然语言文本提示的组合来生成语音和音效。

音频生成

语音合成

音效创建

VeedoAI

439 0

VeedoAI是一个人工智能驱动的视频洞察平台，可将视频内容转化为可搜索、可操作和智能的资源，从而提升用户互动，加速学习并最大化收入。

视频分析

AI视频搜索

视频摘要

Valossa

309 0

Valossa 是一个 AI 驱动的视频分析平台，可将视频转换为文本，从而实现搜索、字幕生成和精彩片段剪辑。它可以自动执行视频工作流程，从而节省时间和资源。

视频转录

AI视频分析

自动字幕

GPT-4o

410 0

探索 GPT-4o，OpenAI 的多模态 AI 平台，处理文本、视觉和音频。体验速度、成本效益和可访问性。非常适合技术爱好者和企业。

多模态 AI

AI 平台

视觉识别

Futurepedia

319 0

Futurepedia是一个免费网站，帮助您找到最佳的AI工具和软件，使您的工作和生活更高效和富有成效。每日更新，加入数百万粉丝的网站、新闻通讯和YouTube频道。

AI工具目录

生产力增强器

AI资源中心

Chat Data

533 0

Chat Data是一款AI聊天机器人创建工具，适用于网站、Discord、Slack、Shopify、WordPress等。一次训练，随处部署。自定义、连接和分享。

AI 聊天机器人

客户支持

自动化

Inbenta AI

330 0

Inbenta 提供基于 AI 的客户和员工体验解决方案，具有个性化的 24/7 全渠道支持，可自动化互动、降低成本并提升满意度。

对话式AI

知识工程

工作流自动化

scalerX.ai

294 0

使用您的数据训练的个性化 GenAI RAG 代理。适合企业主、频道管理员、客户服务、销售、教育等领域。

RAG 代理

Telegram 集成

Convo

348 0

使用AI驱动的用户访谈扩展定性研究。即时获得洞察，10倍速度分析反馈。受LinkedIn、Ford和Miro信赖。免费试用。

定性研究

用户访谈

AI洞察

bntr

319 0

使用bntr的语音和聊天AI自动化客户互动。易于设置，以您的数据训练—我们将帮助您入门。今天免费试用！

客户服务AI

语音自动化

聊天代理

Orga AI

310 0

Orga AI 是面向企业的对话式和多模态 AI 平台，通过类人交互提升客户服务并提高生产力。

对话式AI

多模态代理

客户互动

Scoopika

284 0

Scoopika 是一个开源平台，用于构建具有 LLM 和 AI 代理的多模态 AI 应用，具有错误恢复、流式传输和数据验证功能。

LLM应用开发

AI代理

多模态AI

Famulor

684 0

Famulor 是一款领先的AI电话助理，通过类人、智能的AI代理全天候24/7自动处理您的商务电话。符合GDPR，并在欧盟托管。

AI呼叫中心

虚拟助理

客户服务

Google Gemini

336 0

Google Gemini是一款多模态AI助手，与Google生态系统深度集成，通过文本、语音和视觉交互提供高级写作辅助、规划、头脑风暴和生产力工具。

多模态AI

Google助手

添加到收藏夹

编辑收藏

Sesame

Sesame 概述

Sesame AI：跨越对话语音的恐怖谷

"Sesame"的最佳替代工具