ツールカテゴリオーディオと音声AI音声合成

Sesame

3.5 312 0

しゅるい:

ウェブサイト

最終更新:

2025/10/06

説明:

Sesame AIは、AIにおける「音声プレゼンス」の実現を目指し、会話によるインタラクションをリアルで理解しやすいものにします。自然な対話のための会話音声モデル（CSM）をご覧ください。

共有:

会話音声

音声生成

マルチモーダルAI

テキスト読み上げ

AIコンパニオン

Sesame AIは、AIにおける「音声プレゼンス」の実現を目指し、会話によるインタラクションをリアルで理解しやすいものにします。自然な対話のための会話音声モデル（CSM）をご覧ください。

ウェブサイトを開く

Sesame の概要

Sesame AI: 会話音声の不気味の谷を越えて

Sesame AI とは？ Sesame AI は、人工知能における「音声プレゼンス」の実現に専念し、発話されたインタラクションを、本物で、理解され、価値があると感じられるようにすることを目指しています。彼らの研究は、真の対話を行い、時間をかけて信頼を築くことができる会話パートナーの作成に焦点を当てています。

Sesame AI はどのように機能しますか？ Sesame AI は、transformers を使用したエンドツーエンドのマルチモーダル学習タスクである Conversational Speech Model (CSM) を導入します。CSM は、会話の履歴を活用して、より自然で首尾一貫した音声を生成します。

主なコンポーネント:

感情的知性: 感情的なコンテキストを読み取り、対応します。
会話のダイナミクス: 自然なタイミング、一時停止、中断、および強調。
状況認識: 状況に合わせてトーンとスタイルを調整します。
一貫した個性: 一貫性があり、信頼性があり、適切なプレゼンスを維持します。

CSM の技術的な詳細:

CSM は、効率と表現力を向上させるシングルステージモデルとして動作します。
Llama アーキテクチャに基づく 2 つの自己回帰 transformers を使用します。
モデルは、インターリーブされたテキストとオーディオを処理して、ゼロ番目のコードブックをモデル化します。
個別のオーディオデコーダーは、各コードブックに個別の線形ヘッドを使用して、バックボーンの表現から音声を再構築します。

計算償却:

トレーニング中のインフラストラクチャの課題に対処するために、Sesame AI は、完全な RVQ コードブックの忠実度を維持しながら、メモリボトルネックを軽減する計算償却スキームを使用します。オーディオデコーダーは、オーディオフレームのランダムな 1/16 サブセットでのみトレーニングされますが、ゼロ番目のコードブックはすべてのフレームでトレーニングされます。

実験と結果:

Sesame AI は、公開されているオーディオの大規模なデータセットで、3 つのモデルサイズ (Tiny、Small、Medium) をトレーニングしました。評価には、単語誤り率 (WER) や話者類似度 (SIM) などの客観的なメトリックと、同形異義語の曖昧さ回避と発音の一貫性のための新しい音声転写ベースのベンチマークが含まれていました。

Expresso データセットでの比較平均意見スコア (CMOS) 研究を使用した主観的なメトリックでは、自然さは飽和していますが、会話音声生成では、生成された韻律と人間の韻律の間にギャップが残っていることが明らかになりました。

Sesame AI を選ぶ理由 Sesame AI のアプローチは、より自然で魅力的な AI 会話への有望な道を提供します。感情的知性、状況認識、および会話のダイナミクスに焦点を当てることにより、Sesame AI は、人間のニーズを真に理解し、対応するデジタルコンパニオンを作成することを目指しています。

Sesame AI の使い方 Sesame AI の Web サイトで会話音声プレビューを試して、彼らのアプローチの可能性を体験してください。モデルは Apache 2.0 ライセンスの下で利用可能になります。

Sesame AI は誰のためですか？ Sesame AI は、研究者、開発者、および会話型 AI の分野の進歩に関心のあるすべての人を対象としています。彼らの研究は、次のようなさまざまな分野で応用されています。

AI アシスタント
顧客サービス
教育
エンターテイメント

オープンソース化と今後の作業:

Sesame AI は、研究の重要なコンポーネントをオープンソース化し、コミュニティが実験、構築、および彼らのアプローチを改善できるようにすることに尽力しています。今後の作業には、モデルサイズの拡大、データセットのボリュームの増加、言語サポートの拡張、および事前トレーニング済みの言語モデルを活用する方法の模索が含まれます。

おすすめディレクトリ

AI音声合成 AI音声チェンジャー AI音楽創作音声からテキストへ AI音声カスタマーサービスとアシスタントポッドキャストとビデオ吹き替え