Sesame AI:会話音声の不気味の谷を越えて

Sesame

3.5 | 312 | 0
しゅるい:
ウェブサイト
最終更新:
2025/10/06
説明:
Sesame AIは、AIにおける「音声プレゼンス」の実現を目指し、会話によるインタラクションをリアルで理解しやすいものにします。自然な対話のための会話音声モデル(CSM)をご覧ください。
共有:
会話音声
音声生成
マルチモーダルAI
テキスト読み上げ
AIコンパニオン

Sesame の概要

Sesame AI: 会話音声の不気味の谷を越えて

Sesame AI とは? Sesame AI は、人工知能における「音声プレゼンス」の実現に専念し、発話されたインタラクションを、本物で、理解され、価値があると感じられるようにすることを目指しています。彼らの研究は、真の対話を行い、時間をかけて信頼を築くことができる会話パートナーの作成に焦点を当てています。

Sesame AI はどのように機能しますか? Sesame AI は、transformers を使用したエンドツーエンドのマルチモーダル学習タスクである Conversational Speech Model (CSM) を導入します。CSM は、会話の履歴を活用して、より自然で首尾一貫した音声を生成します。

主なコンポーネント:

  • 感情的知性: 感情的なコンテキストを読み取り、対応します。
  • 会話のダイナミクス: 自然なタイミング、一時停止、中断、および強調。
  • 状況認識: 状況に合わせてトーンとスタイルを調整します。
  • 一貫した個性: 一貫性があり、信頼性があり、適切なプレゼンスを維持します。

CSM の技術的な詳細:

  • CSM は、効率と表現力を向上させるシングルステージモデルとして動作します。
  • Llama アーキテクチャに基づく 2 つの自己回帰 transformers を使用します。
  • モデルは、インターリーブされたテキストとオーディオを処理して、ゼロ番目のコードブックをモデル化します。
  • 個別のオーディオデコーダーは、各コードブックに個別の線形ヘッドを使用して、バックボーンの表現から音声を再構築します。

計算償却:

トレーニング中のインフラストラクチャの課題に対処するために、Sesame AI は、完全な RVQ コードブックの忠実度を維持しながら、メモリボトルネックを軽減する計算償却スキームを使用します。オーディオデコーダーは、オーディオフレームのランダムな 1/16 サブセットでのみトレーニングされますが、ゼロ番目のコードブックはすべてのフレームでトレーニングされます。

実験と結果:

Sesame AI は、公開されているオーディオの大規模なデータセットで、3 つのモデルサイズ (Tiny、Small、Medium) をトレーニングしました。評価には、単語誤り率 (WER) や話者類似度 (SIM) などの客観的なメトリックと、同形異義語の曖昧さ回避と発音の一貫性のための新しい音声転写ベースのベンチマークが含まれていました。

Expresso データセットでの比較平均意見スコア (CMOS) 研究を使用した主観的なメトリックでは、自然さは飽和していますが、会話音声生成では、生成された韻律と人間の韻律の間にギャップが残っていることが明らかになりました。

Sesame AI を選ぶ理由 Sesame AI のアプローチは、より自然で魅力的な AI 会話への有望な道を提供します。感情的知性、状況認識、および会話のダイナミクスに焦点を当てることにより、Sesame AI は、人間のニーズを真に理解し、対応するデジタルコンパニオンを作成することを目指しています。

Sesame AI の使い方 Sesame AI の Web サイトで会話音声プレビューを試して、彼らのアプローチの可能性を体験してください。モデルは Apache 2.0 ライセンスの下で利用可能になります。

Sesame AI は誰のためですか? Sesame AI は、研究者、開発者、および会話型 AI の分野の進歩に関心のあるすべての人を対象としています。彼らの研究は、次のようなさまざまな分野で応用されています。

  • AI アシスタント
  • 顧客サービス
  • 教育
  • エンターテイメント

オープンソース化と今後の作業:

Sesame AI は、研究の重要なコンポーネントをオープンソース化し、コミュニティが実験、構築、および彼らのアプローチを改善できるようにすることに尽力しています。今後の作業には、モデルサイズの拡大、データセットのボリュームの増加、言語サポートの拡張、および事前トレーニング済みの言語モデルを活用する方法の模索が含まれます。

"Sesame" のベストな代替ツール

AI Voice Generator
画像がありません
231 0

AI Voice Generatorは、テキストを自然な音声に変換するツールです。音声クローン、テキスト読み上げ、効果音、対話生成を提供し、10,000人以上のクリエイターから信頼されています。

テキスト読み上げ
音声クローン
Audiobox
画像がありません
451 0

Audiobox は Meta の新しい基礎研究モデルで、オーディオ生成に使用されます。音声入力と自然言語テキストプロンプトの組み合わせを使用して、声や音響効果を生成できます。

オーディオ生成
音声合成
InstaLM
画像がありません
297 0

InstaLM:macOSおよびiOSデバイス上でClaude、GPT、Geminiなどと直接チャット。音声インタラクション、ファイルの添付、カスタムアシスタントをプライバシーを第一に設計。

AIチャットアプリ
AIアシスタント
VeedoAI
画像がありません
439 0

VeedoAIは、ビデオコンテンツを検索可能、実用的、インテリジェントなリソースに変換し、エンゲージメントを高め、学習を加速し、収益を最大化するAI搭載のビデオインサイトプラットフォームです。

ビデオ分析
AIビデオ検索
Scoopika
画像がありません
276 0

Scoopikaは、LLMとAIエージェントを使用してマルチモーダルAIアプリを構築するためのオープンソースプラットフォームであり、エラー回復、ストリーミング、データ検証機能を備えています。

LLMアプリケーション開発
Makir.ai
画像がありません
421 0

Makir.ai は、最先端の AI ツールを探索し、独自のツールを立ち上げるための AI マーケットプレイスです。 ライティング、デザイン、コーディング、生産性などの AI ソリューションを見つけてください。

AI ツールマーケットプレイス
Google Gemini
画像がありません
336 0

Google Geminiは、Googleのエコシステムと統合されたマルチモーダルAIアシスタントで、テキスト、音声、視覚的なインタラクションを通じて高度なライティング支援、計画立案、ブレインストーミング、生産性ツールを提供します。

マルチモーダルAI
GPT-4o
画像がありません
410 0

GPT-4o を探索。OpenAI のテキスト、ビジュアル、オーディオ用のマルチモーダル AI プラットフォーム。スピード、コスト効率、アクセシビリティを体験してください。テクノロジー愛好家や企業に最適。

マルチモーダル AI
Orga AI
画像がありません
309 0

Orga AI:企業向け会話型マルチモーダルAIプラットフォーム。顧客サービスを向上させ、生産性を高めます。

会話型AI
Valossa
画像がありません
309 0

Valossaは、ビデオをテキストに変換するAI搭載のビデオ分析プラットフォームであり、検索、キャプションの生成、ハイライトのクリッピングを可能にします。 ビデオワークフローを自動化し、時間とリソースを節約します。

ビデオトランスクリプション
mistral.rs
画像がありません
416 0

mistral.rsは、Rustで記述された非常に高速なLLM推論エンジンであり、マルチモーダルワークフローと量子化をサポートしています。Rust、Python、およびOpenAI互換のHTTPサーバーAPIを提供します。

LLM推論エンジン
Rust
Anakin.ai
画像がありません
315 0

コンテンツ、画像、ビデオ、音声を生成;自動化ワークフロー、カスタムAIアプリ、インテリジェントエージェントを作成。あなたの独占的なAIアプリカスタマイズワークステーション。

ノーコードAIビルダー
Plaud Note Pro
画像がありません
211 0

Plaud Note Pro は、100万人以上のユーザーから信頼されている多用途AIノートテイカーで、会話、対面およびオンライン会議向けに設計されています。AI搭載のトランスクリプションと要約により、112言語でオーディオをキャプチャ、抽出、および活用できます。

AIノート
音声文字起こし
会議の要約
Twinning
画像がありません
416 0

TwinningはインフルエンサーがテキストとオーディオでファンとチャットするためのパーソナライズされたAIツインを作成できるようにします。ウェイトリストに参加し、短いオーディオを録音して月額料金なしでインタラクションを収益化しましょう。

AIツイン作成
ボイスクローニング