Sesame の概要
Sesame AI: 会話音声の不気味の谷を越えて
Sesame AI とは? Sesame AI は、人工知能における「音声プレゼンス」の実現に専念し、発話されたインタラクションを、本物で、理解され、価値があると感じられるようにすることを目指しています。彼らの研究は、真の対話を行い、時間をかけて信頼を築くことができる会話パートナーの作成に焦点を当てています。
Sesame AI はどのように機能しますか? Sesame AI は、transformers を使用したエンドツーエンドのマルチモーダル学習タスクである Conversational Speech Model (CSM) を導入します。CSM は、会話の履歴を活用して、より自然で首尾一貫した音声を生成します。
主なコンポーネント:
- 感情的知性: 感情的なコンテキストを読み取り、対応します。
- 会話のダイナミクス: 自然なタイミング、一時停止、中断、および強調。
- 状況認識: 状況に合わせてトーンとスタイルを調整します。
- 一貫した個性: 一貫性があり、信頼性があり、適切なプレゼンスを維持します。
CSM の技術的な詳細:
- CSM は、効率と表現力を向上させるシングルステージモデルとして動作します。
- Llama アーキテクチャに基づく 2 つの自己回帰 transformers を使用します。
- モデルは、インターリーブされたテキストとオーディオを処理して、ゼロ番目のコードブックをモデル化します。
- 個別のオーディオデコーダーは、各コードブックに個別の線形ヘッドを使用して、バックボーンの表現から音声を再構築します。
計算償却:
トレーニング中のインフラストラクチャの課題に対処するために、Sesame AI は、完全な RVQ コードブックの忠実度を維持しながら、メモリボトルネックを軽減する計算償却スキームを使用します。オーディオデコーダーは、オーディオフレームのランダムな 1/16 サブセットでのみトレーニングされますが、ゼロ番目のコードブックはすべてのフレームでトレーニングされます。
実験と結果:
Sesame AI は、公開されているオーディオの大規模なデータセットで、3 つのモデルサイズ (Tiny、Small、Medium) をトレーニングしました。評価には、単語誤り率 (WER) や話者類似度 (SIM) などの客観的なメトリックと、同形異義語の曖昧さ回避と発音の一貫性のための新しい音声転写ベースのベンチマークが含まれていました。
Expresso データセットでの比較平均意見スコア (CMOS) 研究を使用した主観的なメトリックでは、自然さは飽和していますが、会話音声生成では、生成された韻律と人間の韻律の間にギャップが残っていることが明らかになりました。
Sesame AI を選ぶ理由 Sesame AI のアプローチは、より自然で魅力的な AI 会話への有望な道を提供します。感情的知性、状況認識、および会話のダイナミクスに焦点を当てることにより、Sesame AI は、人間のニーズを真に理解し、対応するデジタルコンパニオンを作成することを目指しています。
Sesame AI の使い方 Sesame AI の Web サイトで会話音声プレビューを試して、彼らのアプローチの可能性を体験してください。モデルは Apache 2.0 ライセンスの下で利用可能になります。
Sesame AI は誰のためですか? Sesame AI は、研究者、開発者、および会話型 AI の分野の進歩に関心のあるすべての人を対象としています。彼らの研究は、次のようなさまざまな分野で応用されています。
- AI アシスタント
- 顧客サービス
- 教育
- エンターテイメント
オープンソース化と今後の作業:
Sesame AI は、研究の重要なコンポーネントをオープンソース化し、コミュニティが実験、構築、および彼らのアプローチを改善できるようにすることに尽力しています。今後の作業には、モデルサイズの拡大、データセットのボリュームの増加、言語サポートの拡張、および事前トレーニング済みの言語モデルを活用する方法の模索が含まれます。
"Sesame" のベストな代替ツール
AI Voice Generatorは、テキストを自然な音声に変換するツールです。音声クローン、テキスト読み上げ、効果音、対話生成を提供し、10,000人以上のクリエイターから信頼されています。
Audiobox は Meta の新しい基礎研究モデルで、オーディオ生成に使用されます。音声入力と自然言語テキストプロンプトの組み合わせを使用して、声や音響効果を生成できます。
InstaLM:macOSおよびiOSデバイス上でClaude、GPT、Geminiなどと直接チャット。音声インタラクション、ファイルの添付、カスタムアシスタントをプライバシーを第一に設計。
VeedoAIは、ビデオコンテンツを検索可能、実用的、インテリジェントなリソースに変換し、エンゲージメントを高め、学習を加速し、収益を最大化するAI搭載のビデオインサイトプラットフォームです。
Scoopikaは、LLMとAIエージェントを使用してマルチモーダルAIアプリを構築するためのオープンソースプラットフォームであり、エラー回復、ストリーミング、データ検証機能を備えています。
Makir.ai は、最先端の AI ツールを探索し、独自のツールを立ち上げるための AI マーケットプレイスです。 ライティング、デザイン、コーディング、生産性などの AI ソリューションを見つけてください。
Google Geminiは、Googleのエコシステムと統合されたマルチモーダルAIアシスタントで、テキスト、音声、視覚的なインタラクションを通じて高度なライティング支援、計画立案、ブレインストーミング、生産性ツールを提供します。
GPT-4o を探索。OpenAI のテキスト、ビジュアル、オーディオ用のマルチモーダル AI プラットフォーム。スピード、コスト効率、アクセシビリティを体験してください。テクノロジー愛好家や企業に最適。
Valossaは、ビデオをテキストに変換するAI搭載のビデオ分析プラットフォームであり、検索、キャプションの生成、ハイライトのクリッピングを可能にします。 ビデオワークフローを自動化し、時間とリソースを節約します。
mistral.rsは、Rustで記述された非常に高速なLLM推論エンジンであり、マルチモーダルワークフローと量子化をサポートしています。Rust、Python、およびOpenAI互換のHTTPサーバーAPIを提供します。
コンテンツ、画像、ビデオ、音声を生成;自動化ワークフロー、カスタムAIアプリ、インテリジェントエージェントを作成。あなたの独占的なAIアプリカスタマイズワークステーション。
Plaud Note Pro は、100万人以上のユーザーから信頼されている多用途AIノートテイカーで、会話、対面およびオンライン会議向けに設計されています。AI搭載のトランスクリプションと要約により、112言語でオーディオをキャプチャ、抽出、および活用できます。
TwinningはインフルエンサーがテキストとオーディオでファンとチャットするためのパーソナライズされたAIツインを作成できるようにします。ウェイトリストに参加し、短いオーディオを録音して月額料金なしでインタラクションを収益化しましょう。