Sesame の概要
Sesame AI: 会話音声の不気味の谷を越えて
Sesame AI とは? Sesame AI は、人工知能における「音声プレゼンス」の実現に専念し、発話されたインタラクションを、本物で、理解され、価値があると感じられるようにすることを目指しています。彼らの研究は、真の対話を行い、時間をかけて信頼を築くことができる会話パートナーの作成に焦点を当てています。
Sesame AI はどのように機能しますか? Sesame AI は、transformers を使用したエンドツーエンドのマルチモーダル学習タスクである Conversational Speech Model (CSM) を導入します。CSM は、会話の履歴を活用して、より自然で首尾一貫した音声を生成します。
主なコンポーネント:
- 感情的知性: 感情的なコンテキストを読み取り、対応します。
- 会話のダイナミクス: 自然なタイミング、一時停止、中断、および強調。
- 状況認識: 状況に合わせてトーンとスタイルを調整します。
- 一貫した個性: 一貫性があり、信頼性があり、適切なプレゼンスを維持します。
CSM の技術的な詳細:
- CSM は、効率と表現力を向上させるシングルステージモデルとして動作します。
- Llama アーキテクチャに基づく 2 つの自己回帰 transformers を使用します。
- モデルは、インターリーブされたテキストとオーディオを処理して、ゼロ番目のコードブックをモデル化します。
- 個別のオーディオデコーダーは、各コードブックに個別の線形ヘッドを使用して、バックボーンの表現から音声を再構築します。
計算償却:
トレーニング中のインフラストラクチャの課題に対処するために、Sesame AI は、完全な RVQ コードブックの忠実度を維持しながら、メモリボトルネックを軽減する計算償却スキームを使用します。オーディオデコーダーは、オーディオフレームのランダムな 1/16 サブセットでのみトレーニングされますが、ゼロ番目のコードブックはすべてのフレームでトレーニングされます。
実験と結果:
Sesame AI は、公開されているオーディオの大規模なデータセットで、3 つのモデルサイズ (Tiny、Small、Medium) をトレーニングしました。評価には、単語誤り率 (WER) や話者類似度 (SIM) などの客観的なメトリックと、同形異義語の曖昧さ回避と発音の一貫性のための新しい音声転写ベースのベンチマークが含まれていました。
Expresso データセットでの比較平均意見スコア (CMOS) 研究を使用した主観的なメトリックでは、自然さは飽和していますが、会話音声生成では、生成された韻律と人間の韻律の間にギャップが残っていることが明らかになりました。
Sesame AI を選ぶ理由 Sesame AI のアプローチは、より自然で魅力的な AI 会話への有望な道を提供します。感情的知性、状況認識、および会話のダイナミクスに焦点を当てることにより、Sesame AI は、人間のニーズを真に理解し、対応するデジタルコンパニオンを作成することを目指しています。
Sesame AI の使い方 Sesame AI の Web サイトで会話音声プレビューを試して、彼らのアプローチの可能性を体験してください。モデルは Apache 2.0 ライセンスの下で利用可能になります。
Sesame AI は誰のためですか? Sesame AI は、研究者、開発者、および会話型 AI の分野の進歩に関心のあるすべての人を対象としています。彼らの研究は、次のようなさまざまな分野で応用されています。
- AI アシスタント
- 顧客サービス
- 教育
- エンターテイメント
オープンソース化と今後の作業:
Sesame AI は、研究の重要なコンポーネントをオープンソース化し、コミュニティが実験、構築、および彼らのアプローチを改善できるようにすることに尽力しています。今後の作業には、モデルサイズの拡大、データセットのボリュームの増加、言語サポートの拡張、および事前トレーニング済みの言語モデルを活用する方法の模索が含まれます。
"Sesame" のベストな代替ツール

当社の無料テキスト読み上げ生成ツールと変換ツールで最先端のVoice AIを体験してください。Deepseek、Hailuo、Grok、Klingなどの先進的なAIモデルによる高速で高品質な音声合成をお楽しみください。さまざまなアプリケーション向けの自然で表現豊かな音声。

grafychat は、ChatGPT、Gemini、Claude、Llama 3 などをサポートする、プライバシーに配慮したオールインワン AI チャットクライアントです。キャンバス上でチャットを視覚的に整理し、すべての AI 機能を活用して、データを管理できます。

Alle-AIは、ChatGPT、Gemini、Claude、DALL-E 2、Stable Diffusion、Midjourneyからの出力を組み合わせて比較する、テキスト、画像、オーディオ、ビデオ生成用のオールインワンAIプラットフォームです。

ユニークでカスタマイズ可能な歌、歌詞、トラックを作成するAIミュージックジェネレーターを発見してください。コンテンツクリエイター、ミュージシャン、映画製作者に最適で、当社のインテリジェントアルゴリズムは先進技術を使用してニーズに合わせたロイヤリティフリーの音楽を生成します。Murekaの革新的なAIツールで音楽作曲の未来を探求し、創造性を刺激し、制作を効率化するよう設計されています。最先端のソリューションでシームレスな統合と卓越した品質を体験してください。

Skywork - Skywork は簡単な入力からマルチモーダルコンテンツを生成 - ドキュメント、スライド、シート、深い研究付きのポッドキャストとウェブページ。アナリストのレポート作成、教育者のスライド設計、親のオーディオブック作成に最適です。想像すれば、Skywork が実現します。

KoboldCpp:KoboldAI UIでAIテキストと画像を生成するためのGGUFモデルを簡単に実行。単一ファイル、インストール不要。CPU/GPU、STT、TTS、Stable Diffusionをサポート。

Kits AIは、音声クローン、ボーカル除去、AIマスタリングなど、プロデューサー向けのスタジオ品質のAI音楽ツールを提供し、100%ロイヤリティフリーの使用を保証します。

Voice.aiは、ゲーム、ストリーミング、コンテンツ作成、ビジネス向けの無料のリアルタイムAIボイスチェンジャー、ボイスクローン、テキスト読み上げ、AIボイスエージェントを提供します。AI音声とオーディオツールをご覧ください。

CapCutは、AI搭載のオールインワンプラットフォームで、ビデオ編集とグラフィックデザインが可能です。AIビデオメーカー、テキスト読み上げ、自動キャプションなどの機能を使用して、よりスマートかつ迅速に編集できます。今すぐオンラインでCapCutをお試しいただくか、ダウンロードしてください!

LM-Kitは、エンタープライズグレードのツールキットを提供し、ローカルAIエージェントの統合、速度、プライバシー、信頼性を組み合わせ、次世代アプリケーションを強化します。ローカルLLMを活用して、より高速で、コスト効率が高く、安全なAIソリューションを実現します。

Scrawlyは、音声インタラクションを通じてストレスを管理し、思考を整理し、タスクを作成するのに役立つAI音声コンパニオンアプリです。感情的なサポートとパーソナライズされた落ち着いたエクササイズを入手してください。

Generorは、画像、オーディオ、ユーザー名、ジョークなどのさまざまなジェネレーターを備えたAIプラットフォームです。 プロジェクトやソーシャルメディア向けのユニークなコンテンツを生成します。

Voicely 2.0は、AIを活用した音声クローニングおよびテキスト読み上げコンバーターで、60以上の言語と500以上の音声で自然なボイスオーバーを作成します。ビデオクリエイター、マーケター、コンテンツプロデューサーに最適です。

ユーモアと高度な機能を備えた超知能AI、GPT6の世界を探検しましょう。マルチモーダルサポートやリアルタイム学習などの機能が含まれています。 GPT6とチャットして、AIの未来を体験してください!

TopMediaiは、ビデオ生成、ボイスオーバー、音楽制作のためのオールインワンAIプラットフォームです。スマートで高速なAIツールでコンテンツを強化します。