BAGEL の概要
BAGELとは?
BAGELは、テキスト、画像、ビデオモダリティにわたる生成と理解タスクの両方を処理するために設計されたオープンソースの統合マルチモーダルモデルです。GPT-4oやGemini 2.0などのプロプライエタリシステムに匹敵する機能を提供しながら、ファインチューニング、蒸留、展開に完全にアクセス可能です。2025年5月20日にリリースされたBAGELは、オープンマルチモーダルAIシステムにおける重要な進歩を表しています。
BAGELの仕組み
BAGELはMixture-of-Transformer-Experts (MoT) アーキテクチャを採用し、多様なマルチモーダル情報から学習容量を最大化します。ピクセルレベルとセマンティックレベルの画像特徴の両方を捕捉するために2つの独立したエンコーダーを利用します。このモデルはNext Group of Token Predictionパラダイムに従い、次の言語または視覚トークンのグループを圧縮目標として予測するように訓練されます。
主要な技術的特徴
- マルチモーダル事前訓練: 大規模言語モデルから初期化され、基礎的な推論と会話能力を提供
- インターリーブデータ訓練: 高忠実度生成のため大規模インターリーブビデオおよびウェブデータで事前訓練
- スケーラブルなアーキテクチャ: 数兆のマルチモーダルトークンで事前訓練、継続訓練、教師ありファインチューニングを使用
- デュアルエンコーダーシステム: VAEとViTの特徴を組み合わせ、インテリジェント編集能力を改善
コア能力
マルチモーダルチャットと理解
BAGELは混合形式の画像とテキストの入力と出力の両方を処理できます。視覚コンテンツに関する高度な会話能力を示し、画像の詳細な説明、芸術的コンテキスト、歴史情報を提供します。
写実的な画像生成
このモデルは高忠実度で写実的な画像、ビデオフレーム、インターリーブ画像テキストコンテンツを生成します。インターリーブデータでの訓練は、モデルが視覚出力を生成する前に推論することを可能にする自然なマルチモーダル連鎖思考を促進します。
高度な画像編集
BAGELは、ビデオから複雑な視覚運動を捕捉しながら、視覚的アイデンティティと細部を自然に保存することを学びます。視覚言語モデルから継承された強力な推論能力により、基本的な編集タスクを超えた知的編集能力を発揮します。
スタイル転送
視覚コンテンツとスタイルの深い理解により、最小限のアライメントデータを使用して画像をあるスタイルから別のスタイルに簡単に変換したり、異なる世界間でシフトしたりできます。
ナビゲーションと環境インタラクション
ビデオデータから学習することにより、BAGELは現実世界のシミュレーションからナビゲーション知識を蒸留し、SF世界や芸術的絵画を含む多様な回転と視点を持つ様々な環境をナビゲートできるようにします。
構成と推論
BAGELはビデオ、ウェブ、言語データから広範な知識を学習し、推論の実行、物理ダイナミクスのモデリング、将来フレームの予測、シームレスなマルチターン会話への参加を可能にします。
思考モード
このモデルは、生成と編集を強化するためにマルチモーダル理解を活用する思考モードを組み込んでいます。プロンプトを通じた推論により、BAGELは簡単な説明を、微妙なコンテキストと論理的一貫性を持つ詳細で首尾一貫した出力に変換します。
パフォーマンスベンチマーク
BAGELは標準的な理解と生成のベンチマークで優れたパフォーマンスを示します:
理解性能
モデル | MME-P | MMBench | MMMU | MMVet |
---|---|---|---|---|
BAGEL | 1687 | 85 | 55.3 | 67.2 |
生成性能
BAGELは様々な生成タスクで総合スコア0.88を達成し、以下の領域で同等のオープンモデルを上回ります:
- 単一オブジェクト生成(0.98)
- 二オブジェクト生成(0.95)
- 色精度(0.95)
- 位置理解(0.78)
創発特性
BAGELがより多くのマルチモーダルトークンでスケーリングするにつれて、理解、生成、編集タスク全体で一貫した性能向上が観察されます。異なる能力が異なる訓練段階で出現します:
- 初期段階: マルチモーダル理解と生成
- 中期段階: 基本的な編集能力
- 高度段階: 複雑で知的な編集
この進行は、高度なマルチモーダル推論がよく形成された基礎スキルに基づいて構築される創発パターンを示唆しています。
実用的アプリケーション
開発者と研究者向け
- 特定のマルチモーダルタスクのためのファインチューニングとカスタマイズ
- 様々なプラットフォームへの展開のための知識蒸留
- 高度なマルチモーダル推論能力の研究
コンテンツクリエーター向け
- 写実的な画像とビデオコンテンツの生成
- インテリジェントな画像編集とスタイル転送の実行
- 一貫性のあるマルチモーダルナラティブの作成
AIシステムインテグレーター向け
- 統合マルチモーダルソリューションとしての展開
- 高度なAI能力による既存システムの強化
- 複雑な視覚推論を必要とするアプリケーションの開発
BAGELを選ぶ理由
BAGELにはいくつかの明確な利点があります:
オープンアクセシビリティ
オープンソースモデルとして、BAGELはプロプライエタリシステムとは異なり、重み、アーキテクチャ、訓練方法論への完全なアクセスを提供します。
同等の性能
オープンアクセシビリティを維持しながら、主要なプロプライエタリマルチモーダルシステムに匹敵する性能を示します。
スケーラブルなアーキテクチャ
MoTアーキテクチャにより、より多くのマルチモーダルデータが利用可能になるにつれて継続的なスケーリングと改善が可能です。
包括的な能力
基本的な生成から高度な推論と編集まで、BAGELは単一モデルで完全なマルチモーダル能力スイートを提供します。
BAGELの始め方
BAGELは複数のプラットフォームを通じて利用可能です:
- GitHub: ソースコードとドキュメントへのアクセス
- HuggingFace: モデル重みのダウンロードとデモの試行
- 論文: 詳細な技術仕様の閲覧
- デモ: ライブ機能での実験
このモデルは、特定タスクのファインチューニング、リソース制約環境のための蒸留、生産システムのためのフルスケール展開を含む様々な展開オプションをサポートします。
将来の開発
BAGELチームは、より多くのマルチモーダルトークンでモデルをスケーリングし、新しい創発能力を探求し続けています。オープンソースの性質は、様々なマルチモーダルアプリケーションにわたるコミュニティ貢献と改善を奨励します。
"BAGEL" のベストな代替ツール

Denvr Dataworks は、オンデマンドGPUクラウド、AI推論、プライベートAIプラットフォームを含む、高性能AIコンピューティングサービスを提供します。 NVIDIA H100、A100、Intel Gaudi HPUでAI開発を加速。




ChatArtは、コンテンツ作成、画像編集、AIチャット機能を提供するAIツールです。GPT-5、Claude Sonnet、DeepSeekを搭載し、高品質のコンテンツ、AI画像生成/編集、盗作/文法チェックを提供します。




GhibliArt.aiの4o画像ジェネレーターで創造性を発揮しましょう。ジブリスタイル、ちびスタイル、ピカスタイルなどが特徴です。テキストや画像を、漫画、ソーシャルメディア、または商品向けの鮮やかなアートワークに変換します。

Pixelied は、無料のオンライン グラフィック デザイン スイートとフォト エディターです。使いやすいテンプレートとツールを使用して、ソーシャル メディア、マーケティング、e コマース向けの素晴らしいビジュアルを作成します。

AiListify:最新のAIツールディレクトリ。 生産性を高め、ワークフローを合理化し、さまざまなカテゴリにわたるイノベーションを推進するための無料のAIソリューションをご覧ください。

DeepFaceSwap.AIは、ウォーターマークのないAI搭載のオンライン顔交換ツールです。AIアバターの作成やAIコンパニオンも提供しています。

DeepSeek V3を無料でオンラインでお試しください。登録不要。この強力なオープンソースAIモデルは671Bパラメータを備え、商用利用をサポートし、ブラウザデモまたはGitHubでのローカルインストールで無制限アクセスを提供します。

