BAGEL 개요
BAGEL이란 무엇인가요?
BAGEL은 텍스트, 이미지, 비디오 모달리티에 걸쳐 생성 및 이해 작업을 처리하도록 설계된 오픈소스 통합 멀티모달 모델입니다. GPT-4o 및 Gemini 2.0과 같은 독점 시스템에 필적하는 기능을 제공하면서 미세 조정, 증류 및 배포에 완전히 접근 가능합니다. 2025년 5월 20일에 출시된 BAGEL은 오픈 멀티모달 AI 시스템에서 중요한 발전을 나타냅니다.
BAGEL은 어떻게 작동하나요?
BAGEL은 Mixture-of-Transformer-Experts (MoT) 아키텍처를 사용하여 다양한 멀티모달 정보로부터 학습 용량을 극대화합니다. 픽셀 수준 및 의미 수준 이미지 특징을 모두 캡처하기 위해 두 개의 별도 인코더를 활용합니다. 이 모델은 Next Group of Token Prediction 패러다임을 따르며, 다음 언어 또는 시각 토큰 그룹을 압축 대상으로 예측하도록 훈련됩니다.
주요 기술 특징
- 멀티모달 사전 훈련: 대규모 언어 모델에서 초기화되어 기본 추론 및 대화 능력 제공
- 인터리브 데이터 훈련: 고충실도 생성을 위한 대규모 인터리브 비디오 및 웹 데이터에서 사전 훈련
- 확장 가능 아키텍처: 수조 개의 멀티모달 토큰에 대해 사전 훈련, 지속 훈련 및 지도 미세 조정 사용
- 듀얼 인코더 시스템: VAE 및 ViT 특징을 결합하여 향상된 지능형 편집 능력 제공
핵심 능력
멀티모달 채팅 및 이해
BAGEL은 혼합 형식의 이미지 및 텍스트 입력과 출력을 모두 처리할 수 있습니다. 시각적 콘텐츠에 대한 고급 대화 능력을 보여주며, 이미지에 대한 상세한 설명, 예술적 맥락 및 역사적 정보를 제공합니다.
사실적 이미지 생성
이 모델은 고충실도, 사실적인 이미지, 비디오 프레임 및 인터리브 이미지-텍스트 콘텐츠를 생성합니다. 인터리브 데이터에 대한 훈련은 모델이 시각적 출력을 생성하기 전에 추론할 수 있도록 하는 자연스러운 멀티모달 사고 연쇄를 촉진합니다.
고급 이미지 편집
BAGEL은 비디오에서 복잡한 시각적 운동을 캡처하는 동안 시각적 정체성과 세부 사항을 자연스럽게 보존하는 방법을 학습합니다. 시각-언어 모델에서 상속된 강력한 추론 능력으로 기본 편집 작업을 넘어서는 지적 편집 능력을 갖춥니다.
스타일 전이
시각적 콘텐츠와 스타일에 대한 깊은 이해 덕분에 최소 정렬 데이터를 사용하여 이미지를 한 스타일에서 다른 스타일로 쉽게 변환하거나 다른 세계로 이동할 수 있습니다.
탐색 및 환경 상호 작용
비디오 데이터로부터 학습함으로써 BAGEL은 실제 시뮬레이션에서 탐색 지식을 증류하여 다양한 회전 및 관점을 가진 공상과학 세계 및 예술적 그림을 포함한 다양한 환경을 탐색할 수 있도록 합니다.
구성 및 추론
BAGEL은 비디오, 웹 및 언어 데이터로부터 광범위한 지식을 학습하여 추론 수행, 물리적 역학 모델링, 미래 프레임 예측 및 원활한 다중 턴 대화에 참여할 수 있습니다.
사고 모드
이 모델은 생성 및 편집을 향상시키기 위해 멀티모달 이해를 활용하는 사고 모드를 통합합니다. 프롬프트를 통한 추론을 통해 BAGEL은 간단한 설명을 미묘한 맥락과 논리적 일관성을 가진 상세하고 일관된 출력으로 변환합니다.
성능 벤치마크
BAGEL은 표준 이해 및 생성 벤치마크 전반에 걸쳐 우수한 성능을 보여줍니다:
이해 성능
모델 | MME-P | MMBench | MMMU | MMVet |
---|---|---|---|---|
BAGEL | 1687 | 85 | 55.3 | 67.2 |
생성 성능
BAGEL은 다양한 생성 작업에서 전체 점수 0.88을 달성하며 다음과 같은 영역에서 비교 가능한 오픈 모델을 능가합니다:
- 단일 객체 생성 (0.98)
- 이중 객체 생성 (0.95)
- 색상 정확도 (0.95)
- 위치 이해 (0.78)
떠오르는 특성
BAGEL이 더 많은 멀티모달 토큰으로 확장됨에 따라 이해, 생성 및 편집 작업 전반에 걸쳐 일관된 성능 향상이 관찰됩니다. 다른 능력이 distinct 훈련 단계에서 나타납니다:
- 초기 단계: 멀티모달 이해 및 생성
- 중간 단계: 기본 편집 능력
- 고급 단계: 복잡한 지능형 편집
이 진행은 고급 멀티모달 추론이 잘 형성된 기본 기술에 기반을 둔 떠오르는 패턴을 시사합니다.
실용적 응용
개발자 및 연구자용
- 특정 멀티모달 작업을 위한 미세 조정 및 사용자 정의
- 다양한 플랫폼에 배포하기 위한 지식 증류
- 고급 멀티모달 추론 능력 연구
콘텐츠 크리에이터용
- 사실적인 이미지 및 비디오 콘텐츠 생성
- 지능형 이미지 편집 및 스타일 전이 수행
- 일관된 멀티모달 내러티브 생성
AI 시스템 통합자용
- 통합 멀티모달 솔루션으로 배포
- 고급 AI 능력으로 기존 시스템 향상
- 복잡한 시각 추론이 필요한 응용 프로그램 개발
BAGEL을 선택하는 이유
BAGEL은 몇 가지 뚜렷한 이점을 제공합니다:
개방적 접근성
오픈소스 모델로서 BAGEL은 독점 시스템과 달리 가중치, 아키텍처 및 훈련 방법론에 대한 완전한 접근을 제공합니다.
비교 가능한 성능
개방적 접근성을 유지하면서 선도적인 독점 멀티모달 시스템에 필적하는 성능을 보여줍니다.
확장 가능 아키텍처
MoT 아키텍처는 더 많은 멀티모달 데이터가可用해짐에 따라 지속적인 확장 및 개선을 가능하게 합니다.
포괄적 능력
기본 생성부터 고급 추론 및 편집까지 BAGEL은 단일 모델에서 완전한 멀티모달 능력 세트를 제공합니다.
BAGEL 시작하기
BAGEL은 여러 플랫폼을 통해 이용 가능합니다:
- GitHub: 소스 코드 및 문서 접근
- HuggingFace: 모델 가중치 다운로드 및 데모 시도
- 논문: 상세 기술 사양 읽기
- 데모: 실시간 능력으로 실험
이 모델은 특정 작업에 대한 미세 조정, 자원 제한 환경을 위한 증류 및 생산 시스템을 위한 전체 규모 배포를 포함한 다양한 배포 옵션을 지원합니다.
미래 발전
BAGEL 팀은 더 많은 멀티모달 토큰으로 모델을 확장하고 새로운 떠오르는 능력을 탐구하기 위해 계속 작업하고 있습니다. 오픈소스 특성은 다양한 멀티모달 응용 프로그램에 걸친 커뮤니티 기여 및 개선을 장려합니다.
"BAGEL"의 최고의 대체 도구





ChatArt는 콘텐츠 제작, 이미지 편집 및 AI 채팅 기능을 제공하는 AI 도구입니다. GPT-5, Claude Sonnet 및 DeepSeek로 구동되어 고품질 콘텐츠, AI 이미지 생성/편집 및 표절/문법 검사를 제공합니다.


ArtSpace.ai는 텍스트를 멋진 AI 생성 이미지로 변환합니다. 직관적인 AI 도구를 사용하여 사실적인 아트를 만들고, 이미지를 편집하고, 4K로 업스케일링하세요. 오늘 무료 평가판을 시작하세요!

Stable Diffusion API를 사용하면 AI 이미지를 간편하게 생성하고 미세 조정할 수 있습니다. 값비싼 GPU 없이 텍스트-이미지, 이미지-이미지 및 내부 페인팅 API에 액세스할 수 있습니다.

Brain Pod AI는 생성 및 에이전트 AI를 결합하여 비즈니스를 확장합니다. AI 글쓰기, 이미지 생성 및 SEO 최적화를 위한 올인원 대시보드. 오늘 무료 평가판을 시작하세요!

TextToVideo.Bot: AI 기반 비디오 편집기로 텍스트를 바이럴 짧은 비디오로 즉시 변환하세요. 모든 장치에서 모든 틈새 시장을 위한 얼굴 없는 비디오를 만드세요.


FLUX AI는 고급 AI 기술로 아이디어를 놀라운 시각적 효과로 변환하는 혁신적인 AI 이미지 생성기입니다. 몇 초 만에 모든 목적에 맞는 전문가 수준의 이미지를 만들 수 있습니다.

SchnellAI를 사용하여 멋진 AI 생성 이미지를 무료로 만드십시오. 이 빠르고 쉬운 온라인 도구는 텍스트 프롬프트를 시각적 걸작으로 변환합니다. 마케팅, 예술 등에 적합합니다!

Copyter는 텍스트, 이미지, 음성 및 비디오 콘텐츠를 생성하기 위한 AI 기반 플랫폼입니다. 블로거, 마케터 및 콘텐츠 제작자를 위해 설계된 이 올인원 도구로 생산성을 향상시키세요.

PicLumen은 텍스트 프롬프트를 숨막히는 예술 작품으로 바꾸는 AI 이미지 생성기입니다. 텍스트에서 AI 이미지를 만들고 AI로 사진을 편집하고 크리에이터 커뮤니티를 탐색하세요. App Store에서 사용할 수 있습니다.