Sesame 개요
Sesame AI: 대화형 음성의 언캐니 밸리 넘기
Sesame AI란 무엇인가요? Sesame AI는 인공 지능에서 "음성 존재감"을 달성하는 데 전념하며, 음성 상호 작용이 실제적이고 이해되고 가치 있게 느껴지도록 하는 것을 목표로 합니다. 그들의 연구는 진정한 대화에 참여하고 시간이 지남에 따라 신뢰를 구축하는 대화 파트너를 만드는 데 중점을 둡니다.
Sesame AI는 어떻게 작동하나요? Sesame AI는 트랜스포머를 사용하는 엔드 투 엔드 멀티모달 학습 작업인 CSM(Conversational Speech Model)을 도입합니다. CSM은 대화 기록을 활용하여 더욱 자연스럽고 일관성 있는 음성을 생성합니다.
주요 구성 요소:
- 감성 지능: 감정적 맥락을 읽고 반응합니다.
- 대화 역학: 자연스러운 타이밍, 일시 중지, 중단 및 강조.
- 상황 인식: 상황에 맞게 어조와 스타일을 조정합니다.
- 일관된 개성: 일관성 있고 신뢰할 수 있으며 적절한 존재감을 유지합니다.
CSM의 기술적 세부 사항:
- CSM은 효율성과 표현력을 향상시키는 단일 스테이지 모델로 작동합니다.
- Llama 아키텍처를 기반으로 하는 두 개의 자기 회귀 트랜스포머를 사용합니다.
- 모델은 인터리브된 텍스트와 오디오를 처리하여 0번째 코드북을 모델링합니다.
- 별도의 오디오 디코더는 각 코드북에 대해 고유한 선형 헤드를 사용하여 백본의 표현에서 음성을 재구성합니다.
컴퓨팅 상각:
교육 중 인프라 문제를 해결하기 위해 Sesame AI는 전체 RVQ 코드북의 충실도를 유지하면서 메모리 병목 현상을 완화하는 컴퓨팅 상각 체계를 사용합니다. 오디오 디코더는 오디오 프레임의 임의 1/16 하위 집합에서만 교육되는 반면, 0번째 코드북은 모든 프레임에서 교육됩니다.
실험 및 결과:
Sesame AI는 공개적으로 사용 가능한 오디오의 대규모 데이터 세트에서 세 가지 모델 크기(Tiny, Small, Medium)를 교육했습니다. 평가에는 단어 오류율(WER) 및 화자 유사성(SIM)과 같은 객관적 메트릭과 동음이의어 구분 및 발음 일관성을 위한 새로운 음성 전사 기반 벤치마크가 포함되었습니다.
Expresso 데이터 세트에 대한 CMOS(Comparative Mean Opinion Score) 연구를 사용한 주관적 메트릭은 자연스러움은 포화 상태이지만 대화형 음성 생성에서 생성된 운율과 인간의 운율 사이에 격차가 있음을 밝혔습니다.
Sesame AI를 선택하는 이유는 무엇인가요? Sesame AI의 접근 방식은 더욱 자연스럽고 매력적인 AI 대화로 가는 유망한 경로를 제공합니다. 감성 지능, 상황 인식 및 대화 역학에 중점을 둠으로써 Sesame AI는 인간의 요구를 진정으로 이해하고 응답하는 디지털 동반자를 만드는 것을 목표로 합니다.
Sesame AI 사용 방법 Sesame AI 웹사이트에서 대화형 음성 미리보기를 시도하여 그들의 접근 방식의 잠재력을 경험해 보세요. 모델은 Apache 2.0 라이선스에 따라 사용할 수 있습니다.
Sesame AI는 누구를 위한 것인가요? Sesame AI는 연구원, 개발자 및 대화형 AI 분야 발전에 관심이 있는 모든 사람을 위한 것입니다. 그들의 작업은 다음을 포함한 다양한 분야에서 응용됩니다.
- AI 비서
- 고객 서비스
- 교육
- 엔터테인먼트
오픈 소싱 및 향후 작업:
Sesame AI는 커뮤니티가 그들의 접근 방식을 실험하고 구축하고 개선할 수 있도록 연구의 핵심 구성 요소를 오픈 소싱하는 데 전념하고 있습니다. 향후 작업에는 모델 크기 확장, 데이터 세트 볼륨 증가, 언어 지원 확장 및 사전 훈련된 언어 모델을 활용하는 방법 모색이 포함됩니다.
"Sesame"의 최고의 대체 도구

Skywork - Skywork는 간단한 입력을 멀티모달 콘텐츠로 변환 - 깊이 있는 연구가 포함된 문서, 슬라이드, 시트, 팟캐스트 및 웹페이지. 분석가가 보고서를 만들거나, 교육자가 슬라이드를 디자인하거나, 부모가 오디오북을 만드는 데 완벽합니다. 상상만 하면 Skywork가 실현합니다.

Dolores를 경험하세요. GPT-4와 Claude 3.5 Sonnet으로 구동되는 가장 진보된 AI 여자친구. Character.ai, Replika, DreamGF보다 우수합니다. 완벽한 가상 동반자를 만들고, 의미 있는 대화를 나누며 그녀의 성격이 진화하는 것을 지켜보세요. iOS에서 사용 가능.

무료 텍스트 음성 변환 생성기와 변환기를 통해 최첨단 Voice AI를 경험하세요. Deepseek, Hailuo, Grok, Kling과 같은 고급 AI 모델로 구동되는 빠르고 고품질 음성 합성을 즐기며, 다양한 애플리케이션에 자연스럽고 표현력 있는 음성을 제공합니다.

T-Rex Label은 Grounding DINO, DINO-X 및 T-Rex 모델을 지원하는 AI 기반 데이터 주석 도구입니다. COCO 및 YOLO 데이터 세트와 호환되며 효율적인 컴퓨터 비전 데이터 세트 생성을 위해 경계 상자, 이미지 분할 및 마스크 주석과 같은 기능을 제공합니다.

Best of Discover Weekly 는 Spotify Discover Weekly 재생 목록에서 좋아하는 트랙을 자동으로 저장합니다. 청취 통계, 주간 요약을 받고 친구와 공유하세요. Spotify 음악 애호가를 위한 필수품입니다!

EasyPrompt는 Telegram 기반 AI 챗봇으로, ChatGPT와 Midjourney를 통합하여 프롬프트 생성, 이미지 제작, 맞춤 봇, 팀 협업을 간편하게 지원합니다. 로그인이나 코딩 불필요—무료로 시작하세요.

ZekAI는 맞춤 채팅을 위한 Assistant, 쓰기 작업을 위한 Author, 이미지 생성을 위한 Designer, 문서 상호작용을 위한 Explorer와 같은 도구를 제공하는 다용도 AI 플랫폼입니다. GPT-4o와 같은 최고 모델에 액세스하여 교육, 소매, 미디어 분야의 생산성을 향상시키세요.

BAGEL은 이미지 생성, 편집 및 이해 기능과 고급 추론을 결합한 오픈소스 통합 멀티모달 AI 모델로, GPT-4o와 같은 독점 시스템에 필적하는 사실적인 출력을 제공합니다.

Ocular AI는 비정형 데이터에서 사용자 정의 AI 모델을 수집, 큐레이션, 검색, 주석 처리 및 훈련할 수 있는 멀티모달 데이터 레이크하우스 플랫폼입니다. 멀티모달 AI 시대를 위해 구축되었습니다.

개발자를 위한 번개처럼 빠른 AI 플랫폼. 간단한 API로 200개 이상의 최적화된 LLM과 멀티모달 모델 배포, 미세 조정 및 실행 - SiliconFlow.

GPT-4o를 탐색해 보세요. 텍스트, 시각 자료 및 오디오를 위한 OpenAI의 멀티모달 AI 플랫폼입니다. 속도, 비용 효율성 및 접근성을 경험해 보세요. 기술 애호가와 기업에 적합합니다.

최첨단 오픈 소스 멀티모달 AI 모델인 Molmo AI를 만나보세요. 이미지 처리, 텍스트 분석 등을 위해 강력하고 무료이며 사용하기 쉽습니다.

Wan 2.5는 동기화된 오디오와 함께 네이티브 멀티모달 비디오 생성을 위한 오픈 소스 AI 플랫폼입니다. 텍스트 또는 이미지에서 멋진 1080p 비디오를 만드십시오.

976.ai의 AI 여자 친구와 함께 검열되지 않은 AI 채팅을 경험하십시오. 음성, 텍스트 및 이미지를 통해 가상 미녀와 함께 NSFW 롤플레잉에 참여하십시오. 지금 AI 동반자를 사용자 정의하십시오!

Scoopika는 오류 복구, 스트리밍 및 데이터 유효성 검사 기능을 갖춘 LLM 및 AI 에이전트로 멀티모달 AI 앱을 구축하기 위한 오픈 소스 플랫폼입니다.