Sesame 개요
Sesame AI: 대화형 음성의 언캐니 밸리 넘기
Sesame AI란 무엇인가요? Sesame AI는 인공 지능에서 "음성 존재감"을 달성하는 데 전념하며, 음성 상호 작용이 실제적이고 이해되고 가치 있게 느껴지도록 하는 것을 목표로 합니다. 그들의 연구는 진정한 대화에 참여하고 시간이 지남에 따라 신뢰를 구축하는 대화 파트너를 만드는 데 중점을 둡니다.
Sesame AI는 어떻게 작동하나요? Sesame AI는 트랜스포머를 사용하는 엔드 투 엔드 멀티모달 학습 작업인 CSM(Conversational Speech Model)을 도입합니다. CSM은 대화 기록을 활용하여 더욱 자연스럽고 일관성 있는 음성을 생성합니다.
주요 구성 요소:
- 감성 지능: 감정적 맥락을 읽고 반응합니다.
- 대화 역학: 자연스러운 타이밍, 일시 중지, 중단 및 강조.
- 상황 인식: 상황에 맞게 어조와 스타일을 조정합니다.
- 일관된 개성: 일관성 있고 신뢰할 수 있으며 적절한 존재감을 유지합니다.
CSM의 기술적 세부 사항:
- CSM은 효율성과 표현력을 향상시키는 단일 스테이지 모델로 작동합니다.
- Llama 아키텍처를 기반으로 하는 두 개의 자기 회귀 트랜스포머를 사용합니다.
- 모델은 인터리브된 텍스트와 오디오를 처리하여 0번째 코드북을 모델링합니다.
- 별도의 오디오 디코더는 각 코드북에 대해 고유한 선형 헤드를 사용하여 백본의 표현에서 음성을 재구성합니다.
컴퓨팅 상각:
교육 중 인프라 문제를 해결하기 위해 Sesame AI는 전체 RVQ 코드북의 충실도를 유지하면서 메모리 병목 현상을 완화하는 컴퓨팅 상각 체계를 사용합니다. 오디오 디코더는 오디오 프레임의 임의 1/16 하위 집합에서만 교육되는 반면, 0번째 코드북은 모든 프레임에서 교육됩니다.
실험 및 결과:
Sesame AI는 공개적으로 사용 가능한 오디오의 대규모 데이터 세트에서 세 가지 모델 크기(Tiny, Small, Medium)를 교육했습니다. 평가에는 단어 오류율(WER) 및 화자 유사성(SIM)과 같은 객관적 메트릭과 동음이의어 구분 및 발음 일관성을 위한 새로운 음성 전사 기반 벤치마크가 포함되었습니다.
Expresso 데이터 세트에 대한 CMOS(Comparative Mean Opinion Score) 연구를 사용한 주관적 메트릭은 자연스러움은 포화 상태이지만 대화형 음성 생성에서 생성된 운율과 인간의 운율 사이에 격차가 있음을 밝혔습니다.
Sesame AI를 선택하는 이유는 무엇인가요? Sesame AI의 접근 방식은 더욱 자연스럽고 매력적인 AI 대화로 가는 유망한 경로를 제공합니다. 감성 지능, 상황 인식 및 대화 역학에 중점을 둠으로써 Sesame AI는 인간의 요구를 진정으로 이해하고 응답하는 디지털 동반자를 만드는 것을 목표로 합니다.
Sesame AI 사용 방법 Sesame AI 웹사이트에서 대화형 음성 미리보기를 시도하여 그들의 접근 방식의 잠재력을 경험해 보세요. 모델은 Apache 2.0 라이선스에 따라 사용할 수 있습니다.
Sesame AI는 누구를 위한 것인가요? Sesame AI는 연구원, 개발자 및 대화형 AI 분야 발전에 관심이 있는 모든 사람을 위한 것입니다. 그들의 작업은 다음을 포함한 다양한 분야에서 응용됩니다.
- AI 비서
- 고객 서비스
- 교육
- 엔터테인먼트
오픈 소싱 및 향후 작업:
Sesame AI는 커뮤니티가 그들의 접근 방식을 실험하고 구축하고 개선할 수 있도록 연구의 핵심 구성 요소를 오픈 소싱하는 데 전념하고 있습니다. 향후 작업에는 모델 크기 확장, 데이터 세트 볼륨 증가, 언어 지원 확장 및 사전 훈련된 언어 모델을 활용하는 방법 모색이 포함됩니다.
"Sesame"의 최고의 대체 도구
SlidesOrator: 3D 아바타, 대화형 슬라이드 및 실시간 Q&A를 제공하는 AI 프레젠테이션 도우미입니다. 정적 슬라이드를 매력적인 경험으로 바꿔보세요.
Scoopika는 오류 복구, 스트리밍 및 데이터 유효성 검사 기능을 갖춘 LLM 및 AI 에이전트로 멀티모달 AI 앱을 구축하기 위한 오픈 소스 플랫폼입니다.
mistral.rs는 Rust로 작성된 매우 빠른 LLM 추론 엔진으로, 멀티모달 워크플로우와 양자화를 지원합니다. Rust, Python 및 OpenAI 호환 HTTP 서버 API를 제공합니다.
Makir.ai는 최첨단 AI 도구를 탐색하고 자신만의 도구를 출시할 수 있는 AI 마켓플레이스입니다. 글쓰기, 디자인, 코딩, 생산성 등을 위한 AI 솔루션을 찾아보세요.
GPT-4o를 탐색해 보세요. 텍스트, 시각 자료 및 오디오를 위한 OpenAI의 멀티모달 AI 플랫폼입니다. 속도, 비용 효율성 및 접근성을 경험해 보세요. 기술 애호가와 기업에 적합합니다.
InstaLM: macOS 및 iOS 장치에서 직접 Claude, GPT, Gemini 등과 채팅하세요. 개인 정보 보호 우선 디자인으로 음성 상호 작용, 파일 첨부 및 맞춤형 어시스턴트를 즐기세요.
Valossa는 비디오를 텍스트로 변환하여 검색, 캡션 생성 및 하이라이트 클리핑을 가능하게 하는 AI 기반 비디오 분석 플랫폼입니다. 비디오 워크플로를 자동화하여 시간과 리소스를 절약합니다.
VeedoAI는 비디오 콘텐츠를 검색 가능하고 실행 가능하며 지능적인 리소스로 변환하여 참여도를 높이고 학습을 가속화하며 수익을 극대화하는 AI 기반 비디오 인사이트 플랫폼입니다.
Famulor는 연중무휴 24시간 이용 가능한 인간과 유사한 지능형 AI 에이전트로 비즈니스 통화를 자동화하는 선도적인 AI 전화 어시스턴트입니다. GDPR을 준수하며 EU에서 호스팅됩니다.
콘텐츠, 이미지, 비디오, 음성 생성; 자동화 워크플로, 맞춤 AI 앱, 지능형 에이전트 제작. 당신의 독점 AI 앱 맞춤형 워크스테이션.
ChatGPT는 OpenAI의 대화형 AI 시스템으로 자연어 상호작용을 통해 글쓰기, 학습, 브레인스토밍 및 생산성 향상을 도와줍니다.