도구 카테고리오디오 및 음성AI 음성 합성

Sesame

3.5 313 0

유형:

웹사이트

최종 업데이트:

2025/10/06

설명:

Sesame AI는 AI에서 '음성 존재감'을 달성하여 음성 상호 작용을 실제적이고 이해하기 쉽도록 만드는 것을 목표로 합니다. 자연스러운 대화를 위해 대화형 음성 모델(CSM)을 살펴보세요.

대화형 음성

음성 생성

멀티모달 AI

텍스트 음성 변환

AI 동반자

Sesame AI는 AI에서 '음성 존재감'을 달성하여 음성 상호 작용을 실제적이고 이해하기 쉽도록 만드는 것을 목표로 합니다. 자연스러운 대화를 위해 대화형 음성 모델(CSM)을 살펴보세요.

웹사이트 열기

Sesame 개요

Sesame AI: 대화형 음성의 언캐니 밸리 넘기

Sesame AI란 무엇인가요? Sesame AI는 인공 지능에서 "음성 존재감"을 달성하는 데 전념하며, 음성 상호 작용이 실제적이고 이해되고 가치 있게 느껴지도록 하는 것을 목표로 합니다. 그들의 연구는 진정한 대화에 참여하고 시간이 지남에 따라 신뢰를 구축하는 대화 파트너를 만드는 데 중점을 둡니다.

Sesame AI는 어떻게 작동하나요? Sesame AI는 트랜스포머를 사용하는 엔드 투 엔드 멀티모달 학습 작업인 CSM(Conversational Speech Model)을 도입합니다. CSM은 대화 기록을 활용하여 더욱 자연스럽고 일관성 있는 음성을 생성합니다.

주요 구성 요소:

감성 지능: 감정적 맥락을 읽고 반응합니다.
대화 역학: 자연스러운 타이밍, 일시 중지, 중단 및 강조.
상황 인식: 상황에 맞게 어조와 스타일을 조정합니다.
일관된 개성: 일관성 있고 신뢰할 수 있으며 적절한 존재감을 유지합니다.

CSM의 기술적 세부 사항:

CSM은 효율성과 표현력을 향상시키는 단일 스테이지 모델로 작동합니다.
Llama 아키텍처를 기반으로 하는 두 개의 자기 회귀 트랜스포머를 사용합니다.
모델은 인터리브된 텍스트와 오디오를 처리하여 0번째 코드북을 모델링합니다.
별도의 오디오 디코더는 각 코드북에 대해 고유한 선형 헤드를 사용하여 백본의 표현에서 음성을 재구성합니다.

컴퓨팅 상각:

교육 중 인프라 문제를 해결하기 위해 Sesame AI는 전체 RVQ 코드북의 충실도를 유지하면서 메모리 병목 현상을 완화하는 컴퓨팅 상각 체계를 사용합니다. 오디오 디코더는 오디오 프레임의 임의 1/16 하위 집합에서만 교육되는 반면, 0번째 코드북은 모든 프레임에서 교육됩니다.

실험 및 결과:

Sesame AI는 공개적으로 사용 가능한 오디오의 대규모 데이터 세트에서 세 가지 모델 크기(Tiny, Small, Medium)를 교육했습니다. 평가에는 단어 오류율(WER) 및 화자 유사성(SIM)과 같은 객관적 메트릭과 동음이의어 구분 및 발음 일관성을 위한 새로운 음성 전사 기반 벤치마크가 포함되었습니다.

Expresso 데이터 세트에 대한 CMOS(Comparative Mean Opinion Score) 연구를 사용한 주관적 메트릭은 자연스러움은 포화 상태이지만 대화형 음성 생성에서 생성된 운율과 인간의 운율 사이에 격차가 있음을 밝혔습니다.

Sesame AI를 선택하는 이유는 무엇인가요? Sesame AI의 접근 방식은 더욱 자연스럽고 매력적인 AI 대화로 가는 유망한 경로를 제공합니다. 감성 지능, 상황 인식 및 대화 역학에 중점을 둠으로써 Sesame AI는 인간의 요구를 진정으로 이해하고 응답하는 디지털 동반자를 만드는 것을 목표로 합니다.

Sesame AI 사용 방법 Sesame AI 웹사이트에서 대화형 음성 미리보기를 시도하여 그들의 접근 방식의 잠재력을 경험해 보세요. 모델은 Apache 2.0 라이선스에 따라 사용할 수 있습니다.

Sesame AI는 누구를 위한 것인가요? Sesame AI는 연구원, 개발자 및 대화형 AI 분야 발전에 관심이 있는 모든 사람을 위한 것입니다. 그들의 작업은 다음을 포함한 다양한 분야에서 응용됩니다.

AI 비서
고객 서비스
교육
엔터테인먼트

오픈 소싱 및 향후 작업:

Sesame AI는 커뮤니티가 그들의 접근 방식을 실험하고 구축하고 개선할 수 있도록 연구의 핵심 구성 요소를 오픈 소싱하는 데 전념하고 있습니다. 향후 작업에는 모델 크기 확장, 데이터 세트 볼륨 증가, 언어 지원 확장 및 사전 훈련된 언어 모델을 활용하는 방법 모색이 포함됩니다.