WAAS 개요
WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API
WAAS(Whisper as a Service)는 OpenAI의 Whisper를 위한 GUI 및 API를 제공하는 오픈 소스 프로젝트로, 오디오 및 비디오 트랜스크립션을 보다 접근 가능하고 사용자 친화적으로 만듭니다. 쉬운 파일 업로드 및 트랜스크립션을 위한 그래픽 사용자 인터페이스(GUI)와 프로그래밍 방식 액세스를 위한 API를 모두 제공합니다.
WAAS란 무엇입니까?
WAAS는 오디오 또는 비디오 파일을 업로드하고 트랜스크립션할 수 있는 인터페이스를 제공합니다. 트랜스크립션 후 사용자는 Jojo 파일, SRT 또는 일반 텍스트를 포함한 다양한 형식의 트랜스크립션 다운로드 링크가 포함된 이메일을 받습니다. 주요 기능은 트랜스크립션 오류를 수정하기 위한 로컬 브라우저 기반 편집기입니다.
주요 기능
- 업로드 및 트랜스크립션을 위한 GUI: 오디오 및 비디오 파일을 업로드하기 위한 간단한 인터페이스입니다.
- 이메일 알림: 트랜스크립션 후 다운로드 링크가 포함된 이메일 알림을 받습니다.
- 다중 출력 형식: Jojo 파일, SRT 또는 일반 텍스트 형식으로 트랜스크립션을 다운로드합니다.
- 로컬 브라우저 기반 편집기: 브라우저 내에서 트랜스크립션 오류를 수정합니다.
- API 액세스: API를 통해 트랜스크립션 서비스에 프로그래밍 방식으로 액세스합니다.
WAAS는 어떻게 작동합니까?
WAAS를 사용하면 사용자는 GUI(Jojo라는 이름) 또는 API를 통해 오디오 또는 비디오 파일을 업로드할 수 있습니다. 업로드된 파일은 OpenAI의 Whisper 모델을 사용하여 트랜스크립션을 위해 처리됩니다. 트랜스크립션이 완료되면 사용자는 다양한 형식으로 트랜스크립션을 다운로드할 수 있는 링크가 포함된 이메일을 받습니다. 브라우저 기반 편집기를 사용하면 사용자는 최종 결과를 저장하기 전에 트랜스크립션의 오류를 수정하고 수정할 수 있습니다.
API 문서
WAAS API는 트랜스크립션 및 관련 작업을 위한 여러 엔드포인트를 제공합니다.
- POST /v1/transcribe: 새 트랜스크립션 작업을 대기열에 추가합니다.
- 필수 매개변수:
email_callback또는webhook_id입니다. - 선택적 매개변수:
language,model,task,filename입니다. - Body: 원시 오디오 데이터입니다.
- 필수 매개변수:
- OPTIONS /v1/transcribe: 트랜스크립션 경로에 사용할 수 있는 옵션을 검색합니다.
- POST /v1/detect: 오디오 파일의 언어를 감지합니다.
- 선택적 매개변수:
model입니다. - Body: 원시 오디오 데이터입니다.
- 선택적 매개변수:
- OPTIONS /v1/detect: 감지 경로에 사용할 수 있는 옵션을 검색합니다.
- GET /v1/download/<job_id>: 요청된 출력 형식으로 완료된 트랜스크립션을 검색합니다.
- 선택적 매개변수:
output(json, timecode_txt, txt, vtt, srt)입니다.
- 선택적 매개변수:
- OPTIONS /v1/download/<job_id>: 다운로드 경로에 사용할 수 있는 옵션을 검색합니다.
- GET /v1/jobs/<job_id>: 지정된 작업의 상태 및 메타데이터를 검색합니다.
- GET /v1/queue: 대기열의 현재 길이를 검색합니다.
Webhook 통합
WAAS는 webhook 알림을 지원합니다. 트랜스크립션이 성공하거나 실패하면 JSON 페이로드와 콘텐츠 확인을 위한 X-WAAS-Signature 헤더가 포함된 POST 요청이 구성된 webhook URL로 전송됩니다.
WAAS는 누구를 위한 것입니까?
- 인터뷰 또는 강의를 트랜스크립션해야 하는 연구원입니다.
- 오디오 또는 비디오 콘텐츠로 작업하는 저널리스트입니다.
- 트랜스크립션 서비스를 애플리케이션에 통합하는 개발자입니다.
- 오디오 또는 비디오 파일을 빠르고 정확하게 트랜스크립션해야 하는 모든 사람입니다.
설치
WAAS를 설치하고 실행하려면 다음 단계를 따르세요.
- 리포지토리를 복제합니다.
- 가상 환경을 만듭니다.
pip install -r requirements.txt를 사용하여 필요한 Python 패키지를 설치합니다.BASE_URL,EMAIL_SENDER_ADDRESS,EMAIL_SENDER_PASSWORD및EMAIL_SENDER_HOST와 같은 환경 변수를 구성합니다.- Docker Compose를 사용하여 설정을 실행합니다.
Docker Compose로 실행
- 필요한 환경 변수가 포함된
.envrc파일을 만듭니다. - 유효한 webhook URL 및 토큰이 포함된
allowed_webhooks.json파일(webhook을 사용하는 경우)을 추가합니다. docker-compose --env-file .envrc up을 실행합니다.
NVIDIA CUDA 사용
NVIDIA CUDA로 GPU 가속을 활성화하려면 다음 단계를 따르세요.
- NVIDIA Docker를 설치합니다.
docker-compose.yml파일을 편집하여Dockerfile.gpu를 사용하고 장치 예약을 주석 해제합니다.docker-compose --env-file .envrc up을 실행합니다.
WAAS를 선택하는 이유는 무엇입니까?
WAAS는 OpenAI의 Whisper 모델을 활용하기 위한 사용자 친화적인 인터페이스와 API를 제공합니다. 이메일 알림, 다중 출력 형식 및 로컬 브라우저 기반 편집과 같은 기능은 오디오 및 비디오 트랜스크립션 요구 사항에 대한 편리하고 효율적인 솔루션입니다. 로컬에서 실행하거나 API를 통해 기존 시스템에 통합할 수 있는 유연성 덕분에 다양한 사용 사례에 맞는 다용도 도구입니다.
결론적으로 WAAS는 오디오 또는 비디오 콘텐츠를 빠르고 정확하게 트랜스크립션하려는 모든 사람에게 유용한 도구입니다. 오픈 소스 특성과 사용 편의성 덕분에 개인 및 전문적인 용도로 모두 훌륭한 선택입니다.
"WAAS"의 최고의 대체 도구
WhisperAPI는 OpenAI Whisper로 구동되는 빠르고 정확한 비디오 및 오디오 필사 API를 제공합니다. 매일 5회의 무료 필사를 받으세요. 다양한 형식, 넉넉한 제한 및 개인 정보 보호 우선 접근 방식을 지원합니다.
Yescribe.ai는 99.9%의 정확도로 오디오 및 비디오를 텍스트로 변환하고 98개 이상의 언어를 지원하는 AI 기반 필사 서비스입니다. 다양한 산업 분야에 빠르고 안전하며 저렴한 필사 솔루션을 제공합니다.
Hello Transcribe: OpenAI Whisper를 사용하는 개인 음성-텍스트 변환기로, 오프라인에서 작동하며 결과를 iCloud에 암호화합니다.
FreeTTS는 텍스트 음성 변환, 음성 텍스트 변환, 오디오 변환, 보컬 제거 및 음성 향상을 위한 무료 온라인 AI 기반 도구를 제공합니다. 브라우저에서 직접 오디오 파일을 변환하고 향상시키세요.
Neurond AI의 음성 모델 구현을 사용하여 고품질 텍스트 음성 변환 및 음성 텍스트 변환 모델을 통해 커뮤니케이션을 향상시키고 정확하고 자연스러운 인간-컴퓨터 상호 작용을 실현하십시오.
Superwhisper는 macOS 및 iPhone용 AI 기반 음성-텍스트 변환 앱으로, 더 빠른 타이핑과 모든 애플리케이션과의 원활한 통합을 가능하게 합니다. 오디오 및 비디오를 트랜스크립트하고, 언어를 번역하고, 생산성을 향상시키십시오.
VoicePen은 AI 기반 노트 테이커로, 음성을 텍스트로 전사하고 회의, 강의, 메모를 스마트 노트로 요약합니다. 오프라인 녹음, PDF/DOC 내보내기, Notion 통합으로 효율적인 생산성 향상.
TurboScribe는 98개 이상의 언어에서 99.8% 정확도로 무제한 AI 기반 오디오 및 비디오 전사를 제공합니다. 몇 초 만에 파일을 전사하고, 자막을 생성하며, 화자 인식을 즐기세요—매일 3개의 무료 전사부터 시작하세요.
Azure AI Speech Studio는 음성-텍스트, 텍스트-음성 및 번역 도구로 개발자를 강화합니다. 사용자 정의 모델, 음성 아바타, 실시간 전사 등의 기능을 탐색하여 앱의 접근성과 참여를 향상시킵니다.
PlainScribe: 미디어 파일을 쉽게 전사, 번역 및 요약합니다. 오디오 및 비디오를 텍스트로 변환하고, 50개 이상의 언어로 번역하고, AI 기반 요약을 받으세요. 무료로 사용해 보세요!
UniScribe의 고급 AI 기술로 온라인에서 음성을 텍스트로 변환하세요. 모든 트랜스크립션 요구 사항을 충족하는 빠르고 정확하며 신뢰할 수 있는 음성 인식.
Free Audio to Text Converter는 AI를 사용하여 오디오 파일을 빠르고 정확하게 필사합니다. 여러 형식을 지원하며 화자 감지, 타임스탬프 및 TXT, DOCX 및 SRT와 같은 다양한 내보내기 옵션을 제공합니다.
무료 온라인 MP4 텍스트 변환기. AI를 사용하여 MP4 비디오 파일을 텍스트로 높은 정확도로 필사합니다. 가입이 필요 없으며 여러 언어를 지원합니다. 회의, 팟캐스트 및 콘텐츠 재활용에 적합합니다.
AILYZE는 AI 기반 정성적 데이터 분석 소프트웨어로, 주제 분석, 내용 분석 및 문서와 스프레드시트에서 빠른 데이터 통찰력을 얻을 수 있는 AI 챗봇을 제공합니다.