WAAS 개요
WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API
WAAS(Whisper as a Service)는 OpenAI의 Whisper를 위한 GUI 및 API를 제공하는 오픈 소스 프로젝트로, 오디오 및 비디오 트랜스크립션을 보다 접근 가능하고 사용자 친화적으로 만듭니다. 쉬운 파일 업로드 및 트랜스크립션을 위한 그래픽 사용자 인터페이스(GUI)와 프로그래밍 방식 액세스를 위한 API를 모두 제공합니다.
WAAS란 무엇입니까?
WAAS는 오디오 또는 비디오 파일을 업로드하고 트랜스크립션할 수 있는 인터페이스를 제공합니다. 트랜스크립션 후 사용자는 Jojo 파일, SRT 또는 일반 텍스트를 포함한 다양한 형식의 트랜스크립션 다운로드 링크가 포함된 이메일을 받습니다. 주요 기능은 트랜스크립션 오류를 수정하기 위한 로컬 브라우저 기반 편집기입니다.
주요 기능
- 업로드 및 트랜스크립션을 위한 GUI: 오디오 및 비디오 파일을 업로드하기 위한 간단한 인터페이스입니다.
- 이메일 알림: 트랜스크립션 후 다운로드 링크가 포함된 이메일 알림을 받습니다.
- 다중 출력 형식: Jojo 파일, SRT 또는 일반 텍스트 형식으로 트랜스크립션을 다운로드합니다.
- 로컬 브라우저 기반 편집기: 브라우저 내에서 트랜스크립션 오류를 수정합니다.
- API 액세스: API를 통해 트랜스크립션 서비스에 프로그래밍 방식으로 액세스합니다.
WAAS는 어떻게 작동합니까?
WAAS를 사용하면 사용자는 GUI(Jojo라는 이름) 또는 API를 통해 오디오 또는 비디오 파일을 업로드할 수 있습니다. 업로드된 파일은 OpenAI의 Whisper 모델을 사용하여 트랜스크립션을 위해 처리됩니다. 트랜스크립션이 완료되면 사용자는 다양한 형식으로 트랜스크립션을 다운로드할 수 있는 링크가 포함된 이메일을 받습니다. 브라우저 기반 편집기를 사용하면 사용자는 최종 결과를 저장하기 전에 트랜스크립션의 오류를 수정하고 수정할 수 있습니다.
API 문서
WAAS API는 트랜스크립션 및 관련 작업을 위한 여러 엔드포인트를 제공합니다.
- POST /v1/transcribe: 새 트랜스크립션 작업을 대기열에 추가합니다.
- 필수 매개변수:
email_callback또는webhook_id입니다. - 선택적 매개변수:
language,model,task,filename입니다. - Body: 원시 오디오 데이터입니다.
- 필수 매개변수:
- OPTIONS /v1/transcribe: 트랜스크립션 경로에 사용할 수 있는 옵션을 검색합니다.
- POST /v1/detect: 오디오 파일의 언어를 감지합니다.
- 선택적 매개변수:
model입니다. - Body: 원시 오디오 데이터입니다.
- 선택적 매개변수:
- OPTIONS /v1/detect: 감지 경로에 사용할 수 있는 옵션을 검색합니다.
- GET /v1/download/<job_id>: 요청된 출력 형식으로 완료된 트랜스크립션을 검색합니다.
- 선택적 매개변수:
output(json, timecode_txt, txt, vtt, srt)입니다.
- 선택적 매개변수:
- OPTIONS /v1/download/<job_id>: 다운로드 경로에 사용할 수 있는 옵션을 검색합니다.
- GET /v1/jobs/<job_id>: 지정된 작업의 상태 및 메타데이터를 검색합니다.
- GET /v1/queue: 대기열의 현재 길이를 검색합니다.
Webhook 통합
WAAS는 webhook 알림을 지원합니다. 트랜스크립션이 성공하거나 실패하면 JSON 페이로드와 콘텐츠 확인을 위한 X-WAAS-Signature 헤더가 포함된 POST 요청이 구성된 webhook URL로 전송됩니다.
WAAS는 누구를 위한 것입니까?
- 인터뷰 또는 강의를 트랜스크립션해야 하는 연구원입니다.
- 오디오 또는 비디오 콘텐츠로 작업하는 저널리스트입니다.
- 트랜스크립션 서비스를 애플리케이션에 통합하는 개발자입니다.
- 오디오 또는 비디오 파일을 빠르고 정확하게 트랜스크립션해야 하는 모든 사람입니다.
설치
WAAS를 설치하고 실행하려면 다음 단계를 따르세요.
- 리포지토리를 복제합니다.
- 가상 환경을 만듭니다.
pip install -r requirements.txt를 사용하여 필요한 Python 패키지를 설치합니다.BASE_URL,EMAIL_SENDER_ADDRESS,EMAIL_SENDER_PASSWORD및EMAIL_SENDER_HOST와 같은 환경 변수를 구성합니다.- Docker Compose를 사용하여 설정을 실행합니다.
Docker Compose로 실행
- 필요한 환경 변수가 포함된
.envrc파일을 만듭니다. - 유효한 webhook URL 및 토큰이 포함된
allowed_webhooks.json파일(webhook을 사용하는 경우)을 추가합니다. docker-compose --env-file .envrc up을 실행합니다.
NVIDIA CUDA 사용
NVIDIA CUDA로 GPU 가속을 활성화하려면 다음 단계를 따르세요.
- NVIDIA Docker를 설치합니다.
docker-compose.yml파일을 편집하여Dockerfile.gpu를 사용하고 장치 예약을 주석 해제합니다.docker-compose --env-file .envrc up을 실행합니다.
WAAS를 선택하는 이유는 무엇입니까?
WAAS는 OpenAI의 Whisper 모델을 활용하기 위한 사용자 친화적인 인터페이스와 API를 제공합니다. 이메일 알림, 다중 출력 형식 및 로컬 브라우저 기반 편집과 같은 기능은 오디오 및 비디오 트랜스크립션 요구 사항에 대한 편리하고 효율적인 솔루션입니다. 로컬에서 실행하거나 API를 통해 기존 시스템에 통합할 수 있는 유연성 덕분에 다양한 사용 사례에 맞는 다용도 도구입니다.
결론적으로 WAAS는 오디오 또는 비디오 콘텐츠를 빠르고 정확하게 트랜스크립션하려는 모든 사람에게 유용한 도구입니다. 오픈 소스 특성과 사용 편의성 덕분에 개인 및 전문적인 용도로 모두 훌륭한 선택입니다.
"WAAS"의 최고의 대체 도구
Neurond AI의 음성 모델 구현을 사용하여 고품질 텍스트 음성 변환 및 음성 텍스트 변환 모델을 통해 커뮤니케이션을 향상시키고 정확하고 자연스러운 인간-컴퓨터 상호 작용을 실현하십시오.
FreeTTS는 텍스트 음성 변환, 음성 텍스트 변환, 오디오 변환, 보컬 제거 및 음성 향상을 위한 무료 온라인 AI 기반 도구를 제공합니다. 브라우저에서 직접 오디오 파일을 변환하고 향상시키세요.
AILYZE는 AI 기반 정성적 데이터 분석 소프트웨어로, 주제 분석, 내용 분석 및 문서와 스프레드시트에서 빠른 데이터 통찰력을 얻을 수 있는 AI 챗봇을 제공합니다.
AI Free Forever로 500개 이상의 무료 AI 도구에 액세스하십시오. 무제한 콘텐츠를 생성하고 멋진 이미지를 만들고 텍스트를 음성으로 변환하십시오. 등록이 필요하지 않습니다. 지금 사용해보세요!
UniScribe의 고급 AI 기술로 온라인에서 음성을 텍스트로 변환하세요. 모든 트랜스크립션 요구 사항을 충족하는 빠르고 정확하며 신뢰할 수 있는 음성 인식.
TurboScribe는 98개 이상의 언어에서 99.8% 정확도로 무제한 AI 기반 오디오 및 비디오 전사를 제공합니다. 몇 초 만에 파일을 전사하고, 자막을 생성하며, 화자 인식을 즐기세요—매일 3개의 무료 전사부터 시작하세요.
VoicePen은 AI 기반 노트 테이커로, 음성을 텍스트로 전사하고 회의, 강의, 메모를 스마트 노트로 요약합니다. 오프라인 녹음, PDF/DOC 내보내기, Notion 통합으로 효율적인 생산성 향상.
Azure AI Speech Studio는 음성-텍스트, 텍스트-음성 및 번역 도구로 개발자를 강화합니다. 사용자 정의 모델, 음성 아바타, 실시간 전사 등의 기능을 탐색하여 앱의 접근성과 참여를 향상시킵니다.
Transcriptal: YouTube 비디오 및 기타 음성 콘텐츠를 100개 이상의 언어로 텍스트로 변환하는 무료 AI 기반 플랫폼입니다. 빠른 처리 시간으로 정확한 요약을 얻을 수 있으며 등록이 필요하지 않습니다.
PlainScribe: 미디어 파일을 쉽게 전사, 번역 및 요약합니다. 오디오 및 비디오를 텍스트로 변환하고, 50개 이상의 언어로 번역하고, AI 기반 요약을 받으세요. 무료로 사용해 보세요!
VideoToTextAI는 AI를 사용하여 비디오 또는 오디오를 자동으로 텍스트로 변환, 번역 및 캡션합니다. 텍스트 및 자막을 편집하고 비디오, SRT, VTT 또는 일반 텍스트로 다운로드하십시오.
무료 온라인 MP4 텍스트 변환기. AI를 사용하여 MP4 비디오 파일을 텍스트로 높은 정확도로 필사합니다. 가입이 필요 없으며 여러 언어를 지원합니다. 회의, 팟캐스트 및 콘텐츠 재활용에 적합합니다.
Superwhisper는 macOS 및 iPhone용 AI 기반 음성-텍스트 변환 앱으로, 더 빠른 타이핑과 모든 애플리케이션과의 원활한 통합을 가능하게 합니다. 오디오 및 비디오를 트랜스크립트하고, 언어를 번역하고, 생산성을 향상시키십시오.
Hello Transcribe: OpenAI Whisper를 사용하는 개인 음성-텍스트 변환기로, 오프라인에서 작동하며 결과를 iCloud에 암호화합니다.