WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API

WAAS

3.5 | 65 | 0
유형:
오픈 소스 프로젝트
최종 업데이트:
2025/10/14
설명:
WAAS (Whisper as a Service)는 OpenAI의 Whisper를 위한 오픈 소스 GUI 및 API로, 이메일 알림 및 로컬 브라우저 기반 편집기를 통해 오디오 및 비디오를 쉽게 필사할 수 있습니다.
공유:
음성을 텍스트로 변환
오디오 필사
비디오 필사
Whisper API
OpenAI

WAAS 개요

WAAS: Whisper as a Service - OpenAI Whisper용 GUI 및 API

WAAS(Whisper as a Service)는 OpenAI의 Whisper를 위한 GUI 및 API를 제공하는 오픈 소스 프로젝트로, 오디오 및 비디오 트랜스크립션을 보다 접근 가능하고 사용자 친화적으로 만듭니다. 쉬운 파일 업로드 및 트랜스크립션을 위한 그래픽 사용자 인터페이스(GUI)와 프로그래밍 방식 액세스를 위한 API를 모두 제공합니다.

WAAS란 무엇입니까?

WAAS는 오디오 또는 비디오 파일을 업로드하고 트랜스크립션할 수 있는 인터페이스를 제공합니다. 트랜스크립션 후 사용자는 Jojo 파일, SRT 또는 일반 텍스트를 포함한 다양한 형식의 트랜스크립션 다운로드 링크가 포함된 이메일을 받습니다. 주요 기능은 트랜스크립션 오류를 수정하기 위한 로컬 브라우저 기반 편집기입니다.

주요 기능

  • 업로드 및 트랜스크립션을 위한 GUI: 오디오 및 비디오 파일을 업로드하기 위한 간단한 인터페이스입니다.
  • 이메일 알림: 트랜스크립션 후 다운로드 링크가 포함된 이메일 알림을 받습니다.
  • 다중 출력 형식: Jojo 파일, SRT 또는 일반 텍스트 형식으로 트랜스크립션을 다운로드합니다.
  • 로컬 브라우저 기반 편집기: 브라우저 내에서 트랜스크립션 오류를 수정합니다.
  • API 액세스: API를 통해 트랜스크립션 서비스에 프로그래밍 방식으로 액세스합니다.

WAAS는 어떻게 작동합니까?

WAAS를 사용하면 사용자는 GUI(Jojo라는 이름) 또는 API를 통해 오디오 또는 비디오 파일을 업로드할 수 있습니다. 업로드된 파일은 OpenAI의 Whisper 모델을 사용하여 트랜스크립션을 위해 처리됩니다. 트랜스크립션이 완료되면 사용자는 다양한 형식으로 트랜스크립션을 다운로드할 수 있는 링크가 포함된 이메일을 받습니다. 브라우저 기반 편집기를 사용하면 사용자는 최종 결과를 저장하기 전에 트랜스크립션의 오류를 수정하고 수정할 수 있습니다.

API 문서

WAAS API는 트랜스크립션 및 관련 작업을 위한 여러 엔드포인트를 제공합니다.

  • POST /v1/transcribe: 새 트랜스크립션 작업을 대기열에 추가합니다.
    • 필수 매개변수: email_callback 또는 webhook_id입니다.
    • 선택적 매개변수: language, model, task, filename입니다.
    • Body: 원시 오디오 데이터입니다.
  • OPTIONS /v1/transcribe: 트랜스크립션 경로에 사용할 수 있는 옵션을 검색합니다.
  • POST /v1/detect: 오디오 파일의 언어를 감지합니다.
    • 선택적 매개변수: model입니다.
    • Body: 원시 오디오 데이터입니다.
  • OPTIONS /v1/detect: 감지 경로에 사용할 수 있는 옵션을 검색합니다.
  • GET /v1/download/<job_id>: 요청된 출력 형식으로 완료된 트랜스크립션을 검색합니다.
    • 선택적 매개변수: output(json, timecode_txt, txt, vtt, srt)입니다.
  • OPTIONS /v1/download/<job_id>: 다운로드 경로에 사용할 수 있는 옵션을 검색합니다.
  • GET /v1/jobs/<job_id>: 지정된 작업의 상태 및 메타데이터를 검색합니다.
  • GET /v1/queue: 대기열의 현재 길이를 검색합니다.

Webhook 통합

WAAS는 webhook 알림을 지원합니다. 트랜스크립션이 성공하거나 실패하면 JSON 페이로드와 콘텐츠 확인을 위한 X-WAAS-Signature 헤더가 포함된 POST 요청이 구성된 webhook URL로 전송됩니다.

WAAS는 누구를 위한 것입니까?

  • 인터뷰 또는 강의를 트랜스크립션해야 하는 연구원입니다.
  • 오디오 또는 비디오 콘텐츠로 작업하는 저널리스트입니다.
  • 트랜스크립션 서비스를 애플리케이션에 통합하는 개발자입니다.
  • 오디오 또는 비디오 파일을 빠르고 정확하게 트랜스크립션해야 하는 모든 사람입니다.

설치

WAAS를 설치하고 실행하려면 다음 단계를 따르세요.

  1. 리포지토리를 복제합니다.
  2. 가상 환경을 만듭니다.
  3. pip install -r requirements.txt를 사용하여 필요한 Python 패키지를 설치합니다.
  4. BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORDEMAIL_SENDER_HOST와 같은 환경 변수를 구성합니다.
  5. Docker Compose를 사용하여 설정을 실행합니다.

Docker Compose로 실행

  1. 필요한 환경 변수가 포함된 .envrc 파일을 만듭니다.
  2. 유효한 webhook URL 및 토큰이 포함된 allowed_webhooks.json 파일(webhook을 사용하는 경우)을 추가합니다.
  3. docker-compose --env-file .envrc up을 실행합니다.

NVIDIA CUDA 사용

NVIDIA CUDA로 GPU 가속을 활성화하려면 다음 단계를 따르세요.

  1. NVIDIA Docker를 설치합니다.
  2. docker-compose.yml 파일을 편집하여 Dockerfile.gpu를 사용하고 장치 예약을 주석 해제합니다.
  3. docker-compose --env-file .envrc up을 실행합니다.

WAAS를 선택하는 이유는 무엇입니까?

WAAS는 OpenAI의 Whisper 모델을 활용하기 위한 사용자 친화적인 인터페이스와 API를 제공합니다. 이메일 알림, 다중 출력 형식 및 로컬 브라우저 기반 편집과 같은 기능은 오디오 및 비디오 트랜스크립션 요구 사항에 대한 편리하고 효율적인 솔루션입니다. 로컬에서 실행하거나 API를 통해 기존 시스템에 통합할 수 있는 유연성 덕분에 다양한 사용 사례에 맞는 다용도 도구입니다.

결론적으로 WAAS는 오디오 또는 비디오 콘텐츠를 빠르고 정확하게 트랜스크립션하려는 모든 사람에게 유용한 도구입니다. 오픈 소스 특성과 사용 편의성 덕분에 개인 및 전문적인 용도로 모두 훌륭한 선택입니다.

"WAAS"의 최고의 대체 도구

Neurond AI Voice Model Implementation
이미지가 없습니다
92 0

Neurond AI의 음성 모델 구현을 사용하여 고품질 텍스트 음성 변환 및 음성 텍스트 변환 모델을 통해 커뮤니케이션을 향상시키고 정확하고 자연스러운 인간-컴퓨터 상호 작용을 실현하십시오.

텍스트 음성 변환
FreeTTS
이미지가 없습니다
101 0

FreeTTS는 텍스트 음성 변환, 음성 텍스트 변환, 오디오 변환, 보컬 제거 및 음성 향상을 위한 무료 온라인 AI 기반 도구를 제공합니다. 브라우저에서 직접 오디오 파일을 변환하고 향상시키세요.

텍스트 음성 변환
AILYZE
이미지가 없습니다
104 0

AILYZE는 AI 기반 정성적 데이터 분석 소프트웨어로, 주제 분석, 내용 분석 및 문서와 스프레드시트에서 빠른 데이터 통찰력을 얻을 수 있는 AI 챗봇을 제공합니다.

정성적 데이터 분석
주제 분석
AI-Free-Forever
이미지가 없습니다
119 0

AI Free Forever로 500개 이상의 무료 AI 도구에 액세스하십시오. 무제한 콘텐츠를 생성하고 멋진 이미지를 만들고 텍스트를 음성으로 변환하십시오. 등록이 필요하지 않습니다. 지금 사용해보세요!

AI 도구
콘텐츠 생성
UniScribe
이미지가 없습니다
156 0

UniScribe의 고급 AI 기술로 온라인에서 음성을 텍스트로 변환하세요. 모든 트랜스크립션 요구 사항을 충족하는 빠르고 정확하며 신뢰할 수 있는 음성 인식.

음성 텍스트 변환
TurboScribe
이미지가 없습니다
160 0

TurboScribe는 98개 이상의 언어에서 99.8% 정확도로 무제한 AI 기반 오디오 및 비디오 전사를 제공합니다. 몇 초 만에 파일을 전사하고, 자막을 생성하며, 화자 인식을 즐기세요—매일 3개의 무료 전사부터 시작하세요.

오디오 전사
비디오 자막
VoicePen
이미지가 없습니다
148 0

VoicePen은 AI 기반 노트 테이커로, 음성을 텍스트로 전사하고 회의, 강의, 메모를 스마트 노트로 요약합니다. 오프라인 녹음, PDF/DOC 내보내기, Notion 통합으로 효율적인 생산성 향상.

음성 전사
AI 요약
회의 노트
Speech Studio
이미지가 없습니다
181 0

Azure AI Speech Studio는 음성-텍스트, 텍스트-음성 및 번역 도구로 개발자를 강화합니다. 사용자 정의 모델, 음성 아바타, 실시간 전사 등의 기능을 탐색하여 앱의 접근성과 참여를 향상시킵니다.

음성 전사
음성 합성
맞춤 모델
Transcriptal
이미지가 없습니다
302 0

Transcriptal: YouTube 비디오 및 기타 음성 콘텐츠를 100개 이상의 언어로 텍스트로 변환하는 무료 AI 기반 플랫폼입니다. 빠른 처리 시간으로 정확한 요약을 얻을 수 있으며 등록이 필요하지 않습니다.

YouTube 텍스트 변환
PlainScribe
이미지가 없습니다
259 0

PlainScribe: 미디어 파일을 쉽게 전사, 번역 및 요약합니다. 오디오 및 비디오를 텍스트로 변환하고, 50개 이상의 언어로 번역하고, AI 기반 요약을 받으세요. 무료로 사용해 보세요!

오디오에서 텍스트로
VideoToTextAI
이미지가 없습니다
215 0

VideoToTextAI는 AI를 사용하여 비디오 또는 오디오를 자동으로 텍스트로 변환, 번역 및 캡션합니다. 텍스트 및 자막을 편집하고 비디오, SRT, VTT 또는 일반 텍스트로 다운로드하십시오.

비디오 트랜스크립션
MP4 to Text Converter
이미지가 없습니다
192 0

무료 온라인 MP4 텍스트 변환기. AI를 사용하여 MP4 비디오 파일을 텍스트로 높은 정확도로 필사합니다. 가입이 필요 없으며 여러 언어를 지원합니다. 회의, 팟캐스트 및 콘텐츠 재활용에 적합합니다.

비디오 필사
오디오 필사
superwhisper
이미지가 없습니다
380 0

Superwhisper는 macOS 및 iPhone용 AI 기반 음성-텍스트 변환 앱으로, 더 빠른 타이핑과 모든 애플리케이션과의 원활한 통합을 가능하게 합니다. 오디오 및 비디오를 트랜스크립트하고, 언어를 번역하고, 생산성을 향상시키십시오.

음성 트랜스크립션
Hello Transcribe
이미지가 없습니다
256 0

Hello Transcribe: OpenAI Whisper를 사용하는 개인 음성-텍스트 변환기로, 오프라인에서 작동하며 결과를 iCloud에 암호화합니다.

음성을 텍스트로
필사
오프라인