WAAS: Whisper as a Service - OpenAI Whisper的GUI和API

WAAS

3.5 | 73 | 0
类型:
开源项目
最后更新:
2025/10/14
资源描述:
WAAS (Whisper as a Service) 是一个开源的 GUI 和 API,用于 OpenAI 的 Whisper,能够通过电子邮件通知和本地浏览器编辑器轻松进行音频和视频转录。
分享:
语音转文本
音频转录
视频转录
Whisper API
OpenAI

WAAS 概述

WAAS: Whisper as a Service - OpenAI Whisper 的 GUI 和 API

WAAS(Whisper as a Service)是一个开源项目,为 OpenAI 的 Whisper 提供 GUI 和 API,使音频和视频转录更加容易访问和用户友好。它提供了一个图形用户界面 (GUI),方便文件上传和转录,以及一个用于编程访问的 API。

什么是 WAAS?

WAAS 提供了一个上传和转录音频或视频文件的界面。转录完成后,用户将收到一封电子邮件,其中包含各种格式的转录下载链接,包括 Jojo 文件、SRT 或纯文本。一个关键特性是基于本地浏览器的编辑器,用于纠正转录错误。

主要特性

  • 用于上传和转录的 GUI: 简单的界面,用于上传音频和视频文件。
  • 电子邮件通知: 转录后接收包含下载链接的电子邮件通知。
  • 多种输出格式: 下载 Jojo 文件、SRT 或纯文本格式的转录。
  • 本地浏览器编辑器: 在浏览器中更正转录错误。
  • API 访问: 通过 API 以编程方式访问转录服务。

WAAS 如何工作?

WAAS 允许用户通过 GUI(名为 Jojo)或通过 API 上传音频或视频文件。然后使用 OpenAI 的 Whisper 模型处理上传的文件以进行转录。转录完成后,用户将收到一封电子邮件,其中包含下载各种格式转录的链接。基于浏览器的编辑器允许用户在保存最终结果之前,改进和更正转录中的任何错误。

API 文档

WAAS API 提供了多个用于转录和相关任务的端点:

  • POST /v1/transcribe: 向队列添加新的转录作业。
    • 必需参数:email_callbackwebhook_id
    • 可选参数:languagemodeltaskfilename
    • Body:原始音频数据。
  • OPTIONS /v1/transcribe: 检索转录路由的可用选项。
  • POST /v1/detect: 检测音频文件的语言。
    • 可选参数:model
    • Body:原始音频数据。
  • OPTIONS /v1/detect: 检索检测路由的可用选项。
  • GET /v1/download/<job_id>: 检索请求的输出格式的已完成转录。
    • 可选参数:output (json, timecode_txt, txt, vtt, srt)。
  • OPTIONS /v1/download/<job_id>: 检索下载路由的可用选项。
  • GET /v1/jobs/<job_id>: 检索指定作业的状态和元数据。
  • GET /v1/queue: 检索队列的当前长度。

Webhook 集成

WAAS 支持 webhook 通知。在成功或失败的转录后,将向配置的 webhook URL 发送带有 JSON payload 和用于内容验证的 X-WAAS-Signature 标头的 POST 请求。

WAAS 适用于谁?

  • 需要转录访谈或讲座的研究人员。
  • 处理音频或视频内容的新闻记者。
  • 将转录服务集成到其应用程序中的开发人员。
  • 任何需要快速准确地转录音频或视频文件的人。

安装

要安装和运行 WAAS,请按照以下步骤操作:

  1. 克隆存储库。
  2. 创建一个虚拟环境。
  3. 使用 pip install -r requirements.txt 安装所需的 Python 包。
  4. 配置环境变量,例如 BASE_URLEMAIL_SENDER_ADDRESSEMAIL_SENDER_PASSWORDEMAIL_SENDER_HOST
  5. 使用 Docker Compose 运行设置。

使用 Docker Compose 运行

  1. 创建一个包含必要环境变量的 .envrc 文件。
  2. 添加一个 allowed_webhooks.json 文件(如果使用 webhooks),其中包含有效的 webhook URL 和令牌。
  3. 运行 docker-compose --env-file .envrc up

使用 NVIDIA CUDA

要使用 NVIDIA CUDA 启用 GPU 加速:

  1. 安装 NVIDIA Docker。
  2. 编辑 docker-compose.yml 文件以使用 Dockerfile.gpu 并取消注释设备预留。
  3. 运行 docker-compose --env-file .envrc up

为什么选择 WAAS?

WAAS 提供了一个用户友好的界面和 API,用于利用 OpenAI 的 Whisper 模型。它的功能(如电子邮件通知、多种输出格式和本地浏览器编辑)使其成为音频和视频转录需求的便捷高效的解决方案。在本地运行或通过 API 集成到现有系统中的灵活性使其成为各种用例的多功能工具。

总之,WAAS 是任何希望快速准确地转录音频或视频内容的人的宝贵工具。其开源性质和易用性使其成为个人和专业用途的绝佳选择。

"WAAS"的最佳替代工具

Buzz Captions
暂无图片
61 0

Buzz Captions 是一款离线音频转录和翻译工具,由 OpenAI 的 Whisper 提供支持。 它支持各种音频/视频格式,并导出为 CSV、SRT、TXT 和 VTT。

音频转录
语音转文本
离线翻译
Neurond AI Voice Model Implementation
暂无图片
92 0

使用 Neurond AI 的语音模型实现,通过高质量的文本转语音和语音转文本模型,增强通信体验,实现准确自然的计算机人机交互。

文本转语音
语音转文本
语音AI
Transcript LOL
暂无图片
156 0

Transcript LOL提供AI驱动的音频和视频转录,具有高精度、说话人识别和无限分钟数。非常适合内容创作者、研究人员和企业。

AI转录
语音转文本
视频转录
TurboScribe
暂无图片
162 0

TurboScribe提供无限AI驱动的音频和视频转录,支持98+语言,准确率达99.8%。几秒钟内转录文件,生成字幕,并支持扬声器识别—每天3个免费转录开始。

音频转录
视频字幕
扬声器识别
VoicePen
暂无图片
149 0

VoicePen 是一款 AI 驱动的笔记记录器,可将语音转录为文本,总结会议、讲座和备忘录成智能笔记。支持离线录制,导出为 PDF/DOC,并与 Notion 集成以提升生产力。

语音转录
AI 摘要
会议笔记
Speech Studio
暂无图片
181 0

Azure AI Speech Studio 为开发者提供语音转文本、文本转语音和翻译工具。探索自定义模型、语音头像和实时转录功能,以提升应用的可用性和互动性。

语音转录
语音合成
自定义模型
Whisper API
暂无图片
148 0

Whisper API:经济实惠的音频转录 API,由 OpenAI 提供支持。易于集成,支持说话人检测,支持 100 多种语言。提供免费试用!

音频转录 API
语音转文本
AccurateScribe.ai
暂无图片
265 0

使用 AccurateScribe.ai 将音频和视频转换为文本,准确率高达 99.8%。转录 134 多种语言并以各种格式导出。立即开始您的免费试用!

AI转录
语音转文本
音频转文本
superwhisper
暂无图片
382 0

Superwhisper是一款AI语音转文本应用,适用于macOS和iPhone,能够实现更快的打字速度,并与任何应用程序无缝集成。转录音频和视频,翻译语言,提高工作效率。

语音转录
语音转文本
人工智能
Hello Transcribe
暂无图片
263 0

Hello Transcribe:使用OpenAI Whisper的私有语音转文本转录器,可离线工作并将结果加密在iCloud中。

语音转文本
转录
离线
SubEasy
暂无图片
496 0

SubEasy.ai提供AI驱动的自动转录和翻译服务,具有高精度、上下文感知AI,并支持100多种语言。

AI转录
视频字幕
AI翻译
Yescribe.ai
暂无图片
301 0

Yescribe.ai提供由AI驱动的音频/视频转文本转录服务,支持98+种语言,准确率高达99.9%。

音频转文本
视频转文本
转录
I ♡ Transcriptions
暂无图片
211 0

无限量的西班牙语、英语和日语音频和视频转录。 可以下载各种文本格式。

转录
语音转文本
音频
WhisperUI
暂无图片
330 0

WhisperUI 使用 OpenAI Whisper 提供经济实惠的语音转文本转换。轻松将音频文件转换为文本和 SRT 格式。立即开始使用免费帐户!

音频转录
语音识别