WAAS: Whisper as a Service - OpenAI Whisper的GUI和API

WAAS

3.5 | 266 | 0
类型:
开源项目
最后更新:
2025/10/14
资源描述:
WAAS (Whisper as a Service) 是一个开源的 GUI 和 API,用于 OpenAI 的 Whisper,能够通过电子邮件通知和本地浏览器编辑器轻松进行音频和视频转录。
分享:
语音转文本
音频转录
视频转录
Whisper API
OpenAI

WAAS 概述

WAAS: Whisper as a Service - OpenAI Whisper 的 GUI 和 API

WAAS(Whisper as a Service)是一个开源项目,为 OpenAI 的 Whisper 提供 GUI 和 API,使音频和视频转录更加容易访问和用户友好。它提供了一个图形用户界面 (GUI),方便文件上传和转录,以及一个用于编程访问的 API。

什么是 WAAS?

WAAS 提供了一个上传和转录音频或视频文件的界面。转录完成后,用户将收到一封电子邮件,其中包含各种格式的转录下载链接,包括 Jojo 文件、SRT 或纯文本。一个关键特性是基于本地浏览器的编辑器,用于纠正转录错误。

主要特性

  • 用于上传和转录的 GUI: 简单的界面,用于上传音频和视频文件。
  • 电子邮件通知: 转录后接收包含下载链接的电子邮件通知。
  • 多种输出格式: 下载 Jojo 文件、SRT 或纯文本格式的转录。
  • 本地浏览器编辑器: 在浏览器中更正转录错误。
  • API 访问: 通过 API 以编程方式访问转录服务。

WAAS 如何工作?

WAAS 允许用户通过 GUI(名为 Jojo)或通过 API 上传音频或视频文件。然后使用 OpenAI 的 Whisper 模型处理上传的文件以进行转录。转录完成后,用户将收到一封电子邮件,其中包含下载各种格式转录的链接。基于浏览器的编辑器允许用户在保存最终结果之前,改进和更正转录中的任何错误。

API 文档

WAAS API 提供了多个用于转录和相关任务的端点:

  • POST /v1/transcribe: 向队列添加新的转录作业。
    • 必需参数:email_callbackwebhook_id
    • 可选参数:languagemodeltaskfilename
    • Body:原始音频数据。
  • OPTIONS /v1/transcribe: 检索转录路由的可用选项。
  • POST /v1/detect: 检测音频文件的语言。
    • 可选参数:model
    • Body:原始音频数据。
  • OPTIONS /v1/detect: 检索检测路由的可用选项。
  • GET /v1/download/<job_id>: 检索请求的输出格式的已完成转录。
    • 可选参数:output (json, timecode_txt, txt, vtt, srt)。
  • OPTIONS /v1/download/<job_id>: 检索下载路由的可用选项。
  • GET /v1/jobs/<job_id>: 检索指定作业的状态和元数据。
  • GET /v1/queue: 检索队列的当前长度。

Webhook 集成

WAAS 支持 webhook 通知。在成功或失败的转录后,将向配置的 webhook URL 发送带有 JSON payload 和用于内容验证的 X-WAAS-Signature 标头的 POST 请求。

WAAS 适用于谁?

  • 需要转录访谈或讲座的研究人员。
  • 处理音频或视频内容的新闻记者。
  • 将转录服务集成到其应用程序中的开发人员。
  • 任何需要快速准确地转录音频或视频文件的人。

安装

要安装和运行 WAAS,请按照以下步骤操作:

  1. 克隆存储库。
  2. 创建一个虚拟环境。
  3. 使用 pip install -r requirements.txt 安装所需的 Python 包。
  4. 配置环境变量,例如 BASE_URLEMAIL_SENDER_ADDRESSEMAIL_SENDER_PASSWORDEMAIL_SENDER_HOST
  5. 使用 Docker Compose 运行设置。

使用 Docker Compose 运行

  1. 创建一个包含必要环境变量的 .envrc 文件。
  2. 添加一个 allowed_webhooks.json 文件(如果使用 webhooks),其中包含有效的 webhook URL 和令牌。
  3. 运行 docker-compose --env-file .envrc up

使用 NVIDIA CUDA

要使用 NVIDIA CUDA 启用 GPU 加速:

  1. 安装 NVIDIA Docker。
  2. 编辑 docker-compose.yml 文件以使用 Dockerfile.gpu 并取消注释设备预留。
  3. 运行 docker-compose --env-file .envrc up

为什么选择 WAAS?

WAAS 提供了一个用户友好的界面和 API,用于利用 OpenAI 的 Whisper 模型。它的功能(如电子邮件通知、多种输出格式和本地浏览器编辑)使其成为音频和视频转录需求的便捷高效的解决方案。在本地运行或通过 API 集成到现有系统中的灵活性使其成为各种用例的多功能工具。

总之,WAAS 是任何希望快速准确地转录音频或视频内容的人的宝贵工具。其开源性质和易用性使其成为个人和专业用途的绝佳选择。

"WAAS"的最佳替代工具

WhisperAPI
暂无图片
153 0

WhisperAPI 提供由 OpenAI Whisper 驱动的快速准确的视频和音频转录 API。每天获取 5 次免费转录。支持多种格式、慷慨的限制和隐私优先的方法。

音频转录
视频转录
语音转文本
Whisper API
暂无图片
364 0

Whisper API:经济实惠的音频转录 API,由 OpenAI 提供支持。易于集成,支持说话人检测,支持 100 多种语言。提供免费试用!

音频转录 API
语音转文本
WhisperUI
暂无图片
521 0

WhisperUI 使用 OpenAI Whisper 提供经济实惠的语音转文本转换。轻松将音频文件转换为文本和 SRT 格式。立即开始使用免费帐户!

音频转录
语音识别
Buzz Captions
暂无图片
604 0

Buzz Captions 是一款离线音频转录和翻译工具,由 OpenAI 的 Whisper 提供支持。 它支持各种音频/视频格式,并导出为 CSV、SRT、TXT 和 VTT。

音频转录
语音转文本
离线翻译
Speech Studio
暂无图片
463 0

Azure AI Speech Studio 为开发者提供语音转文本、文本转语音和翻译工具。探索自定义模型、语音头像和实时转录功能,以提升应用的可用性和互动性。

语音转录
语音合成
自定义模型
Lemonfox.ai Speech-To-Text API
暂无图片
235 0

Lemonfox.ai 的语音转文本 API 可以经济高效地快速转录音频文件。它支持 100 多种语言、说话者识别,并提供高精度和安全的数据处理。免费试用一个月!

语音转文本
转录
音频分析
superwhisper
暂无图片
638 0

Superwhisper是一款AI语音转文本应用,适用于macOS和iPhone,能够实现更快的打字速度,并与任何应用程序无缝集成。转录音频和视频,翻译语言,提高工作效率。

语音转录
语音转文本
人工智能
AIverse
暂无图片
99 0

AIverse是一个一体化平台,提供数千AI模型访问,用于图像/视频生成、大语言模型、语音转文本、音乐创作等。每月20美元无限使用,易集成。

图像放大
背景移除
语音合成
Neurond AI Voice Model Implementation
暂无图片
350 0

使用 Neurond AI 的语音模型实现,通过高质量的文本转语音和语音转文本模型,增强通信体验,实现准确自然的计算机人机交互。

文本转语音
语音转文本
语音AI
TurboScribe
暂无图片
478 0

TurboScribe提供无限AI驱动的音频和视频转录,支持98+语言,准确率达99.8%。几秒钟内转录文件,生成字幕,并支持扬声器识别—每天3个免费转录开始。

音频转录
视频字幕
扬声器识别
I ♡ Transcriptions
暂无图片
373 0

无限量的西班牙语、英语和日语音频和视频转录。 可以下载各种文本格式。

转录
语音转文本
音频
Yescribe.ai
暂无图片
448 0

Yescribe.ai 是一项 AI 驱动的转录服务,可将音频和视频转换为文本,准确率高达 99.9%,并支持 98 多种语言。它为各行各业提供快速、安全且经济实惠的转录解决方案。

音频转录
视频转录
语音转文本
Transcript LOL
暂无图片
429 0

Transcript LOL提供AI驱动的音频和视频转录,具有高精度、说话人识别和无限分钟数。非常适合内容创作者、研究人员和企业。

AI转录
语音转文本
视频转录
SubEasy
暂无图片
720 0

SubEasy.ai提供AI驱动的自动转录和翻译服务,具有高精度、上下文感知AI,并支持100多种语言。

AI转录
视频字幕
AI翻译