WAAS 概述
WAAS: Whisper as a Service - OpenAI Whisper 的 GUI 和 API
WAAS(Whisper as a Service)是一个开源项目,为 OpenAI 的 Whisper 提供 GUI 和 API,使音频和视频转录更加容易访问和用户友好。它提供了一个图形用户界面 (GUI),方便文件上传和转录,以及一个用于编程访问的 API。
什么是 WAAS?
WAAS 提供了一个上传和转录音频或视频文件的界面。转录完成后,用户将收到一封电子邮件,其中包含各种格式的转录下载链接,包括 Jojo 文件、SRT 或纯文本。一个关键特性是基于本地浏览器的编辑器,用于纠正转录错误。
主要特性
- 用于上传和转录的 GUI: 简单的界面,用于上传音频和视频文件。
- 电子邮件通知: 转录后接收包含下载链接的电子邮件通知。
- 多种输出格式: 下载 Jojo 文件、SRT 或纯文本格式的转录。
- 本地浏览器编辑器: 在浏览器中更正转录错误。
- API 访问: 通过 API 以编程方式访问转录服务。
WAAS 如何工作?
WAAS 允许用户通过 GUI(名为 Jojo)或通过 API 上传音频或视频文件。然后使用 OpenAI 的 Whisper 模型处理上传的文件以进行转录。转录完成后,用户将收到一封电子邮件,其中包含下载各种格式转录的链接。基于浏览器的编辑器允许用户在保存最终结果之前,改进和更正转录中的任何错误。
API 文档
WAAS API 提供了多个用于转录和相关任务的端点:
- POST /v1/transcribe: 向队列添加新的转录作业。
- 必需参数:
email_callback或webhook_id。 - 可选参数:
language、model、task、filename。 - Body:原始音频数据。
- 必需参数:
- OPTIONS /v1/transcribe: 检索转录路由的可用选项。
- POST /v1/detect: 检测音频文件的语言。
- 可选参数:
model。 - Body:原始音频数据。
- 可选参数:
- OPTIONS /v1/detect: 检索检测路由的可用选项。
- GET /v1/download/<job_id>: 检索请求的输出格式的已完成转录。
- 可选参数:
output(json, timecode_txt, txt, vtt, srt)。
- 可选参数:
- OPTIONS /v1/download/<job_id>: 检索下载路由的可用选项。
- GET /v1/jobs/<job_id>: 检索指定作业的状态和元数据。
- GET /v1/queue: 检索队列的当前长度。
Webhook 集成
WAAS 支持 webhook 通知。在成功或失败的转录后,将向配置的 webhook URL 发送带有 JSON payload 和用于内容验证的 X-WAAS-Signature 标头的 POST 请求。
WAAS 适用于谁?
- 需要转录访谈或讲座的研究人员。
- 处理音频或视频内容的新闻记者。
- 将转录服务集成到其应用程序中的开发人员。
- 任何需要快速准确地转录音频或视频文件的人。
安装
要安装和运行 WAAS,请按照以下步骤操作:
- 克隆存储库。
- 创建一个虚拟环境。
- 使用
pip install -r requirements.txt安装所需的 Python 包。 - 配置环境变量,例如
BASE_URL、EMAIL_SENDER_ADDRESS、EMAIL_SENDER_PASSWORD和EMAIL_SENDER_HOST。 - 使用 Docker Compose 运行设置。
使用 Docker Compose 运行
- 创建一个包含必要环境变量的
.envrc文件。 - 添加一个
allowed_webhooks.json文件(如果使用 webhooks),其中包含有效的 webhook URL 和令牌。 - 运行
docker-compose --env-file .envrc up。
使用 NVIDIA CUDA
要使用 NVIDIA CUDA 启用 GPU 加速:
- 安装 NVIDIA Docker。
- 编辑
docker-compose.yml文件以使用Dockerfile.gpu并取消注释设备预留。 - 运行
docker-compose --env-file .envrc up。
为什么选择 WAAS?
WAAS 提供了一个用户友好的界面和 API,用于利用 OpenAI 的 Whisper 模型。它的功能(如电子邮件通知、多种输出格式和本地浏览器编辑)使其成为音频和视频转录需求的便捷高效的解决方案。在本地运行或通过 API 集成到现有系统中的灵活性使其成为各种用例的多功能工具。
总之,WAAS 是任何希望快速准确地转录音频或视频内容的人的宝贵工具。其开源性质和易用性使其成为个人和专业用途的绝佳选择。
"WAAS"的最佳替代工具
Buzz Captions 是一款离线音频转录和翻译工具,由 OpenAI 的 Whisper 提供支持。 它支持各种音频/视频格式,并导出为 CSV、SRT、TXT 和 VTT。
使用 Neurond AI 的语音模型实现,通过高质量的文本转语音和语音转文本模型,增强通信体验,实现准确自然的计算机人机交互。
Transcript LOL提供AI驱动的音频和视频转录,具有高精度、说话人识别和无限分钟数。非常适合内容创作者、研究人员和企业。
TurboScribe提供无限AI驱动的音频和视频转录,支持98+语言,准确率达99.8%。几秒钟内转录文件,生成字幕,并支持扬声器识别—每天3个免费转录开始。
VoicePen 是一款 AI 驱动的笔记记录器,可将语音转录为文本,总结会议、讲座和备忘录成智能笔记。支持离线录制,导出为 PDF/DOC,并与 Notion 集成以提升生产力。
Azure AI Speech Studio 为开发者提供语音转文本、文本转语音和翻译工具。探索自定义模型、语音头像和实时转录功能,以提升应用的可用性和互动性。
Whisper API:经济实惠的音频转录 API,由 OpenAI 提供支持。易于集成,支持说话人检测,支持 100 多种语言。提供免费试用!
使用 AccurateScribe.ai 将音频和视频转换为文本,准确率高达 99.8%。转录 134 多种语言并以各种格式导出。立即开始您的免费试用!
Superwhisper是一款AI语音转文本应用,适用于macOS和iPhone,能够实现更快的打字速度,并与任何应用程序无缝集成。转录音频和视频,翻译语言,提高工作效率。
WhisperUI 使用 OpenAI Whisper 提供经济实惠的语音转文本转换。轻松将音频文件转换为文本和 SRT 格式。立即开始使用免费帐户!