WAAS: Whisper as a Service - OpenAI Whisper的GUI和API

WAAS 概述

WAAS: Whisper as a Service - OpenAI Whisper 的 GUI 和 API

WAAS（Whisper as a Service）是一个开源项目，为 OpenAI 的 Whisper 提供 GUI 和 API，使音频和视频转录更加容易访问和用户友好。它提供了一个图形用户界面 (GUI)，方便文件上传和转录，以及一个用于编程访问的 API。

什么是 WAAS?

WAAS 提供了一个上传和转录音频或视频文件的界面。转录完成后，用户将收到一封电子邮件，其中包含各种格式的转录下载链接，包括 Jojo 文件、SRT 或纯文本。一个关键特性是基于本地浏览器的编辑器，用于纠正转录错误。

主要特性

用于上传和转录的 GUI：简单的界面，用于上传音频和视频文件。
电子邮件通知：转录后接收包含下载链接的电子邮件通知。
多种输出格式：下载 Jojo 文件、SRT 或纯文本格式的转录。
本地浏览器编辑器：在浏览器中更正转录错误。
API 访问：通过 API 以编程方式访问转录服务。

WAAS 如何工作？

WAAS 允许用户通过 GUI（名为 Jojo）或通过 API 上传音频或视频文件。然后使用 OpenAI 的 Whisper 模型处理上传的文件以进行转录。转录完成后，用户将收到一封电子邮件，其中包含下载各种格式转录的链接。基于浏览器的编辑器允许用户在保存最终结果之前，改进和更正转录中的任何错误。

API 文档

WAAS API 提供了多个用于转录和相关任务的端点：

POST /v1/transcribe：向队列添加新的转录作业。
- 必需参数：email_callback 或 webhook_id。
- 可选参数：language、model、task、filename。
- Body：原始音频数据。
OPTIONS /v1/transcribe：检索转录路由的可用选项。
POST /v1/detect：检测音频文件的语言。
- 可选参数：model。
- Body：原始音频数据。
OPTIONS /v1/detect：检索检测路由的可用选项。
GET /v1/download/<job_id>：检索请求的输出格式的已完成转录。
- 可选参数：output (json, timecode_txt, txt, vtt, srt)。
OPTIONS /v1/download/<job_id>：检索下载路由的可用选项。
GET /v1/jobs/<job_id>：检索指定作业的状态和元数据。
GET /v1/queue：检索队列的当前长度。

Webhook 集成

WAAS 支持 webhook 通知。在成功或失败的转录后，将向配置的 webhook URL 发送带有 JSON payload 和用于内容验证的 X-WAAS-Signature 标头的 POST 请求。

WAAS 适用于谁？

需要转录访谈或讲座的研究人员。
处理音频或视频内容的新闻记者。
将转录服务集成到其应用程序中的开发人员。
任何需要快速准确地转录音频或视频文件的人。

安装

要安装和运行 WAAS，请按照以下步骤操作：

克隆存储库。
创建一个虚拟环境。
使用 pip install -r requirements.txt 安装所需的 Python 包。
配置环境变量，例如 BASE_URL、EMAIL_SENDER_ADDRESS、EMAIL_SENDER_PASSWORD 和 EMAIL_SENDER_HOST。
使用 Docker Compose 运行设置。

使用 Docker Compose 运行

创建一个包含必要环境变量的 .envrc 文件。
添加一个 allowed_webhooks.json 文件（如果使用 webhooks），其中包含有效的 webhook URL 和令牌。
运行 docker-compose --env-file .envrc up。

使用 NVIDIA CUDA

要使用 NVIDIA CUDA 启用 GPU 加速：

安装 NVIDIA Docker。
编辑 docker-compose.yml 文件以使用 Dockerfile.gpu 并取消注释设备预留。
运行 docker-compose --env-file .envrc up。

为什么选择 WAAS？

WAAS 提供了一个用户友好的界面和 API，用于利用 OpenAI 的 Whisper 模型。它的功能（如电子邮件通知、多种输出格式和本地浏览器编辑）使其成为音频和视频转录需求的便捷高效的解决方案。在本地运行或通过 API 集成到现有系统中的灵活性使其成为各种用例的多功能工具。

总之，WAAS 是任何希望快速准确地转录音频或视频内容的人的宝贵工具。其开源性质和易用性使其成为个人和专业用途的绝佳选择。

推荐目录

AI语音合成 AI语音变声 AI音乐创作语音转文本 AI语音客服与语音助手播客与视频配音

更多分类 ...

"WAAS"的最佳替代工具

WhisperAPI

153 0

WhisperAPI 提供由 OpenAI Whisper 驱动的快速准确的视频和音频转录 API。每天获取 5 次免费转录。支持多种格式、慷慨的限制和隐私优先的方法。

音频转录

视频转录

语音转文本

Whisper API

364 0

Whisper API：经济实惠的音频转录 API，由 OpenAI 提供支持。易于集成，支持说话人检测，支持 100 多种语言。提供免费试用！

音频转录 API

语音转文本

WhisperUI

521 0

WhisperUI 使用 OpenAI Whisper 提供经济实惠的语音转文本转换。轻松将音频文件转换为文本和 SRT 格式。立即开始使用免费帐户！

音频转录

语音识别

Buzz Captions

604 0

Buzz Captions 是一款离线音频转录和翻译工具，由 OpenAI 的 Whisper 提供支持。它支持各种音频/视频格式，并导出为 CSV、SRT、TXT 和 VTT。

音频转录

语音转文本

离线翻译

Speech Studio

463 0

Azure AI Speech Studio 为开发者提供语音转文本、文本转语音和翻译工具。探索自定义模型、语音头像和实时转录功能，以提升应用的可用性和互动性。

语音转录

语音合成

自定义模型

Lemonfox.ai Speech-To-Text API

235 0

Lemonfox.ai 的语音转文本 API 可以经济高效地快速转录音频文件。它支持 100 多种语言、说话者识别，并提供高精度和安全的数据处理。免费试用一个月！

语音转文本

转录

音频分析

superwhisper

638 0

Superwhisper是一款AI语音转文本应用，适用于macOS和iPhone，能够实现更快的打字速度，并与任何应用程序无缝集成。转录音频和视频，翻译语言，提高工作效率。

语音转录

语音转文本

人工智能

AIverse

99 0

AIverse是一个一体化平台，提供数千AI模型访问，用于图像/视频生成、大语言模型、语音转文本、音乐创作等。每月20美元无限使用，易集成。

图像放大

背景移除

语音合成

Neurond AI Voice Model Implementation

350 0

使用 Neurond AI 的语音模型实现，通过高质量的文本转语音和语音转文本模型，增强通信体验，实现准确自然的计算机人机交互。

文本转语音

语音转文本

语音AI

TurboScribe

478 0

TurboScribe提供无限AI驱动的音频和视频转录，支持98+语言，准确率达99.8%。几秒钟内转录文件，生成字幕，并支持扬声器识别—每天3个免费转录开始。

音频转录

视频字幕

扬声器识别

I ♡ Transcriptions

373 0

无限量的西班牙语、英语和日语音频和视频转录。可以下载各种文本格式。

转录

语音转文本

音频

Yescribe.ai

448 0

Yescribe.ai 是一项 AI 驱动的转录服务，可将音频和视频转换为文本，准确率高达 99.9%，并支持 98 多种语言。它为各行各业提供快速、安全且经济实惠的转录解决方案。

音频转录

视频转录

语音转文本

Transcript LOL

429 0

Transcript LOL提供AI驱动的音频和视频转录，具有高精度、说话人识别和无限分钟数。非常适合内容创作者、研究人员和企业。

AI转录

语音转文本

视频转录

SubEasy

720 0

SubEasy.ai提供AI驱动的自动转录和翻译服务，具有高精度、上下文感知AI，并支持100多种语言。

AI转录

视频字幕

AI翻译

添加到收藏夹

编辑收藏

WAAS

WAAS 概述