WAAS: Whisper as a Service - GUI y API para OpenAI Whisper

WAAS

3.5 | 262 | 0
Tipo:
Proyectos de Código Abierto
Última actualización:
2025/10/14
Descripción:
WAAS (Whisper as a Service) es una GUI y API de código abierto para Whisper de OpenAI, que permite una fácil transcripción de audio y video con notificaciones por correo electrónico y un editor local basado en navegador.
Compartir:
voz a texto
transcripción de audio
transcripción de vídeo
Whisper API
OpenAI

Descripción general de WAAS

WAAS: Whisper como Servicio - GUI y API para OpenAI Whisper

WAAS (Whisper as a Service) es un proyecto de código abierto que proporciona una GUI y una API para Whisper de OpenAI, haciendo que la transcripción de audio y video sea más accesible y fácil de usar. Ofrece tanto una interfaz gráfica de usuario (GUI) para facilitar la carga y transcripción de archivos, como una API para el acceso programático.

¿Qué es WAAS?

WAAS proporciona una interfaz para cargar y transcribir archivos de audio o video. Después de la transcripción, los usuarios reciben un correo electrónico con enlaces de descarga para la transcripción en varios formatos, incluyendo Jojo-file, SRT o texto plano. Una característica clave es el editor local basado en navegador para corregir errores de transcripción.

Características Principales

  • GUI para Carga y Transcripción: Interfaz sencilla para cargar archivos de audio y video.
  • Notificaciones por Correo Electrónico: Recibe notificaciones por correo electrónico con enlaces de descarga después de la transcripción.
  • Múltiples Formatos de Salida: Descarga transcripciones en formatos Jojo-file, SRT o texto plano.
  • Editor Local Basado en Navegador: Corrige errores de transcripción dentro del navegador.
  • Acceso a la API: Acceso programático a los servicios de transcripción a través de la API.

¿Cómo funciona WAAS?

WAAS permite a los usuarios cargar archivos de audio o video a través de una GUI (llamada Jojo) o a través de una API. El archivo cargado se procesa utilizando el modelo Whisper de OpenAI para la transcripción. Una vez que se completa la transcripción, el usuario recibe un correo electrónico con enlaces para descargar la transcripción en varios formatos. El editor basado en navegador permite a los usuarios refinar y corregir cualquier error en la transcripción antes de guardar el resultado final.

Documentación de la API

La API de WAAS proporciona varios endpoints para la transcripción y tareas relacionadas:

  • POST /v1/transcribe: Agrega un nuevo trabajo de transcripción a la cola.
    • Parámetros requeridos: email_callback o webhook_id.
    • Parámetros opcionales: language, model, task, filename.
    • Cuerpo: Datos de audio sin procesar.
  • OPTIONS /v1/transcribe: Recupera las opciones disponibles para la ruta de transcripción.
  • POST /v1/detect: Detecta el idioma del archivo de audio.
    • Parámetro opcional: model.
    • Cuerpo: Datos de audio sin procesar.
  • OPTIONS /v1/detect: Recupera las opciones disponibles para la ruta de detección.
  • GET /v1/download/<job_id>: Recupera la transcripción completa en el formato de salida solicitado.
    • Parámetro opcional: output (json, timecode_txt, txt, vtt, srt).
  • OPTIONS /v1/download/<job_id>: Recupera las opciones disponibles para la ruta de descarga.
  • GET /v1/jobs/<job_id>: Recupera el estado y los metadatos del trabajo especificado.
  • GET /v1/queue: Recupera la longitud actual de la cola.

Integración de Webhooks

WAAS admite notificaciones de webhook. Tras una transcripción exitosa o fallida, se envía una solicitud POST a la URL de webhook configurada con una carga JSON y un encabezado X-WAAS-Signature para la verificación del contenido.

¿Para quién es WAAS?

  • Investigadores que necesitan transcribir entrevistas o conferencias.
  • Periodistas que trabajan con contenido de audio o video.
  • Desarrolladores que integran servicios de transcripción en sus aplicaciones.
  • Cualquier persona que necesite transcribir archivos de audio o video de forma rápida y precisa.

Instalación

Para instalar y ejecutar WAAS, sigue estos pasos:

  1. Clona el repositorio.
  2. Crea un entorno virtual.
  3. Instala los paquetes de Python requeridos usando pip install -r requirements.txt.
  4. Configura variables de entorno como BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD y EMAIL_SENDER_HOST.
  5. Ejecuta la configuración usando Docker Compose.

Ejecutando con Docker Compose

  1. Crea un archivo .envrc con las variables de entorno necesarias.
  2. Agrega un archivo allowed_webhooks.json (si usas webhooks) con URLs y tokens de webhook válidos.
  3. Ejecuta docker-compose --env-file .envrc up.

Usando NVIDIA CUDA

Para habilitar la aceleración de GPU con NVIDIA CUDA:

  1. Instala NVIDIA Docker.
  2. Edita el archivo docker-compose.yml para usar Dockerfile.gpu y descomenta la reserva de dispositivos.
  3. Ejecuta docker-compose --env-file .envrc up.

¿Por qué elegir WAAS?

WAAS ofrece una interfaz fácil de usar y una API para aprovechar el modelo Whisper de OpenAI. Sus características, como las notificaciones por correo electrónico, los múltiples formatos de salida y la edición local basada en navegador, la convierten en una solución conveniente y eficiente para las necesidades de transcripción de audio y video. La flexibilidad para ejecutarlo localmente o integrarlo en sistemas existentes a través de la API lo convierte en una herramienta versátil para varios casos de uso.

En conclusión, WAAS es una herramienta valiosa para cualquiera que busque transcribir contenido de audio o video de forma rápida y precisa. Su naturaleza de código abierto y su facilidad de uso la convierten en una excelente opción tanto para uso personal como profesional.

Mejores herramientas alternativas a "WAAS"

WhisperAPI
Imagen no disponible
152 0

WhisperAPI ofrece una API de transcripción de audio y video rápida y precisa impulsada por OpenAI Whisper. Obtenga 5 transcripciones gratuitas diarias. Admite múltiples formatos, límites generosos y un enfoque de privacidad primero.

transcripción de audio
WhisperUI
Imagen no disponible
519 0

WhisperUI proporciona una conversión de voz a texto asequible utilizando OpenAI Whisper. Convierte archivos de audio a formatos de texto y SRT fácilmente. ¡Comienza con una cuenta gratuita!

transcripción de audio
Hello Transcribe
Imagen no disponible
411 0

Hello Transcribe: Transcriptor privado de voz a texto que utiliza OpenAI Whisper, funciona sin conexión y cifra los resultados en iCloud.

voz a texto
transcripción
Yescribe.ai
Imagen no disponible
448 0

Yescribe.ai es un servicio de transcripción impulsado por IA que convierte audio y video a texto con una precisión del 99,9%, y es compatible con más de 98 idiomas. Ofrece soluciones de transcripción rápidas, seguras y asequibles para diversas industrias.

transcripción de audio
TurboScribe
Imagen no disponible
478 0

TurboScribe ofrece transcripción ilimitada de audio y video con IA, 99.8% de precisión en más de 98 idiomas. Transcribe archivos en segundos, genera subtítulos y disfruta de reconocimiento de hablantes—comienza con 3 transcripciones gratuitas diarias.

transcripción de audio
Transcript LOL
Imagen no disponible
429 0

Transcript LOL proporciona transcripción de audio y video impulsada por IA con alta precisión, reconocimiento de hablantes y minutos ilimitados. Perfecto para creadores de contenido, investigadores y empresas.

transcripción de IA
voz a texto
SubEasy
Imagen no disponible
719 0

SubEasy.ai ofrece servicios de transcripción y traducción automática impulsados por IA con alta precisión, IA consciente del contexto y soporte para más de 100 idiomas.

Transcripción de IA
Speech Studio
Imagen no disponible
463 0

Azure AI Speech Studio capacita a los desarrolladores con herramientas de voz a texto, texto a voz y traducción. Explora funciones como modelos personalizados, avatares de voz y transcripción en tiempo real para mejorar la accesibilidad y el engagement de las apps.

transcripción de voz
síntesis de voz
Buzz Captions
Imagen no disponible
604 0

Buzz Captions es una herramienta de transcripción y traducción de audio sin conexión impulsada por Whisper de OpenAI. Admite varios formatos de audio/video y exporta a CSV, SRT, TXT y VTT.

transcripción de audio
voz a texto
AccurateScribe.ai
Imagen no disponible
477 0

Convierte audio y video a texto con un 99.8% de precisión de IA usando AccurateScribe.ai. Transcribe más de 134 idiomas y exporta en varios formatos. ¡Comienza tu prueba gratuita ahora!

transcripción de IA
voz a texto
Whisper Notes
Imagen no disponible
364 0

Whisper Notes es una aplicación offline de voz a texto para iOS/macOS, que utiliza Whisper AI para una transcripción privada y precisa. Soporta más de 80 idiomas, importación de archivos de audio y ofrece acceso de por vida con una compra única.

transcripción offline
voz a texto
TranscriptionPlus
Imagen no disponible
515 0

TranscriptionPlus ofrece transcripción rápida y precisa impulsada por IA con hasta un 99% de precisión. Transcriba archivos de audio y video sin esfuerzo con identificación de hablantes, generación de resúmenes y extracción de temas.

transcripción de audio
voz a texto
VoicePen
Imagen no disponible
459 0

VoicePen es un tomador de notas impulsado por IA que transcribe voz a texto y resume reuniones, conferencias y memos en notas inteligentes. Graba sin conexión, exporta a PDF/DOC e intégrate con Notion para mayor productividad.

transcripción de voz
resúmenes IA
superwhisper
Imagen no disponible
637 0

Superwhisper es una aplicación de voz a texto impulsada por IA para macOS y iPhone, que permite escribir más rápido y una integración perfecta con cualquier aplicación. Transcribe audio y video, traduce idiomas y aumenta la productividad.

transcripción de voz
voz a texto
IA