WAAS: Whisper as a Service - GUI y API para OpenAI Whisper

WAAS

3.5 | 69 | 0
Tipo:
Proyectos de Código Abierto
Última actualización:
2025/10/14
Descripción:
WAAS (Whisper as a Service) es una GUI y API de código abierto para Whisper de OpenAI, que permite una fácil transcripción de audio y video con notificaciones por correo electrónico y un editor local basado en navegador.
Compartir:
voz a texto
transcripción de audio
transcripción de vídeo
Whisper API
OpenAI

Descripción general de WAAS

WAAS: Whisper como Servicio - GUI y API para OpenAI Whisper

WAAS (Whisper as a Service) es un proyecto de código abierto que proporciona una GUI y una API para Whisper de OpenAI, haciendo que la transcripción de audio y video sea más accesible y fácil de usar. Ofrece tanto una interfaz gráfica de usuario (GUI) para facilitar la carga y transcripción de archivos, como una API para el acceso programático.

¿Qué es WAAS?

WAAS proporciona una interfaz para cargar y transcribir archivos de audio o video. Después de la transcripción, los usuarios reciben un correo electrónico con enlaces de descarga para la transcripción en varios formatos, incluyendo Jojo-file, SRT o texto plano. Una característica clave es el editor local basado en navegador para corregir errores de transcripción.

Características Principales

  • GUI para Carga y Transcripción: Interfaz sencilla para cargar archivos de audio y video.
  • Notificaciones por Correo Electrónico: Recibe notificaciones por correo electrónico con enlaces de descarga después de la transcripción.
  • Múltiples Formatos de Salida: Descarga transcripciones en formatos Jojo-file, SRT o texto plano.
  • Editor Local Basado en Navegador: Corrige errores de transcripción dentro del navegador.
  • Acceso a la API: Acceso programático a los servicios de transcripción a través de la API.

¿Cómo funciona WAAS?

WAAS permite a los usuarios cargar archivos de audio o video a través de una GUI (llamada Jojo) o a través de una API. El archivo cargado se procesa utilizando el modelo Whisper de OpenAI para la transcripción. Una vez que se completa la transcripción, el usuario recibe un correo electrónico con enlaces para descargar la transcripción en varios formatos. El editor basado en navegador permite a los usuarios refinar y corregir cualquier error en la transcripción antes de guardar el resultado final.

Documentación de la API

La API de WAAS proporciona varios endpoints para la transcripción y tareas relacionadas:

  • POST /v1/transcribe: Agrega un nuevo trabajo de transcripción a la cola.
    • Parámetros requeridos: email_callback o webhook_id.
    • Parámetros opcionales: language, model, task, filename.
    • Cuerpo: Datos de audio sin procesar.
  • OPTIONS /v1/transcribe: Recupera las opciones disponibles para la ruta de transcripción.
  • POST /v1/detect: Detecta el idioma del archivo de audio.
    • Parámetro opcional: model.
    • Cuerpo: Datos de audio sin procesar.
  • OPTIONS /v1/detect: Recupera las opciones disponibles para la ruta de detección.
  • GET /v1/download/<job_id>: Recupera la transcripción completa en el formato de salida solicitado.
    • Parámetro opcional: output (json, timecode_txt, txt, vtt, srt).
  • OPTIONS /v1/download/<job_id>: Recupera las opciones disponibles para la ruta de descarga.
  • GET /v1/jobs/<job_id>: Recupera el estado y los metadatos del trabajo especificado.
  • GET /v1/queue: Recupera la longitud actual de la cola.

Integración de Webhooks

WAAS admite notificaciones de webhook. Tras una transcripción exitosa o fallida, se envía una solicitud POST a la URL de webhook configurada con una carga JSON y un encabezado X-WAAS-Signature para la verificación del contenido.

¿Para quién es WAAS?

  • Investigadores que necesitan transcribir entrevistas o conferencias.
  • Periodistas que trabajan con contenido de audio o video.
  • Desarrolladores que integran servicios de transcripción en sus aplicaciones.
  • Cualquier persona que necesite transcribir archivos de audio o video de forma rápida y precisa.

Instalación

Para instalar y ejecutar WAAS, sigue estos pasos:

  1. Clona el repositorio.
  2. Crea un entorno virtual.
  3. Instala los paquetes de Python requeridos usando pip install -r requirements.txt.
  4. Configura variables de entorno como BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD y EMAIL_SENDER_HOST.
  5. Ejecuta la configuración usando Docker Compose.

Ejecutando con Docker Compose

  1. Crea un archivo .envrc con las variables de entorno necesarias.
  2. Agrega un archivo allowed_webhooks.json (si usas webhooks) con URLs y tokens de webhook válidos.
  3. Ejecuta docker-compose --env-file .envrc up.

Usando NVIDIA CUDA

Para habilitar la aceleración de GPU con NVIDIA CUDA:

  1. Instala NVIDIA Docker.
  2. Edita el archivo docker-compose.yml para usar Dockerfile.gpu y descomenta la reserva de dispositivos.
  3. Ejecuta docker-compose --env-file .envrc up.

¿Por qué elegir WAAS?

WAAS ofrece una interfaz fácil de usar y una API para aprovechar el modelo Whisper de OpenAI. Sus características, como las notificaciones por correo electrónico, los múltiples formatos de salida y la edición local basada en navegador, la convierten en una solución conveniente y eficiente para las necesidades de transcripción de audio y video. La flexibilidad para ejecutarlo localmente o integrarlo en sistemas existentes a través de la API lo convierte en una herramienta versátil para varios casos de uso.

En conclusión, WAAS es una herramienta valiosa para cualquiera que busque transcribir contenido de audio o video de forma rápida y precisa. Su naturaleza de código abierto y su facilidad de uso la convierten en una excelente opción tanto para uso personal como profesional.

Mejores herramientas alternativas a "WAAS"

Buzz Captions
Imagen no disponible
59 0

Buzz Captions es una herramienta de transcripción y traducción de audio sin conexión impulsada por Whisper de OpenAI. Admite varios formatos de audio/video y exporta a CSV, SRT, TXT y VTT.

transcripción de audio
voz a texto
Neurond AI Voice Model Implementation
Imagen no disponible
92 0

Mejore la comunicación con la implementación del modelo de voz de Neurond AI utilizando modelos de texto a voz y voz a texto de alta calidad para una interacción hombre-computadora precisa y natural.

texto a voz
voz a texto
IA de voz
Transcript LOL
Imagen no disponible
156 0

Transcript LOL proporciona transcripción de audio y video impulsada por IA con alta precisión, reconocimiento de hablantes y minutos ilimitados. Perfecto para creadores de contenido, investigadores y empresas.

transcripción de IA
voz a texto
TurboScribe
Imagen no disponible
162 0

TurboScribe ofrece transcripción ilimitada de audio y video con IA, 99.8% de precisión en más de 98 idiomas. Transcribe archivos en segundos, genera subtítulos y disfruta de reconocimiento de hablantes—comienza con 3 transcripciones gratuitas diarias.

transcripción de audio
VoicePen
Imagen no disponible
149 0

VoicePen es un tomador de notas impulsado por IA que transcribe voz a texto y resume reuniones, conferencias y memos en notas inteligentes. Graba sin conexión, exporta a PDF/DOC e intégrate con Notion para mayor productividad.

transcripción de voz
resúmenes IA
Speech Studio
Imagen no disponible
181 0

Azure AI Speech Studio capacita a los desarrolladores con herramientas de voz a texto, texto a voz y traducción. Explora funciones como modelos personalizados, avatares de voz y transcripción en tiempo real para mejorar la accesibilidad y el engagement de las apps.

transcripción de voz
síntesis de voz
WhisperTranscribe
Imagen no disponible
231 0

WhisperTranscribe utiliza IA para transcribir audio con precisión y generar contenido, incluyendo publicaciones en redes sociales, resúmenes y videoclips. ¡Pruébalo gratis!

audio a texto
transcripción de IA
AccurateScribe.ai
Imagen no disponible
265 0

Convierte audio y video a texto con un 99.8% de precisión de IA usando AccurateScribe.ai. Transcribe más de 134 idiomas y exporta en varios formatos. ¡Comienza tu prueba gratuita ahora!

transcripción de IA
voz a texto
superwhisper
Imagen no disponible
381 0

Superwhisper es una aplicación de voz a texto impulsada por IA para macOS y iPhone, que permite escribir más rápido y una integración perfecta con cualquier aplicación. Transcribe audio y video, traduce idiomas y aumenta la productividad.

transcripción de voz
voz a texto
IA
TranscriptionPlus
Imagen no disponible
328 0

TranscriptionPlus ofrece transcripción rápida y precisa impulsada por IA con hasta un 99% de precisión. Transcriba archivos de audio y video sin esfuerzo con identificación de hablantes, generación de resúmenes y extracción de temas.

transcripción de audio
voz a texto
Hello Transcribe
Imagen no disponible
263 0

Hello Transcribe: Transcriptor privado de voz a texto que utiliza OpenAI Whisper, funciona sin conexión y cifra los resultados en iCloud.

voz a texto
transcripción
SubEasy
Imagen no disponible
496 0

SubEasy.ai ofrece servicios de transcripción y traducción automática impulsados por IA con alta precisión, IA consciente del contexto y soporte para más de 100 idiomas.

Transcripción de IA
Yescribe.ai
Imagen no disponible
301 0

Yescribe.ai ofrece transcripción de audio/video a texto impulsada por IA con soporte para más de 98 idiomas y una precisión del 99.9%.

audio a texto
video a texto
WhisperUI
Imagen no disponible
329 0

WhisperUI proporciona una conversión de voz a texto asequible utilizando OpenAI Whisper. Convierte archivos de audio a formatos de texto y SRT fácilmente. ¡Comienza con una cuenta gratuita!

transcripción de audio