WAAS
Descripción general de WAAS
WAAS: Whisper como Servicio - GUI y API para OpenAI Whisper
WAAS (Whisper as a Service) es un proyecto de código abierto que proporciona una GUI y una API para Whisper de OpenAI, haciendo que la transcripción de audio y video sea más accesible y fácil de usar. Ofrece tanto una interfaz gráfica de usuario (GUI) para facilitar la carga y transcripción de archivos, como una API para el acceso programático.
¿Qué es WAAS?
WAAS proporciona una interfaz para cargar y transcribir archivos de audio o video. Después de la transcripción, los usuarios reciben un correo electrónico con enlaces de descarga para la transcripción en varios formatos, incluyendo Jojo-file, SRT o texto plano. Una característica clave es el editor local basado en navegador para corregir errores de transcripción.
Características Principales
- GUI para Carga y Transcripción: Interfaz sencilla para cargar archivos de audio y video.
- Notificaciones por Correo Electrónico: Recibe notificaciones por correo electrónico con enlaces de descarga después de la transcripción.
- Múltiples Formatos de Salida: Descarga transcripciones en formatos Jojo-file, SRT o texto plano.
- Editor Local Basado en Navegador: Corrige errores de transcripción dentro del navegador.
- Acceso a la API: Acceso programático a los servicios de transcripción a través de la API.
¿Cómo funciona WAAS?
WAAS permite a los usuarios cargar archivos de audio o video a través de una GUI (llamada Jojo) o a través de una API. El archivo cargado se procesa utilizando el modelo Whisper de OpenAI para la transcripción. Una vez que se completa la transcripción, el usuario recibe un correo electrónico con enlaces para descargar la transcripción en varios formatos. El editor basado en navegador permite a los usuarios refinar y corregir cualquier error en la transcripción antes de guardar el resultado final.
Documentación de la API
La API de WAAS proporciona varios endpoints para la transcripción y tareas relacionadas:
- POST /v1/transcribe: Agrega un nuevo trabajo de transcripción a la cola.
- Parámetros requeridos:
email_callbackowebhook_id. - Parámetros opcionales:
language,model,task,filename. - Cuerpo: Datos de audio sin procesar.
- Parámetros requeridos:
- OPTIONS /v1/transcribe: Recupera las opciones disponibles para la ruta de transcripción.
- POST /v1/detect: Detecta el idioma del archivo de audio.
- Parámetro opcional:
model. - Cuerpo: Datos de audio sin procesar.
- Parámetro opcional:
- OPTIONS /v1/detect: Recupera las opciones disponibles para la ruta de detección.
- GET /v1/download/<job_id>: Recupera la transcripción completa en el formato de salida solicitado.
- Parámetro opcional:
output(json, timecode_txt, txt, vtt, srt).
- Parámetro opcional:
- OPTIONS /v1/download/<job_id>: Recupera las opciones disponibles para la ruta de descarga.
- GET /v1/jobs/<job_id>: Recupera el estado y los metadatos del trabajo especificado.
- GET /v1/queue: Recupera la longitud actual de la cola.
Integración de Webhooks
WAAS admite notificaciones de webhook. Tras una transcripción exitosa o fallida, se envía una solicitud POST a la URL de webhook configurada con una carga JSON y un encabezado X-WAAS-Signature para la verificación del contenido.
¿Para quién es WAAS?
- Investigadores que necesitan transcribir entrevistas o conferencias.
- Periodistas que trabajan con contenido de audio o video.
- Desarrolladores que integran servicios de transcripción en sus aplicaciones.
- Cualquier persona que necesite transcribir archivos de audio o video de forma rápida y precisa.
Instalación
Para instalar y ejecutar WAAS, sigue estos pasos:
- Clona el repositorio.
- Crea un entorno virtual.
- Instala los paquetes de Python requeridos usando
pip install -r requirements.txt. - Configura variables de entorno como
BASE_URL,EMAIL_SENDER_ADDRESS,EMAIL_SENDER_PASSWORDyEMAIL_SENDER_HOST. - Ejecuta la configuración usando Docker Compose.
Ejecutando con Docker Compose
- Crea un archivo
.envrccon las variables de entorno necesarias. - Agrega un archivo
allowed_webhooks.json(si usas webhooks) con URLs y tokens de webhook válidos. - Ejecuta
docker-compose --env-file .envrc up.
Usando NVIDIA CUDA
Para habilitar la aceleración de GPU con NVIDIA CUDA:
- Instala NVIDIA Docker.
- Edita el archivo
docker-compose.ymlpara usarDockerfile.gpuy descomenta la reserva de dispositivos. - Ejecuta
docker-compose --env-file .envrc up.
¿Por qué elegir WAAS?
WAAS ofrece una interfaz fácil de usar y una API para aprovechar el modelo Whisper de OpenAI. Sus características, como las notificaciones por correo electrónico, los múltiples formatos de salida y la edición local basada en navegador, la convierten en una solución conveniente y eficiente para las necesidades de transcripción de audio y video. La flexibilidad para ejecutarlo localmente o integrarlo en sistemas existentes a través de la API lo convierte en una herramienta versátil para varios casos de uso.
En conclusión, WAAS es una herramienta valiosa para cualquiera que busque transcribir contenido de audio o video de forma rápida y precisa. Su naturaleza de código abierto y su facilidad de uso la convierten en una excelente opción tanto para uso personal como profesional.
Mejores herramientas alternativas a "WAAS"
Buzz Captions es una herramienta de transcripción y traducción de audio sin conexión impulsada por Whisper de OpenAI. Admite varios formatos de audio/video y exporta a CSV, SRT, TXT y VTT.
Mejore la comunicación con la implementación del modelo de voz de Neurond AI utilizando modelos de texto a voz y voz a texto de alta calidad para una interacción hombre-computadora precisa y natural.
Transcript LOL proporciona transcripción de audio y video impulsada por IA con alta precisión, reconocimiento de hablantes y minutos ilimitados. Perfecto para creadores de contenido, investigadores y empresas.
TurboScribe ofrece transcripción ilimitada de audio y video con IA, 99.8% de precisión en más de 98 idiomas. Transcribe archivos en segundos, genera subtítulos y disfruta de reconocimiento de hablantes—comienza con 3 transcripciones gratuitas diarias.
VoicePen es un tomador de notas impulsado por IA que transcribe voz a texto y resume reuniones, conferencias y memos en notas inteligentes. Graba sin conexión, exporta a PDF/DOC e intégrate con Notion para mayor productividad.
Azure AI Speech Studio capacita a los desarrolladores con herramientas de voz a texto, texto a voz y traducción. Explora funciones como modelos personalizados, avatares de voz y transcripción en tiempo real para mejorar la accesibilidad y el engagement de las apps.
WhisperTranscribe utiliza IA para transcribir audio con precisión y generar contenido, incluyendo publicaciones en redes sociales, resúmenes y videoclips. ¡Pruébalo gratis!
Convierte audio y video a texto con un 99.8% de precisión de IA usando AccurateScribe.ai. Transcribe más de 134 idiomas y exporta en varios formatos. ¡Comienza tu prueba gratuita ahora!
Superwhisper es una aplicación de voz a texto impulsada por IA para macOS y iPhone, que permite escribir más rápido y una integración perfecta con cualquier aplicación. Transcribe audio y video, traduce idiomas y aumenta la productividad.
TranscriptionPlus ofrece transcripción rápida y precisa impulsada por IA con hasta un 99% de precisión. Transcriba archivos de audio y video sin esfuerzo con identificación de hablantes, generación de resúmenes y extracción de temas.
Hello Transcribe: Transcriptor privado de voz a texto que utiliza OpenAI Whisper, funciona sin conexión y cifra los resultados en iCloud.
SubEasy.ai ofrece servicios de transcripción y traducción automática impulsados por IA con alta precisión, IA consciente del contexto y soporte para más de 100 idiomas.
Yescribe.ai ofrece transcripción de audio/video a texto impulsada por IA con soporte para más de 98 idiomas y una precisión del 99.9%.
WhisperUI proporciona una conversión de voz a texto asequible utilizando OpenAI Whisper. Convierte archivos de audio a formatos de texto y SRT fácilmente. ¡Comienza con una cuenta gratuita!