WAAS: Whisper as a Service - GUI e API para OpenAI Whisper

WAAS

3.5 | 249 | 0
Tipo:
Projetos de Código Aberto
Última atualização:
2025/10/14
Descrição:
WAAS (Whisper as a Service) é uma GUI e API de código aberto para o Whisper da OpenAI, permitindo uma fácil transcrição de áudio e vídeo com notificações por e-mail e um editor local baseado em navegador.
Compartilhar:
voz para texto
transcrição de áudio
transcrição de vídeo
Whisper API
OpenAI

Visão geral de WAAS

WAAS: Whisper como Serviço - GUI e API para OpenAI Whisper

WAAS (Whisper as a Service) é um projeto de código aberto que fornece uma GUI e API para o Whisper da OpenAI, tornando a transcrição de áudio e vídeo mais acessível e amigável. Ele oferece tanto uma interface gráfica de usuário (GUI) para facilitar o upload e transcrição de arquivos, quanto uma API para acesso programático.

O que é WAAS?

WAAS fornece uma interface para fazer upload e transcrever arquivos de áudio ou vídeo. Após a transcrição, os usuários recebem um e-mail com links para download da transcrição em vários formatos, incluindo Jojo-file, SRT ou texto simples. Um recurso importante é o editor local baseado em navegador para corrigir erros de transcrição.

Principais Recursos

  • GUI para Upload e Transcrição: Interface simples para fazer upload de arquivos de áudio e vídeo.
  • Notificações por E-mail: Receba notificações por e-mail com links para download após a transcrição.
  • Múltiplos Formatos de Saída: Baixe transcrições em formatos Jojo-file, SRT ou texto simples.
  • Editor Local Baseado em Navegador: Corrija erros de transcrição dentro do navegador.
  • Acesso à API: Acesso programático aos serviços de transcrição via API.

Como funciona o WAAS?

WAAS permite que os usuários façam upload de arquivos de áudio ou vídeo através de uma GUI (chamada Jojo) ou via API. O arquivo carregado é então processado usando o modelo Whisper da OpenAI para transcrição. Uma vez que a transcrição esteja completa, o usuário recebe um e-mail contendo links para baixar a transcrição em vários formatos. O editor baseado em navegador permite que os usuários refinem e corrijam quaisquer erros na transcrição antes de salvar o resultado final.

Documentação da API

A API WAAS fornece vários endpoints para transcrição e tarefas relacionadas:

  • POST /v1/transcribe: Adiciona um novo trabalho de transcrição à fila.
    • Parâmetros obrigatórios: email_callback ou webhook_id.
    • Parâmetros opcionais: language, model, task, filename.
    • Corpo: Dados de áudio brutos.
  • OPTIONS /v1/transcribe: Recupera as opções disponíveis para a rota de transcrição.
  • POST /v1/detect: Detecta o idioma do arquivo de áudio.
    • Parâmetro opcional: model.
    • Corpo: Dados de áudio brutos.
  • OPTIONS /v1/detect: Recupera as opções disponíveis para a rota de detecção.
  • GET /v1/download/<job_id>: Recupera a transcrição concluída no formato de saída solicitado.
    • Parâmetro opcional: output (json, timecode_txt, txt, vtt, srt).
  • OPTIONS /v1/download/<job_id>: Recupera as opções disponíveis para a rota de download.
  • GET /v1/jobs/<job_id>: Recupera o status e os metadados do trabalho especificado.
  • GET /v1/queue: Recupera o comprimento atual da fila.

Integração de Webhook

WAAS oferece suporte a notificações de webhook. Após uma transcrição bem-sucedida ou falhada, uma solicitação POST é enviada para o URL de webhook configurado com um payload JSON e um cabeçalho X-WAAS-Signature para verificação de conteúdo.

Para quem é o WAAS?

  • Pesquisadores que precisam transcrever entrevistas ou palestras.
  • Jornalistas que trabalham com conteúdo de áudio ou vídeo.
  • Desenvolvedores que integram serviços de transcrição em seus aplicativos.
  • Qualquer pessoa que precise transcrever arquivos de áudio ou vídeo de forma rápida e precisa.

Instalação

Para instalar e executar o WAAS, siga estas etapas:

  1. Clone o repositório.
  2. Crie um ambiente virtual.
  3. Instale os pacotes Python necessários usando pip install -r requirements.txt.
  4. Configure variáveis de ambiente como BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD e EMAIL_SENDER_HOST.
  5. Execute a configuração usando o Docker Compose.

Executando com Docker Compose

  1. Crie um arquivo .envrc com as variáveis de ambiente necessárias.
  2. Adicione um arquivo allowed_webhooks.json (se estiver usando webhooks) com URLs e tokens de webhook válidos.
  3. Execute docker-compose --env-file .envrc up.

Usando NVIDIA CUDA

Para habilitar a aceleração de GPU com NVIDIA CUDA:

  1. Instale o NVIDIA Docker.
  2. Edite o arquivo docker-compose.yml para usar o Dockerfile.gpu e remova o comentário da reserva do dispositivo.
  3. Execute docker-compose --env-file .envrc up.

Por que escolher o WAAS?

WAAS oferece uma interface amigável e uma API para aproveitar o modelo Whisper da OpenAI. Seus recursos, como notificações por e-mail, múltiplos formatos de saída e edição local baseada em navegador, tornam-no uma solução conveniente e eficiente para necessidades de transcrição de áudio e vídeo. A flexibilidade para executá-lo localmente ou integrá-lo em sistemas existentes através da API o torna uma ferramenta versátil para vários casos de uso.

Em conclusão, o WAAS é uma ferramenta valiosa para quem procura transcrever conteúdo de áudio ou vídeo de forma rápida e precisa. Sua natureza de código aberto e facilidade de uso o tornam uma excelente escolha para uso pessoal e profissional.

Melhores ferramentas alternativas para "WAAS"

WhisperUI
Imagem não disponível
507 0

WhisperUI fornece conversão de voz para texto acessível usando OpenAI Whisper. Converta arquivos de áudio para formatos de texto e SRT facilmente. Comece com uma conta gratuita!

transcrição de áudio
Transcript LOL
Imagem não disponível
416 0

Transcript LOL fornece transcrição de áudio e vídeo com tecnologia de IA com alta precisão, reconhecimento de locutores e minutos ilimitados. Perfeito para criadores de conteúdo, pesquisadores e empresas.

transcrição de IA
voz para texto
Whisper Notes
Imagem não disponível
346 0

Whisper Notes é um aplicativo offline de voz para texto para iOS/macOS, utilizando Whisper AI para transcrição privada e precisa. Ele suporta mais de 80 idiomas, importação de arquivos de áudio e oferece acesso vitalício com uma compra única.

transcrição offline
voz para texto
Buzz Captions
Imagem não disponível
588 0

Buzz Captions é uma ferramenta de transcrição e tradução de áudio offline alimentada por Whisper da OpenAI. Ele suporta vários formatos de áudio/vídeo e exporta para CSV, SRT, TXT e VTT.

transcrição de áudio
voz para texto
WhisperAPI
Imagem não disponível
139 0

WhisperAPI oferece uma API de transcrição de áudio e vídeo rápida e precisa, alimentada pelo OpenAI Whisper. Obtenha 5 transcrições gratuitas diariamente. Suporta vários formatos, limites generosos e uma abordagem de privacidade em primeiro lugar.

transcrição de áudio
Hello Transcribe
Imagem não disponível
389 0

Hello Transcribe: Transcritor privado de fala para texto usando OpenAI Whisper, funciona offline e criptografa os resultados no iCloud.

voz para texto
transcrição
offline
VoicePen
Imagem não disponível
451 0

VoicePen é um gravador de notas alimentado por IA que transcreve voz para texto e resume reuniões, palestras e memos em notas inteligentes. Grave offline, exporte para PDF/DOC e integre com Notion para maior produtividade.

transcrição de voz
resumos IA
TranscriptionPlus
Imagem não disponível
503 0

TranscriptionPlus oferece transcrição rápida e precisa com tecnologia de IA e precisão de até 99%. Transcreva arquivos de áudio e vídeo sem esforço com identificação de locutores, geração de resumos e extração de tópicos.

transcrição de áudio
voz para texto
superwhisper
Imagem não disponível
629 0

Superwhisper é um aplicativo de voz para texto com tecnologia de IA para macOS e iPhone, permitindo digitação mais rápida e integração perfeita com qualquer aplicativo. Transcreva áudio e vídeo, traduza idiomas e aumente a produtividade.

transcrição de voz
voz para texto
IA
I ♡ Transcriptions
Imagem não disponível
367 0

Transcrições ilimitadas de áudio e vídeo em espanhol, inglês e japonês. Disponível para download em vários formatos de texto.

transcrição
IA
voz para texto
WhisperTranscribe
Imagem não disponível
390 0

WhisperTranscribe usa IA para transcrever áudio com precisão e gerar conteúdo, incluindo postagens de mídia social, resumos e videoclipes. Experimente grátis!

áudio para texto
transcrição de IA
Speech Studio
Imagem não disponível
454 0

Azure AI Speech Studio capacita desenvolvedores com ferramentas de fala para texto, texto para fala e tradução. Explore recursos como modelos personalizados, avatares de voz e transcrição em tempo real para melhorar a acessibilidade e o engajamento dos apps.

transcrição de fala
síntese de voz
Neurond AI Voice Model Implementation
Imagem não disponível
343 0

Melhore a comunicação com a implementação do modelo de voz da Neurond AI, utilizando modelos de texto para voz e voz para texto de alta qualidade para uma interação homem-computador precisa e natural.

texto para voz
voz para texto
AIverse
Imagem não disponível
69 0

AIverse é uma plataforma tudo-em-um que concede acesso a milhares de modelos de IA para geração de imagens/vídeos, LLMs, fala para texto, criação de música e mais. Uso ilimitado por US$ 20/mês.

melhoria de imagens
remoção de fundo