WAAS: Whisper as a Service - GUI e API para OpenAI Whisper

WAAS

3.5 | 64 | 0
Tipo:
Projetos de Código Aberto
Última atualização:
2025/10/14
Descrição:
WAAS (Whisper as a Service) é uma GUI e API de código aberto para o Whisper da OpenAI, permitindo uma fácil transcrição de áudio e vídeo com notificações por e-mail e um editor local baseado em navegador.
Compartilhar:
voz para texto
transcrição de áudio
transcrição de vídeo
Whisper API
OpenAI

Visão geral de WAAS

WAAS: Whisper como Serviço - GUI e API para OpenAI Whisper

WAAS (Whisper as a Service) é um projeto de código aberto que fornece uma GUI e API para o Whisper da OpenAI, tornando a transcrição de áudio e vídeo mais acessível e amigável. Ele oferece tanto uma interface gráfica de usuário (GUI) para facilitar o upload e transcrição de arquivos, quanto uma API para acesso programático.

O que é WAAS?

WAAS fornece uma interface para fazer upload e transcrever arquivos de áudio ou vídeo. Após a transcrição, os usuários recebem um e-mail com links para download da transcrição em vários formatos, incluindo Jojo-file, SRT ou texto simples. Um recurso importante é o editor local baseado em navegador para corrigir erros de transcrição.

Principais Recursos

  • GUI para Upload e Transcrição: Interface simples para fazer upload de arquivos de áudio e vídeo.
  • Notificações por E-mail: Receba notificações por e-mail com links para download após a transcrição.
  • Múltiplos Formatos de Saída: Baixe transcrições em formatos Jojo-file, SRT ou texto simples.
  • Editor Local Baseado em Navegador: Corrija erros de transcrição dentro do navegador.
  • Acesso à API: Acesso programático aos serviços de transcrição via API.

Como funciona o WAAS?

WAAS permite que os usuários façam upload de arquivos de áudio ou vídeo através de uma GUI (chamada Jojo) ou via API. O arquivo carregado é então processado usando o modelo Whisper da OpenAI para transcrição. Uma vez que a transcrição esteja completa, o usuário recebe um e-mail contendo links para baixar a transcrição em vários formatos. O editor baseado em navegador permite que os usuários refinem e corrijam quaisquer erros na transcrição antes de salvar o resultado final.

Documentação da API

A API WAAS fornece vários endpoints para transcrição e tarefas relacionadas:

  • POST /v1/transcribe: Adiciona um novo trabalho de transcrição à fila.
    • Parâmetros obrigatórios: email_callback ou webhook_id.
    • Parâmetros opcionais: language, model, task, filename.
    • Corpo: Dados de áudio brutos.
  • OPTIONS /v1/transcribe: Recupera as opções disponíveis para a rota de transcrição.
  • POST /v1/detect: Detecta o idioma do arquivo de áudio.
    • Parâmetro opcional: model.
    • Corpo: Dados de áudio brutos.
  • OPTIONS /v1/detect: Recupera as opções disponíveis para a rota de detecção.
  • GET /v1/download/<job_id>: Recupera a transcrição concluída no formato de saída solicitado.
    • Parâmetro opcional: output (json, timecode_txt, txt, vtt, srt).
  • OPTIONS /v1/download/<job_id>: Recupera as opções disponíveis para a rota de download.
  • GET /v1/jobs/<job_id>: Recupera o status e os metadados do trabalho especificado.
  • GET /v1/queue: Recupera o comprimento atual da fila.

Integração de Webhook

WAAS oferece suporte a notificações de webhook. Após uma transcrição bem-sucedida ou falhada, uma solicitação POST é enviada para o URL de webhook configurado com um payload JSON e um cabeçalho X-WAAS-Signature para verificação de conteúdo.

Para quem é o WAAS?

  • Pesquisadores que precisam transcrever entrevistas ou palestras.
  • Jornalistas que trabalham com conteúdo de áudio ou vídeo.
  • Desenvolvedores que integram serviços de transcrição em seus aplicativos.
  • Qualquer pessoa que precise transcrever arquivos de áudio ou vídeo de forma rápida e precisa.

Instalação

Para instalar e executar o WAAS, siga estas etapas:

  1. Clone o repositório.
  2. Crie um ambiente virtual.
  3. Instale os pacotes Python necessários usando pip install -r requirements.txt.
  4. Configure variáveis de ambiente como BASE_URL, EMAIL_SENDER_ADDRESS, EMAIL_SENDER_PASSWORD e EMAIL_SENDER_HOST.
  5. Execute a configuração usando o Docker Compose.

Executando com Docker Compose

  1. Crie um arquivo .envrc com as variáveis de ambiente necessárias.
  2. Adicione um arquivo allowed_webhooks.json (se estiver usando webhooks) com URLs e tokens de webhook válidos.
  3. Execute docker-compose --env-file .envrc up.

Usando NVIDIA CUDA

Para habilitar a aceleração de GPU com NVIDIA CUDA:

  1. Instale o NVIDIA Docker.
  2. Edite o arquivo docker-compose.yml para usar o Dockerfile.gpu e remova o comentário da reserva do dispositivo.
  3. Execute docker-compose --env-file .envrc up.

Por que escolher o WAAS?

WAAS oferece uma interface amigável e uma API para aproveitar o modelo Whisper da OpenAI. Seus recursos, como notificações por e-mail, múltiplos formatos de saída e edição local baseada em navegador, tornam-no uma solução conveniente e eficiente para necessidades de transcrição de áudio e vídeo. A flexibilidade para executá-lo localmente ou integrá-lo em sistemas existentes através da API o torna uma ferramenta versátil para vários casos de uso.

Em conclusão, o WAAS é uma ferramenta valiosa para quem procura transcrever conteúdo de áudio ou vídeo de forma rápida e precisa. Sua natureza de código aberto e facilidade de uso o tornam uma excelente escolha para uso pessoal e profissional.

Melhores ferramentas alternativas para "WAAS"

Buzz Captions
Imagem não disponível
43 0

Buzz Captions é uma ferramenta de transcrição e tradução de áudio offline alimentada por Whisper da OpenAI. Ele suporta vários formatos de áudio/vídeo e exporta para CSV, SRT, TXT e VTT.

transcrição de áudio
voz para texto
Neurond AI Voice Model Implementation
Imagem não disponível
91 0

Melhore a comunicação com a implementação do modelo de voz da Neurond AI, utilizando modelos de texto para voz e voz para texto de alta qualidade para uma interação homem-computador precisa e natural.

texto para voz
voz para texto
AI-Free-Forever
Imagem não disponível
118 0

Acesse mais de 500 ferramentas de IA gratuitas com o AI Free Forever. Gere conteúdo ilimitado, crie imagens impressionantes e transforme texto em fala, tudo sem registro. Experimente agora!

Ferramentas de IA
Transcript LOL
Imagem não disponível
156 0

Transcript LOL fornece transcrição de áudio e vídeo com tecnologia de IA com alta precisão, reconhecimento de locutores e minutos ilimitados. Perfeito para criadores de conteúdo, pesquisadores e empresas.

transcrição de IA
voz para texto
VoicePen
Imagem não disponível
147 0

VoicePen é um gravador de notas alimentado por IA que transcreve voz para texto e resume reuniões, palestras e memos em notas inteligentes. Grave offline, exporte para PDF/DOC e integre com Notion para maior produtividade.

transcrição de voz
resumos IA
Speech Studio
Imagem não disponível
180 0

Azure AI Speech Studio capacita desenvolvedores com ferramentas de fala para texto, texto para fala e tradução. Explore recursos como modelos personalizados, avatares de voz e transcrição em tempo real para melhorar a acessibilidade e o engajamento dos apps.

transcrição de fala
síntese de voz
Whisper API
Imagem não disponível
147 0

Whisper API: API de transcrição de áudio acessível com tecnologia OpenAI. Fácil integração, detecção de locutores, suporta mais de 100 idiomas. Teste grátis disponível!

API de transcrição de áudio
WhisperTranscribe
Imagem não disponível
231 0

WhisperTranscribe usa IA para transcrever áudio com precisão e gerar conteúdo, incluindo postagens de mídia social, resumos e videoclipes. Experimente grátis!

áudio para texto
transcrição de IA
superwhisper
Imagem não disponível
379 0

Superwhisper é um aplicativo de voz para texto com tecnologia de IA para macOS e iPhone, permitindo digitação mais rápida e integração perfeita com qualquer aplicativo. Transcreva áudio e vídeo, traduza idiomas e aumente a produtividade.

transcrição de voz
voz para texto
IA
TranscriptionPlus
Imagem não disponível
327 0

TranscriptionPlus oferece transcrição rápida e precisa com tecnologia de IA e precisão de até 99%. Transcreva arquivos de áudio e vídeo sem esforço com identificação de locutores, geração de resumos e extração de tópicos.

transcrição de áudio
voz para texto
Hello Transcribe
Imagem não disponível
256 0

Hello Transcribe: Transcritor privado de fala para texto usando OpenAI Whisper, funciona offline e criptografa os resultados no iCloud.

voz para texto
transcrição
offline
Yescribe.ai
Imagem não disponível
293 0

Yescribe.ai oferece transcrição de áudio/vídeo para texto com tecnologia de IA, com suporte para mais de 98 idiomas e precisão de 99,9%.

áudio para texto
vídeo para texto
I ♡ Transcriptions
Imagem não disponível
210 0

Transcrições ilimitadas de áudio e vídeo em espanhol, inglês e japonês. Disponível para download em vários formatos de texto.

transcrição
IA
voz para texto
WhisperUI
Imagem não disponível
327 0

WhisperUI fornece conversão de voz para texto acessível usando OpenAI Whisper. Converta arquivos de áudio para formatos de texto e SRT facilmente. Comece com uma conta gratuita!

transcrição de áudio