WAAS
Visão geral de WAAS
WAAS: Whisper como Serviço - GUI e API para OpenAI Whisper
WAAS (Whisper as a Service) é um projeto de código aberto que fornece uma GUI e API para o Whisper da OpenAI, tornando a transcrição de áudio e vídeo mais acessível e amigável. Ele oferece tanto uma interface gráfica de usuário (GUI) para facilitar o upload e transcrição de arquivos, quanto uma API para acesso programático.
O que é WAAS?
WAAS fornece uma interface para fazer upload e transcrever arquivos de áudio ou vídeo. Após a transcrição, os usuários recebem um e-mail com links para download da transcrição em vários formatos, incluindo Jojo-file, SRT ou texto simples. Um recurso importante é o editor local baseado em navegador para corrigir erros de transcrição.
Principais Recursos
- GUI para Upload e Transcrição: Interface simples para fazer upload de arquivos de áudio e vídeo.
- Notificações por E-mail: Receba notificações por e-mail com links para download após a transcrição.
- Múltiplos Formatos de Saída: Baixe transcrições em formatos Jojo-file, SRT ou texto simples.
- Editor Local Baseado em Navegador: Corrija erros de transcrição dentro do navegador.
- Acesso à API: Acesso programático aos serviços de transcrição via API.
Como funciona o WAAS?
WAAS permite que os usuários façam upload de arquivos de áudio ou vídeo através de uma GUI (chamada Jojo) ou via API. O arquivo carregado é então processado usando o modelo Whisper da OpenAI para transcrição. Uma vez que a transcrição esteja completa, o usuário recebe um e-mail contendo links para baixar a transcrição em vários formatos. O editor baseado em navegador permite que os usuários refinem e corrijam quaisquer erros na transcrição antes de salvar o resultado final.
Documentação da API
A API WAAS fornece vários endpoints para transcrição e tarefas relacionadas:
- POST /v1/transcribe: Adiciona um novo trabalho de transcrição à fila.
- Parâmetros obrigatórios:
email_callbackouwebhook_id. - Parâmetros opcionais:
language,model,task,filename. - Corpo: Dados de áudio brutos.
- Parâmetros obrigatórios:
- OPTIONS /v1/transcribe: Recupera as opções disponíveis para a rota de transcrição.
- POST /v1/detect: Detecta o idioma do arquivo de áudio.
- Parâmetro opcional:
model. - Corpo: Dados de áudio brutos.
- Parâmetro opcional:
- OPTIONS /v1/detect: Recupera as opções disponíveis para a rota de detecção.
- GET /v1/download/<job_id>: Recupera a transcrição concluída no formato de saída solicitado.
- Parâmetro opcional:
output(json, timecode_txt, txt, vtt, srt).
- Parâmetro opcional:
- OPTIONS /v1/download/<job_id>: Recupera as opções disponíveis para a rota de download.
- GET /v1/jobs/<job_id>: Recupera o status e os metadados do trabalho especificado.
- GET /v1/queue: Recupera o comprimento atual da fila.
Integração de Webhook
WAAS oferece suporte a notificações de webhook. Após uma transcrição bem-sucedida ou falhada, uma solicitação POST é enviada para o URL de webhook configurado com um payload JSON e um cabeçalho X-WAAS-Signature para verificação de conteúdo.
Para quem é o WAAS?
- Pesquisadores que precisam transcrever entrevistas ou palestras.
- Jornalistas que trabalham com conteúdo de áudio ou vídeo.
- Desenvolvedores que integram serviços de transcrição em seus aplicativos.
- Qualquer pessoa que precise transcrever arquivos de áudio ou vídeo de forma rápida e precisa.
Instalação
Para instalar e executar o WAAS, siga estas etapas:
- Clone o repositório.
- Crie um ambiente virtual.
- Instale os pacotes Python necessários usando
pip install -r requirements.txt. - Configure variáveis de ambiente como
BASE_URL,EMAIL_SENDER_ADDRESS,EMAIL_SENDER_PASSWORDeEMAIL_SENDER_HOST. - Execute a configuração usando o Docker Compose.
Executando com Docker Compose
- Crie um arquivo
.envrccom as variáveis de ambiente necessárias. - Adicione um arquivo
allowed_webhooks.json(se estiver usando webhooks) com URLs e tokens de webhook válidos. - Execute
docker-compose --env-file .envrc up.
Usando NVIDIA CUDA
Para habilitar a aceleração de GPU com NVIDIA CUDA:
- Instale o NVIDIA Docker.
- Edite o arquivo
docker-compose.ymlpara usar oDockerfile.gpue remova o comentário da reserva do dispositivo. - Execute
docker-compose --env-file .envrc up.
Por que escolher o WAAS?
WAAS oferece uma interface amigável e uma API para aproveitar o modelo Whisper da OpenAI. Seus recursos, como notificações por e-mail, múltiplos formatos de saída e edição local baseada em navegador, tornam-no uma solução conveniente e eficiente para necessidades de transcrição de áudio e vídeo. A flexibilidade para executá-lo localmente ou integrá-lo em sistemas existentes através da API o torna uma ferramenta versátil para vários casos de uso.
Em conclusão, o WAAS é uma ferramenta valiosa para quem procura transcrever conteúdo de áudio ou vídeo de forma rápida e precisa. Sua natureza de código aberto e facilidade de uso o tornam uma excelente escolha para uso pessoal e profissional.
Melhores ferramentas alternativas para "WAAS"
Buzz Captions é uma ferramenta de transcrição e tradução de áudio offline alimentada por Whisper da OpenAI. Ele suporta vários formatos de áudio/vídeo e exporta para CSV, SRT, TXT e VTT.
Melhore a comunicação com a implementação do modelo de voz da Neurond AI, utilizando modelos de texto para voz e voz para texto de alta qualidade para uma interação homem-computador precisa e natural.
Acesse mais de 500 ferramentas de IA gratuitas com o AI Free Forever. Gere conteúdo ilimitado, crie imagens impressionantes e transforme texto em fala, tudo sem registro. Experimente agora!
Transcript LOL fornece transcrição de áudio e vídeo com tecnologia de IA com alta precisão, reconhecimento de locutores e minutos ilimitados. Perfeito para criadores de conteúdo, pesquisadores e empresas.
VoicePen é um gravador de notas alimentado por IA que transcreve voz para texto e resume reuniões, palestras e memos em notas inteligentes. Grave offline, exporte para PDF/DOC e integre com Notion para maior produtividade.
Azure AI Speech Studio capacita desenvolvedores com ferramentas de fala para texto, texto para fala e tradução. Explore recursos como modelos personalizados, avatares de voz e transcrição em tempo real para melhorar a acessibilidade e o engajamento dos apps.
Whisper API: API de transcrição de áudio acessível com tecnologia OpenAI. Fácil integração, detecção de locutores, suporta mais de 100 idiomas. Teste grátis disponível!
WhisperTranscribe usa IA para transcrever áudio com precisão e gerar conteúdo, incluindo postagens de mídia social, resumos e videoclipes. Experimente grátis!
Superwhisper é um aplicativo de voz para texto com tecnologia de IA para macOS e iPhone, permitindo digitação mais rápida e integração perfeita com qualquer aplicativo. Transcreva áudio e vídeo, traduza idiomas e aumente a produtividade.
TranscriptionPlus oferece transcrição rápida e precisa com tecnologia de IA e precisão de até 99%. Transcreva arquivos de áudio e vídeo sem esforço com identificação de locutores, geração de resumos e extração de tópicos.
Hello Transcribe: Transcritor privado de fala para texto usando OpenAI Whisper, funciona offline e criptografa os resultados no iCloud.
Yescribe.ai oferece transcrição de áudio/vídeo para texto com tecnologia de IA, com suporte para mais de 98 idiomas e precisão de 99,9%.
Transcrições ilimitadas de áudio e vídeo em espanhol, inglês e japonês. Disponível para download em vários formatos de texto.
WhisperUI fornece conversão de voz para texto acessível usando OpenAI Whisper. Converta arquivos de áudio para formatos de texto e SRT facilmente. Comece com uma conta gratuita!