AniPortrait: Ferramenta de Animação de Retrato por Áudio com IA

AniPortrait

3.5 | 258 | 0
Tipo:
Projetos de Código Aberto
Última atualização:
2025/10/03
Descrição:
AniPortrait é um framework de IA de código aberto para gerar animações de retrato fotorrealistas impulsionadas por áudio ou vídeo. Suporta modos autoimpulsionados, reencenação facial e por áudio para síntese de vídeo de alta qualidade.
Compartilhar:
retrato por áudio
síntese de animação
reencenação facial
redirecionamento de poses
geração de vídeo

Visão geral de AniPortrait

O que é AniPortrait?

AniPortrait é um framework open-source inovador projetado para síntese de animações de retratos fotorrealistas impulsionadas por áudio. Desenvolvido por Huawei Wei, Zejun Yang e Zhisheng Wang da Tencent Games Zhiji e Tencent, esta ferramenta aproveita técnicas avançadas de IA para criar retratos animados de alta qualidade a partir de uma única imagem de referência e entradas de áudio ou vídeo. Seja animando um retrato estático com áudio de fala ou recriando expressões faciais de um vídeo fonte, AniPortrait entrega resultados realistas que capturam nuances sutis como sincronização labial e movimentos de cabeça. Ideal para criadores de conteúdo, desenvolvedores de jogos e pesquisadores em visão computacional, ele se destaca no reino das ferramentas de geração de vídeo com IA ao focar em animações específicas de retratos.

Lançado no GitHub sob a licença Apache-2.0, AniPortrait acumulou mais de 5.000 estrelas, refletindo sua popularidade na comunidade de IA. O projeto enfatiza a acessibilidade, com modelos pré-treinados, guias detalhados de instalação e até uma interface web Gradio para testes fáceis.

Como AniPortrait Funciona?

Em seu núcleo, AniPortrait emprega um pipeline de múltiplas etapas que integra modelos de difusão, processamento de áudio e estimativa de poses para gerar animações. O framework se baseia em modelos estabelecidos como Stable Diffusion V1.5 e wav2vec2 para extração de características, garantindo um manuseio robusto da sincronização áudio-visual.

Componentes Chave e Fluxo de Trabalho

  • Processamento de Entrada: Comece com uma imagem de retrato de referência. No modo impulsionado por áudio, entradas de áudio são processadas usando wav2vec2-base-960h para extrair características de fala. Em modos de vídeo, vídeos fonte são convertidos em sequências de poses via extração de pontos chave.
  • Geração de Poses: O modelo audio2pose gera sequências de poses de cabeça (ex.: pose_temp.npy) a partir do áudio, permitindo controle sobre orientações faciais. Para recriação facial, uma estratégia de retargeting de poses mapeia movimentos do vídeo fonte para a imagem de referência, suportando diferenças substanciais de poses.
  • Síntese de Animação: Utiliza UNet de desruído, UNet de referência e módulos de movimento para sintetizar frames. O guia de poses garante alinhamento, enquanto interpolação de frames opcional acelera a inferência.
  • Refinamento de Saída: Gera vídeos em resoluções como 512x512, com opções de aceleração usando film_net_fp16.pt para reduzir o tempo de processamento.

Essa abordagem modular permite animações auto-dirigidas (usando poses predefinidas), recriação facial (transferindo expressões) e síntese totalmente impulsionada por áudio, tornando-o versátil para vários cenários de animação de retratos com IA.

Recursos Principais do AniPortrait

AniPortrait oferece uma gama de recursos poderosos adaptados para animação realista de retratos:

  • Animação de Retratos Impulsionada por Áudio: Sincroniza movimentos labiais e expressões com entradas de áudio, perfeito para dublagem ou avatares virtuais.
  • Recriação Facial: Transfere performances faciais de um vídeo fonte para um retrato alvo, ideal para aplicações éticas semelhantes a deepfake em mídia.
  • Controle e Retargeting de Poses: Estratégias atualizadas lidam com diversas poses de cabeça, incluindo geração de arquivos de poses personalizados para controle preciso.
  • Saída de Alta Resolução: Produz vídeos fotorrealistas com suporte para sequências mais longas (até 300 frames ou mais).
  • Opções de Aceleração: Interpolação de frames e modelos FP16 aceleram a inferência sem sacrificar qualidade.
  • Interface Web Gradio: Uma interface amigável para demos rápidas, também hospedada no Hugging Face Spaces para acesso online.
  • Modelos Pré-Treinados: Inclui pesos para audio2mesh, audio2pose e componentes de difusão, baixáveis de fontes como Wisemodel.

Esses recursos tornam AniPortrait uma ferramenta essencial para síntese de vídeo impulsionada por IA, superando ferramentas básicas ao focar na fidelidade de retratos e coerência áudio-visual.

Instalação e Configuração

Começar é direto para usuários com Python >=3.10 e CUDA 11.7:

  1. Clone o repositório: git clone https://github.com/Zejun-Yang/AniPortrait.
  2. Instale dependências: pip install -r requirements.txt.
  3. Baixe pesos pré-treinados para ./pretrained_weights/, incluindo componentes Stable Diffusion, wav2vec2 e modelos personalizados como denoising_unet.pth e audio2pose.pt.
  4. Organize arquivos conforme a estrutura de diretórios no README.

Para treinamento, prepare datasets como VFHQ ou CelebV-HQ extraindo pontos chave e executando scripts de pré-processamento. O treinamento ocorre em duas etapas usando Accelerate para processamento distribuído.

Como Usar AniPortrait?

Modos de Inferência

AniPortrait suporta três modos principais via scripts de linha de comando:

  • Animação Auto-Dirigida:

    python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc
    

    Personalize com imagens de referência ou vídeos de poses. Converta vídeos em poses usando python -m scripts.vid2pose --video_path input.mp4.

  • Recriação Facial:

    python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc
    

    Edite o YAML para incluir vídeos fonte e referências.

  • Síntese Impulsionada por Áudio:

    python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc
    

    Adicione áudios e imagens à config. Ative audio2pose removendo pose_temp para geração automática de poses.

Para controle de pose de cabeça, gere poses de referência com python -m scripts.generate_ref_pose.

Demo Web

Inicie a interface Gradio: python -m scripts.app. Ou experimente a versão online no Hugging Face Spaces.

Usuários podem experimentar com vídeos de amostra como 'cxk.mp4' ou 'jijin.mp4' para ver a sincronização de áudio em ação, obtidos de plataformas como Bilibili.

Treinamento do AniPortrait do Zero

Usuários avançados podem treinar modelos personalizados:

  1. Preparação de Dados: Baixe datasets, pré-processe com python -m scripts.preprocess_dataset e atualize caminhos JSON.
  2. Etapa 1: accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml.
  3. Etapa 2: Baixe pesos do módulo de movimento, especifique checkpoints da Etapa 1 e execute accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml.

Esse processo ajusta finamente em dados específicos de retratos, aprimorando a generalização para tarefas de animação com IA.

Por Que Escolher AniPortrait?

Em um campo lotado de ferramentas de IA para geração de vídeo, AniPortrait se destaca devido ao seu foco especializado em retratos fotorrealistas. Diferente de modelos de propósito geral, ele lida com sincronização áudio-labial e expressões sutis com precisão, reduzindo artefatos em animações faciais. A natureza open-source permite customização, e atualizações recentes — como o lançamento de audio2pose em abril de 2024 e módulos de aceleração — o mantêm na vanguarda. Reconhecimentos da comunidade a projetos como EMO e AnimateAnyone destacam suas raízes colaborativas, garantindo desempenho confiável.

O valor prático inclui prototipagem mais rápida para influenciadores virtuais, vídeos educacionais ou assets de jogos. Com disponibilidade do paper no arXiv (eprint 2403.17694), ele serve pesquisadores explorando síntese áudio-visual em visão computacional.

Para Quem é AniPortrait?

  • Criadores de Conteúdo e Cineastas: Para dublagem rápida ou transferências de expressões em vídeos de formato curto.
  • Desenvolvedores de Jogos em Estúdios como Tencent: Integrando retratos animados em mídias interativas.
  • Pesquisadores de IA: Experimentando com animação baseada em difusão e retargeting de poses.
  • Hobbyistas e Educadores: Usando a interface web para ensinar conceitos de IA sem configuração pesada.

Se você está buscando a melhor maneira de criar animações de retratos impulsionadas por áudio, o equilíbrio do AniPortrait em qualidade, velocidade e acessibilidade o torna uma escolha principal.

Aplicações Potenciais e Casos de Uso

  • Avatares Virtuais: Anime personagens digitais com fala sincronizada para mídias sociais ou metaversos.
  • Ferramentas Educacionais: Gere vídeos de cabeças falantes para palestras ou tutoriais.
  • Produção de Mídia: Recriação facial ética para recriações históricas ou anúncios.
  • Prototipagem de Pesquisa: Benchmark de modelos áudio-para-vídeo em papers de CV.

Demonstrações incluem clipes auto-dirigidos como 'solo.mp4' e exemplos de áudio como 'kara.mp4', exibindo integração perfeita.

Para solução de problemas, verifique as 76 issues abertas no GitHub ou contribua via pull requests. No geral, AniPortrait capacita usuários a empurrar limites na animação de retratos com IA com resultados confiáveis e de alta fidelidade.

Melhores ferramentas alternativas para "AniPortrait"

Lip Sync AI
Imagem não disponível
202 0

Lip Sync AI transforma fotos estáticas em vídeos falantes usando tecnologia avançada de sincronização labial com IA. Envie uma foto e um arquivo de áudio para gerar vídeos realistas com sincronização labial e expressões naturais.

Sincronização labial com IA
Media.io
Imagem não disponível
241 0

Media.io é uma plataforma de IA tudo-em-um para criação de vídeo, imagem e áudio. Oferece ferramentas como gerador de vídeo AI, imagem para vídeo, texto para música e removedor de marca d'água, atendendo tanto ao uso pessoal quanto comercial.

Edição de vídeo com IA
Mango AI
Imagem não disponível
245 0

Mango AI é um gerador de vídeo com tecnologia de IA que cria fotos falantes, avatares e trocas de rosto sem esforço. Ideal para profissionais de marketing, educadores e criadores de conteúdo.

Geração de vídeo AI
troca de rosto
FineCam
Imagem não disponível
255 0

Fineshare FineCam é um software de câmera virtual AI para gravação de vídeo de alta definição e videoconferências envolventes no Windows e Mac. Use seu telefone como uma webcam e remova o fundo em tempo real.

câmera virtual
remoção de fundo
VisionFX
Imagem não disponível
297 0

VisionFX é um estúdio criativo de IA completo que gera imagens, vídeos, música e conteúdo de voz usando tecnologia de IA avançada. Perfeito para criadores de conteúdo, designers e profissionais de marketing.

gerador de imagens IA
Slides to Videos
Imagem não disponível
268 0

Descubra Slides to Videos, a ferramenta de IA que transforma Google Slides em vídeos profissionais com imagens, animações e narração IA. Ideal para criadores de conteúdo, profissionais de marketing e educadores para produzir conteúdo envolvente em redes sociais e YouTube rapidamente.

integração Google Slides
Wondershare Filmora
Imagem não disponível
501 0

Crie vídeos impressionantes com o software de edição de vídeo Wondershare Filmora AI! Os recursos incluem vídeo longo para curto inteligente com IA, mate de retrato com IA, legendas dinâmicas, edição multicâmera e muito mais. Fácil e divertido para iniciantes e profissionais!

edição de vídeo
Filmora
Imagem não disponível
467 0

Wondershare Filmora é um editor de vídeo com tecnologia de IA que oferece recursos inteligentes como legendas automáticas, recorte de retrato com IA e uma vasta biblioteca de efeitos, tornando a criação de vídeos fácil e divertida.

Edição de vídeo AI
editor de vídeo
Powerusers AI
Imagem não disponível
376 0

Powerusers AI é o melhor diretório e recursos de ferramentas de IA para ajudá-lo a aproveitar a IA para multiplicar por 10 sua produtividade nos negócios e na vida cotidiana.

Diretório de ferramentas de IA
Cliptics
Imagem não disponível
401 0

Cliptics oferece ferramentas gratuitas de IA para edição de imagens, texto para voz, remoção de fundo e criação de conteúdo. Sem registro, sem marcas d'água. Melhore as imagens, gere locuções e crie conteúdo sem esforço.

Edição de imagem AI
texto para fala
Easy-Peasy.AI
Imagem não disponível
350 0

Easy-Peasy.AI é uma plataforma de IA completa que oferece ferramentas de criação de conteúdo, geração de imagens, transcrição de áudio e geração de vídeo com IA. Crie conteúdo impressionante 10 vezes mais rápido com IA.

Gerador de conteúdo de IA
Plexigen AI
Imagem não disponível
310 0

Plexigen AI: O melhor gerador de vídeo AI com som. Crie vídeos profissionais a partir de texto e imagens. Geração de vídeo AI de alta qualidade, vários formatos, renderização rápida.

Geração de vídeo AI
Filmora
Imagem não disponível
311 0

O editor de vídeo AI Filmora oferece clipes curtos inteligentes, aprimoramento de vídeo AI e ativos criativos, facilitando a criação de vídeos para todos os níveis de habilidade.

edição de vídeo AI
editor de vídeo
Eadlyn
Imagem não disponível
279 0

Eadlyn usa IA para clonar retratos e vozes, permitindo que você reviva memórias. Crie modelos de voz e gere vidas digitais realistas.

Voz IA
clonagem de voz
retrato IA