AniPortrait: Ferramenta de Animação de Retrato por Áudio com IA

AniPortrait

3.5 | 19 | 0
Tipo:
Projetos de Código Aberto
Última atualização:
2025/10/03
Descrição:
AniPortrait é um framework de IA de código aberto para gerar animações de retrato fotorrealistas impulsionadas por áudio ou vídeo. Suporta modos autoimpulsionados, reencenação facial e por áudio para síntese de vídeo de alta qualidade.
Compartilhar:
retrato por áudio
síntese de animação
reencenação facial
redirecionamento de poses
geração de vídeo

Visão geral de AniPortrait

O que é AniPortrait?

AniPortrait é um framework open-source inovador projetado para síntese de animações de retratos fotorrealistas impulsionadas por áudio. Desenvolvido por Huawei Wei, Zejun Yang e Zhisheng Wang da Tencent Games Zhiji e Tencent, esta ferramenta aproveita técnicas avançadas de IA para criar retratos animados de alta qualidade a partir de uma única imagem de referência e entradas de áudio ou vídeo. Seja animando um retrato estático com áudio de fala ou recriando expressões faciais de um vídeo fonte, AniPortrait entrega resultados realistas que capturam nuances sutis como sincronização labial e movimentos de cabeça. Ideal para criadores de conteúdo, desenvolvedores de jogos e pesquisadores em visão computacional, ele se destaca no reino das ferramentas de geração de vídeo com IA ao focar em animações específicas de retratos.

Lançado no GitHub sob a licença Apache-2.0, AniPortrait acumulou mais de 5.000 estrelas, refletindo sua popularidade na comunidade de IA. O projeto enfatiza a acessibilidade, com modelos pré-treinados, guias detalhados de instalação e até uma interface web Gradio para testes fáceis.

Como AniPortrait Funciona?

Em seu núcleo, AniPortrait emprega um pipeline de múltiplas etapas que integra modelos de difusão, processamento de áudio e estimativa de poses para gerar animações. O framework se baseia em modelos estabelecidos como Stable Diffusion V1.5 e wav2vec2 para extração de características, garantindo um manuseio robusto da sincronização áudio-visual.

Componentes Chave e Fluxo de Trabalho

  • Processamento de Entrada: Comece com uma imagem de retrato de referência. No modo impulsionado por áudio, entradas de áudio são processadas usando wav2vec2-base-960h para extrair características de fala. Em modos de vídeo, vídeos fonte são convertidos em sequências de poses via extração de pontos chave.
  • Geração de Poses: O modelo audio2pose gera sequências de poses de cabeça (ex.: pose_temp.npy) a partir do áudio, permitindo controle sobre orientações faciais. Para recriação facial, uma estratégia de retargeting de poses mapeia movimentos do vídeo fonte para a imagem de referência, suportando diferenças substanciais de poses.
  • Síntese de Animação: Utiliza UNet de desruído, UNet de referência e módulos de movimento para sintetizar frames. O guia de poses garante alinhamento, enquanto interpolação de frames opcional acelera a inferência.
  • Refinamento de Saída: Gera vídeos em resoluções como 512x512, com opções de aceleração usando film_net_fp16.pt para reduzir o tempo de processamento.

Essa abordagem modular permite animações auto-dirigidas (usando poses predefinidas), recriação facial (transferindo expressões) e síntese totalmente impulsionada por áudio, tornando-o versátil para vários cenários de animação de retratos com IA.

Recursos Principais do AniPortrait

AniPortrait oferece uma gama de recursos poderosos adaptados para animação realista de retratos:

  • Animação de Retratos Impulsionada por Áudio: Sincroniza movimentos labiais e expressões com entradas de áudio, perfeito para dublagem ou avatares virtuais.
  • Recriação Facial: Transfere performances faciais de um vídeo fonte para um retrato alvo, ideal para aplicações éticas semelhantes a deepfake em mídia.
  • Controle e Retargeting de Poses: Estratégias atualizadas lidam com diversas poses de cabeça, incluindo geração de arquivos de poses personalizados para controle preciso.
  • Saída de Alta Resolução: Produz vídeos fotorrealistas com suporte para sequências mais longas (até 300 frames ou mais).
  • Opções de Aceleração: Interpolação de frames e modelos FP16 aceleram a inferência sem sacrificar qualidade.
  • Interface Web Gradio: Uma interface amigável para demos rápidas, também hospedada no Hugging Face Spaces para acesso online.
  • Modelos Pré-Treinados: Inclui pesos para audio2mesh, audio2pose e componentes de difusão, baixáveis de fontes como Wisemodel.

Esses recursos tornam AniPortrait uma ferramenta essencial para síntese de vídeo impulsionada por IA, superando ferramentas básicas ao focar na fidelidade de retratos e coerência áudio-visual.

Instalação e Configuração

Começar é direto para usuários com Python >=3.10 e CUDA 11.7:

  1. Clone o repositório: git clone https://github.com/Zejun-Yang/AniPortrait.
  2. Instale dependências: pip install -r requirements.txt.
  3. Baixe pesos pré-treinados para ./pretrained_weights/, incluindo componentes Stable Diffusion, wav2vec2 e modelos personalizados como denoising_unet.pth e audio2pose.pt.
  4. Organize arquivos conforme a estrutura de diretórios no README.

Para treinamento, prepare datasets como VFHQ ou CelebV-HQ extraindo pontos chave e executando scripts de pré-processamento. O treinamento ocorre em duas etapas usando Accelerate para processamento distribuído.

Como Usar AniPortrait?

Modos de Inferência

AniPortrait suporta três modos principais via scripts de linha de comando:

  • Animação Auto-Dirigida:

    python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc
    

    Personalize com imagens de referência ou vídeos de poses. Converta vídeos em poses usando python -m scripts.vid2pose --video_path input.mp4.

  • Recriação Facial:

    python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc
    

    Edite o YAML para incluir vídeos fonte e referências.

  • Síntese Impulsionada por Áudio:

    python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc
    

    Adicione áudios e imagens à config. Ative audio2pose removendo pose_temp para geração automática de poses.

Para controle de pose de cabeça, gere poses de referência com python -m scripts.generate_ref_pose.

Demo Web

Inicie a interface Gradio: python -m scripts.app. Ou experimente a versão online no Hugging Face Spaces.

Usuários podem experimentar com vídeos de amostra como 'cxk.mp4' ou 'jijin.mp4' para ver a sincronização de áudio em ação, obtidos de plataformas como Bilibili.

Treinamento do AniPortrait do Zero

Usuários avançados podem treinar modelos personalizados:

  1. Preparação de Dados: Baixe datasets, pré-processe com python -m scripts.preprocess_dataset e atualize caminhos JSON.
  2. Etapa 1: accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml.
  3. Etapa 2: Baixe pesos do módulo de movimento, especifique checkpoints da Etapa 1 e execute accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml.

Esse processo ajusta finamente em dados específicos de retratos, aprimorando a generalização para tarefas de animação com IA.

Por Que Escolher AniPortrait?

Em um campo lotado de ferramentas de IA para geração de vídeo, AniPortrait se destaca devido ao seu foco especializado em retratos fotorrealistas. Diferente de modelos de propósito geral, ele lida com sincronização áudio-labial e expressões sutis com precisão, reduzindo artefatos em animações faciais. A natureza open-source permite customização, e atualizações recentes — como o lançamento de audio2pose em abril de 2024 e módulos de aceleração — o mantêm na vanguarda. Reconhecimentos da comunidade a projetos como EMO e AnimateAnyone destacam suas raízes colaborativas, garantindo desempenho confiável.

O valor prático inclui prototipagem mais rápida para influenciadores virtuais, vídeos educacionais ou assets de jogos. Com disponibilidade do paper no arXiv (eprint 2403.17694), ele serve pesquisadores explorando síntese áudio-visual em visão computacional.

Para Quem é AniPortrait?

  • Criadores de Conteúdo e Cineastas: Para dublagem rápida ou transferências de expressões em vídeos de formato curto.
  • Desenvolvedores de Jogos em Estúdios como Tencent: Integrando retratos animados em mídias interativas.
  • Pesquisadores de IA: Experimentando com animação baseada em difusão e retargeting de poses.
  • Hobbyistas e Educadores: Usando a interface web para ensinar conceitos de IA sem configuração pesada.

Se você está buscando a melhor maneira de criar animações de retratos impulsionadas por áudio, o equilíbrio do AniPortrait em qualidade, velocidade e acessibilidade o torna uma escolha principal.

Aplicações Potenciais e Casos de Uso

  • Avatares Virtuais: Anime personagens digitais com fala sincronizada para mídias sociais ou metaversos.
  • Ferramentas Educacionais: Gere vídeos de cabeças falantes para palestras ou tutoriais.
  • Produção de Mídia: Recriação facial ética para recriações históricas ou anúncios.
  • Prototipagem de Pesquisa: Benchmark de modelos áudio-para-vídeo em papers de CV.

Demonstrações incluem clipes auto-dirigidos como 'solo.mp4' e exemplos de áudio como 'kara.mp4', exibindo integração perfeita.

Para solução de problemas, verifique as 76 issues abertas no GitHub ou contribua via pull requests. No geral, AniPortrait capacita usuários a empurrar limites na animação de retratos com IA com resultados confiáveis e de alta fidelidade.

Melhores ferramentas alternativas para "AniPortrait"

GlobalGPT
Imagem não disponível
333 0

GlobalGPT é uma plataforma de IA completa que fornece acesso ao ChatGPT, GPT-5, Claude, Unikorn (semelhante a MJ), Veo e mais de 100 ferramentas de IA para escrita, pesquisa, criação de imagens e vídeos.

Plataforma de IA
criação de conteúdo
SpikeX AI
Imagem não disponível
341 0

Transforme texto em vídeos envolventes sem esforço com SpikeX AI, a plataforma líder de IA de texto para vídeo para automatizar o crescimento do YouTube em minutos! Crie vídeos sem rosto para YouTube e mídias sociais com apenas um comando.

texto para vídeo
Prompt Genie
Imagem não disponível
Genie 3 AI
Imagem não disponível
39 0

Vid.AI
Imagem não disponível
238 0

Vid.AI é um gerador de vídeos com tecnologia de IA que cria vídeos sem rosto para YouTube Shorts, TikTok, Instagram Reels e vídeos completos do YouTube. Perfeito para criadores de conteúdo que procuram automação do YouTube.

Criação de vídeos com IA
Hypergro
Imagem não disponível
26 0

AnimateDiff
Imagem não disponível
Alle-AI
Imagem não disponível
205 0

Alle-AI é uma plataforma de IA tudo-em-um que combina e compara saídas de ChatGPT, Gemini, Claude, DALL-E 2, Stable Diffusion e Midjourney para geração de texto, imagem, áudio e vídeo.

Comparação de IA
multi-IA
BlitzVideo
Imagem não disponível
10 0

ChatArt
Imagem não disponível
251 0

ChatArt é uma ferramenta de IA que oferece criação de conteúdo, edição de imagem e recursos de bate-papo com IA. Alimentada por GPT-5, Claude Sonnet e DeepSeek, oferece conteúdo de alta qualidade, geração/edição de imagens com IA e detecção de plágio/gramática.

Gerador de conteúdo de IA
Pollo AI
Imagem não disponível
33 0

Grok Imagine
Imagem não disponível
Flux Pro AI
Imagem não disponível
293 0

Flux Pro AI: Ferramentas de criação de IA tudo-em-um para texto, imagem e vídeo. Apresenta os modelos Flux.1 Pro, Dev e Schnell da Black Forest Labs para visuais impressionantes.

Gerador de imagens AI
vídeo AI
ai4spaces
Imagem não disponível
243 0

ai4spaces é uma plataforma alimentada por IA para design de interiores e renovação de casas. Crie designs de salas fotorrealistas e visualize a casa dos seus sonhos instantaneamente.

Design de interiores com IA
Google Veo 3
Imagem não disponível
360 0

Crie vídeos cinematográficos com o Google Veo 3 no Videomaker.me. Use o gerador de vídeo AI para transformar texto ou imagens em vídeos HD com áudio sincronizado. Experimente o Veo 3 gratuitamente!

Geração de vídeo AI
texto para vídeo