AniPortrait: AI 오디오 기반 초상화 애니메이션 도구

AniPortrait

3.5 | 252 | 0
유형:
오픈 소스 프로젝트
최종 업데이트:
2025/10/03
설명:
AniPortrait는 오디오나 비디오 입력으로 구동되는 포토리얼리스틱 초상화 애니메이션을 생성하는 오픈소스 AI 프레임워크입니다. 자체 구동, 얼굴 재현, 오디오 구동 모드를 지원하여 고품질 비디오 합성을 제공합니다.
공유:
오디오 기반 초상화
애니메이션 합성
얼굴 재현
포즈 재지정
비디오 생성

AniPortrait 개요

AniPortrait란 무엇인가?

AniPortrait는 오디오 기반의 사진 수준 현실적인 포트레이트 애니메이션 합성을 위해 설계된 혁신적인 오픈소스 프레임워크입니다. Huawei Wei, Zejun Yang, Zhisheng Wang이 Tencent Games Zhiji와 Tencent에서 개발한 이 도구는 고급 AI 기법을 활용하여 단일 참조 이미지와 오디오 또는 비디오 입력으로 고품질 애니메이션 포트레이트를 생성합니다. 정적 포트레이트를 음성 오디오로 애니메이션화하거나 소스 비디오의 얼굴 표정을 재현할 때, AniPortrait는 립싱크와 머리 움직임 같은 미묘한 뉘앙스를 포착한 생생한 결과를 제공합니다. 콘텐츠 크리에이터, 게임 개발자, 컴퓨터 비전 연구자에게 이상적이며, AI 비디오 생성 도구 분야에서 포트레이트 특정 애니메이션에 초점을 맞춰 돋보입니다.

GitHub에서 Apache-2.0 라이선스로 출시된 AniPortrait는 5,000개 이상의 별점을 받으며 AI 커뮤니티에서의 인기를 반영합니다. 프로젝트는 접근성을 강조하며, 사전 훈련 모델, 상세 설치 가이드, 간단한 테스트를 위한 Gradio Web UI를 제공합니다.

AniPortrait의 작동 원리

핵심적으로 AniPortrait는 확산 모델, 오디오 처리, 포즈 추정을 통합한 다단계 파이프라인을 사용하여 애니메이션을 생성합니다. 이 프레임워크는 Stable Diffusion V1.5와 wav2vec2 같은 확립된 모델을 특징 추출에 기반하며, 오디오-시각 동기화의 견고한 처리를 보장합니다.

주요 구성 요소와 워크플로

  • 입력 처리: 참조 포트레이트 이미지로 시작합니다. 오디오 기반 모드에서는 wav2vec2-base-960h를 사용하여 오디오 입력을 처리하고 음성 특징을 추출합니다. 비디오 모드에서는 키포인트 추출을 통해 소스 비디오를 포즈 시퀀스로 변환합니다.
  • 포즈 생성: audio2pose 모델이 오디오에서 머리 포즈 시퀀스(예: pose_temp.npy)를 생성하여 얼굴 방향 제어를 가능하게 합니다. 얼굴 재현의 경우, 포즈 리타겟팅 전략이 소스 비디오의 움직임을 참조 이미지로 매핑하며, 상당한 포즈 차이를 지원합니다.
  • 애니메이션 합성: 디노이징 UNet, 참조 UNet, 모션 모듈을 사용하여 프레임을 합성합니다. 포즈 가이더가 정렬을 보장하며, 선택적 프레임 보간이 추론을 가속화합니다.
  • 출력 세련: 512x512 같은 해상도로 비디오를 생성하며, film_net_fp16.pt를 사용한 가속 옵션으로 처리 시간을 줄입니다.

이 모듈식 접근은 사전 정의 포즈를 사용한 자율 애니메이션, 표정 전송을 통한 얼굴 재현, 완전 오디오 기반 합성을 지원하여 다양한 AI 포트레이트 애니메이션 시나리오에 유연합니다.

AniPortrait의 핵심 기능

AniPortrait는 현실적인 포트레이트 애니메이션에 맞춤형 강력한 기능 세트를 제공합니다:

  • 오디오 기반 포트레이트 애니메이션: 오디오 입력에 립 움직임과 표정을 동기화하여 더빙이나 가상 아바타에 완벽합니다.
  • 얼굴 재현: 소스 비디오의 얼굴 퍼포먼스를 타겟 포트레이트로 전송하며, 미디어의 딥페이크 유사 윤리적 애플리케이션에 이상적입니다.
  • 포즈 제어 및 리타겟팅: 업데이트된 전략으로 다양한 머리 포즈를 처리하며, 정밀 제어를 위한 커스텀 포즈 파일 생성을 지원합니다.
  • 고해상도 출력: 사진 수준 현실적인 비디오를 생성하며, 긴 시퀀스(300 프레임 이상)를 지원합니다.
  • 가속 옵션: 프레임 보간과 FP16 모델로 추론을 가속화하며 품질을 유지합니다.
  • Gradio Web UI: 빠른 데모를 위한 사용자 친화적 인터페이스이며, Hugging Face Spaces에서 온라인 액세스 가능.
  • 사전 훈련 모델: audio2mesh, audio2pose, 확산 구성 요소의 가중치를 포함하며, Wisemodel 같은 소스에서 다운로드 가능.

이 기능들은 AniPortrait를 AI 기반 비디오 합성의 필수 도구로 만들며, 포트레이트 충실도와 오디오-시각 일관성에 초점을 맞춰 기본 도구를 능가합니다.

설치 및 설정

Python >=3.10과 CUDA 11.7을 사용하는 사용자에게 시작은 간단합니다:

  1. 저장소 클론: git clone https://github.com/Zejun-Yang/AniPortrait.
  2. 종속성 설치: pip install -r requirements.txt.
  3. ./pretrained_weights/에 사전 훈련 가중치 다운로드, Stable Diffusion 구성 요소, wav2vec2, denoising_unet.pthaudio2pose.pt 같은 커스텀 모델 포함.
  4. README의 디렉토리 구조에 따라 파일 정리.

훈련을 위해 VFHQ나 CelebV-HQ 같은 데이터셋을 준비하고 키포인트를 추출하며 프리프로세싱 스크립트 실행. Accelerate를 사용한 분산 처리로 2단계 훈련 진행.

AniPortrait 사용 방법

추론 모드

AniPortrait는 명령줄 스크립트를 통해 3가지 주요 모드를 지원합니다:

  • 자율 애니메이션:

    python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc
    

    참조 이미지나 포즈 비디오로 사용자 지정. 비디오를 포즈로 변환: python -m scripts.vid2pose --video_path input.mp4.

  • 얼굴 재현:

    python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc
    

    YAML 편집으로 소스 비디오와 참조 포함.

  • 오디오 기반 합성:

    python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc
    

    구성에 오디오와 이미지 추가. pose_temp 제거로 audio2pose 활성화하여 자동 포즈 생성.

머리 포즈 제어를 위해 python -m scripts.generate_ref_pose로 참조 포즈 생성.

Web 데모

Gradio UI 실행: python -m scripts.app. 또는 Hugging Face Spaces의 온라인 버전 시도.

사용자는 'cxk.mp4'나 'jijin.mp4' 같은 샘플 비디오로 오디오 싱크를 실험할 수 있으며, 이러한 샘플은 Bilibili 같은 플랫폼에서 유래합니다.

처음부터 AniPortrait 훈련

고급 사용자는 커스텀 모델을 훈련할 수 있습니다:

  1. 데이터 준비: 데이터셋 다운로드, python -m scripts.preprocess_dataset으로 프리프로세스, JSON 경로 업데이트.
  2. 단계 1: accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml.
  3. 단계 2: 모션 모듈 가중치 다운로드, 단계 1 체크포인트 지정, accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml 실행.

이 프로세스는 포트레이트 특정 데이터에서 미세 조정하며, AI 애니메이션 작업의 일반화를 강화합니다.

왜 AniPortrait를 선택하나?

AI 비디오 생성 도구의 혼잡한 분야에서 AniPortrait는 사진 수준 현실적인 포트레이트에 특화되어 탁월합니다. 범용 모델과 달리 오디오 립 싱크와 미묘한 표정을 정밀하게 처리하여 얼굴 애니메이션의 아티팩트를 줄입니다. 오픈소스 특성이 커스터마이징을 허용하며, 2024년 4월 audio2pose 릴리스와 가속 모듈 같은 최근 업데이트가 최첨단을 유지합니다. EMO와 AnimateAnyone 같은 프로젝트에 대한 커뮤니티 인정은 협력적 뿌리를 강조하며, 신뢰할 수 있는 성능을 보장합니다.

실용적 가치는 가상 인플루언서, 교육 비디오, 게임 에셋의 빠른 프로토타이핑을 포함합니다. arXiv 논문( eprint 2403.17694 ) 가용성으로 컴퓨터 비전에서 오디오-시각 합성을 탐구하는 연구자에게 유용합니다.

AniPortrait는 누구를 위한 것인가?

  • 콘텐츠 크리에이터와 영화 제작자: 단편 비디오의 빠른 더빙이나 표정 전송을 위해.
  • Tencent 스타일 스튜디오의 게임 개발자: 인터랙티브 미디어에 애니메이션 포트레이트 통합.
  • AI 연구자: 확산 기반 애니메이션과 포즈 리타겟팅 실험.
  • 취미 사용자와 교육자: 무거운 설정 없이 Web UI로 AI 개념 가르침.

오디오 기반 포트레이트 애니메이션을 생성하는 최선의 방법을 찾는다면, AniPortrait의 품질, 속도, 접근성 균형이 최고 선택입니다.

잠재적 애플리케이션과 사용 사례

  • 가상 아바타: 소셜 미디어 또는 메타버스에서 동기화 음성으로 디지털 캐릭터 애니메이션.
  • 교육 도구: 강의나 튜토리얼을 위한 토킹 헤드 비디오 생성.
  • 미디어 제작: 역사 재현이나 광고를 위한 윤리적 얼굴 재현.
  • 연구 프로토타이핑: CV 논문에서 오디오-투-비디오 모델 벤치마킹.

데모에는 'solo.mp4' 같은 자율 클립과 'kara.mp4' 같은 오디오 예시가 포함되어 원활한 통합을 보여줍니다.

문제 해결을 위해 GitHub의 76개 오픈 이슈 확인 또는 풀 리퀘스트로 기여. 전체적으로 AniPortrait는 신뢰할 수 있고 고忠実 결과로 AI 포트레이트 애니메이션의 경계를 넓히는 사용자를 강화합니다.

"AniPortrait"의 최고의 대체 도구

Lip Sync AI
이미지가 없습니다
202 0

Lip Sync AI는 고급 AI 립싱크 기술을 사용하여 정지 사진을 말하는 비디오로 변환합니다. 사진과 오디오 파일을 업로드하여 자연스러운 표정으로 사실적인 립싱크 비디오를 생성하십시오.

AI 립싱크
말하는 사진
Mango AI
이미지가 없습니다
245 0

Mango AI는 말하는 사진, 아바타, 얼굴 바꾸기를 손쉽게 만들 수 있는 AI 기반 비디오 생성기입니다. 마케터, 교육자 및 콘텐츠 제작자에게 이상적입니다.

AI 비디오 생성
얼굴 바꾸기
AudioX
이미지가 없습니다
283 0

AudioX는 텍스트, 이미지 및 비디오를 전문적인 오디오로 변환하는 AI 오디오 생성 플랫폼입니다. 오디오 전문 지식이 없어도 음악, 음향 효과 및 음성 콘텐츠를 빠르고 쉽게 생성할 수 있습니다.

AI 오디오 생성
HitPaw AI Marvels
이미지가 없습니다
270 0

HitPaw AI Marvels는 고급 AI 기술을 사용하여 사진과 동영상을 변환하는 올인원 모바일 앱입니다. AI 댄스 동영상, 애니메이션 필터, 객체 제거, 사진 복원 및 스타일 변환 기능을 원클릭 편집으로 제공합니다.

사진향상
동영상애니메이션
AI필터
VisionFX
이미지가 없습니다
294 0

VisionFX는 고급 AI 기술을 사용하여 이미지, 비디오, 음악 및 음성 콘텐츠를 생성하는 올인원 AI 크리에이티브 스튜디오입니다. 콘텐츠 제작자, 디자이너 및 마케터에게 완벽합니다.

AI 이미지 생성기
AIVidly
이미지가 없습니다
297 0

AIVidly는 iPhone용 올인원 AI 비디오 메이커 앱으로, 텍스트를 AI 음성 오버, 효과, TikTok 및 YouTube Shorts 최적화의 전문 비디오로 변환합니다. 편집 기술 불필요.

텍스트에서 비디오
AI 음성 오버
PICOAI
이미지가 없습니다
288 0

PICOAI.app은 최첨단 AI 도구를 제공하여 멋진 이미지와 비디오를 생성합니다. 최신 생성 AI 모델을 사용하여 쉽게 전문 콘텐츠를 만드세요.

이미지 생성
비디오 생성
MirrorizeAI
이미지가 없습니다
279 0

MirrorizeAI는 크리에이터들이 시네마틱 리얼리즘으로 멋진 이미지, 비디오, 음악을 생성할 수 있는 활기찬 AI 아트 커뮤니티입니다. 글로벌 협업, 빠른 반복, 구독 없이 상상력을 해방하세요.

시네마틱 AI 아트
생성 음악
Wan 2.2 AI
이미지가 없습니다
325 0

Wan 2.2 AI를 발견하세요. 이는 시네마-급 컨트롤, 전문 모션, 720p 해상도로 텍스트-투-비디오 및 이미지-투-비디오 생성을 위한 최첨단 플랫폼입니다. 고품질 AI 비디오 도구를 찾는 크리에이터, 마케터, 프로듀서에게 이상적입니다。

텍스트-투-비디오 생성
Vondy
이미지가 없습니다
137 0

Vondy는 로고, 아트, 글쓰기, 오디오 등의 즉시 생성을 위한 수천 개의 생성기를 제공하는 혁신적인 AI 플랫폼입니다. 100만 명 이상의 크리에이터와 함께 꿈꾸고, 구축하고, 디지털 자산을 쉽게 다듬으세요.

AI 콘텐츠 생성
로고 디자인
CharGen
이미지가 없습니다
436 0

CharGen은 D&D, Pathfinder 및 RPG 애호가를 위한 캐릭터, NPC, 몬스터, 지도 및 캠페인 도구를 생성하는 AI 기반 판타지 콘텐츠 생성기입니다.

판타지 캐릭터 생성기
Powerusers AI
이미지가 없습니다
376 0

Powerusers AI는 비즈니스와 일상 생활에서 생산성을 10배 향상시킬 수 있도록 AI를 활용하는 데 도움이 되는 최고의 AI 도구 디렉토리 및 리소스입니다.

AI 도구 디렉토리
Wondershare
이미지가 없습니다
423 0

Wondershare는 비디오 편집, PDF 관리, 데이터 복구 등을 위한 광범위한 AI 기반 창의성, 생산성 및 유틸리티 솔루션을 제공합니다.

AI 비디오 편집
PDF 관리
Eadlyn
이미지가 없습니다
279 0

Eadlyn은 AI를 사용하여 초상화와 음성을 복제하여 추억을 되살릴 수 있습니다. 음성 모델을 만들고 현실적인 디지털 라이프를 생성합니다.

AI 음성
음성 복제
초상화 AI