AniPortrait: AI 오디오 기반 초상화 애니메이션 도구

AniPortrait 개요

AniPortrait란 무엇인가?

AniPortrait는 오디오 기반의 사진 수준 현실적인 포트레이트 애니메이션 합성을 위해 설계된 혁신적인 오픈소스 프레임워크입니다. Huawei Wei, Zejun Yang, Zhisheng Wang이 Tencent Games Zhiji와 Tencent에서 개발한 이 도구는 고급 AI 기법을 활용하여 단일 참조 이미지와 오디오 또는 비디오 입력으로 고품질 애니메이션 포트레이트를 생성합니다. 정적 포트레이트를 음성 오디오로 애니메이션화하거나 소스 비디오의 얼굴 표정을 재현할 때, AniPortrait는 립싱크와 머리 움직임 같은 미묘한 뉘앙스를 포착한 생생한 결과를 제공합니다. 콘텐츠 크리에이터, 게임 개발자, 컴퓨터 비전 연구자에게 이상적이며, AI 비디오 생성 도구 분야에서 포트레이트 특정 애니메이션에 초점을 맞춰 돋보입니다.

GitHub에서 Apache-2.0 라이선스로 출시된 AniPortrait는 5,000개 이상의 별점을 받으며 AI 커뮤니티에서의 인기를 반영합니다. 프로젝트는 접근성을 강조하며, 사전 훈련 모델, 상세 설치 가이드, 간단한 테스트를 위한 Gradio Web UI를 제공합니다.

AniPortrait의 작동 원리

핵심적으로 AniPortrait는 확산 모델, 오디오 처리, 포즈 추정을 통합한 다단계 파이프라인을 사용하여 애니메이션을 생성합니다. 이 프레임워크는 Stable Diffusion V1.5와 wav2vec2 같은 확립된 모델을 특징 추출에 기반하며, 오디오-시각 동기화의 견고한 처리를 보장합니다.

주요 구성 요소와 워크플로

입력 처리: 참조 포트레이트 이미지로 시작합니다. 오디오 기반 모드에서는 wav2vec2-base-960h를 사용하여 오디오 입력을 처리하고 음성 특징을 추출합니다. 비디오 모드에서는 키포인트 추출을 통해 소스 비디오를 포즈 시퀀스로 변환합니다.
포즈 생성: audio2pose 모델이 오디오에서 머리 포즈 시퀀스(예: pose_temp.npy)를 생성하여 얼굴 방향 제어를 가능하게 합니다. 얼굴 재현의 경우, 포즈 리타겟팅 전략이 소스 비디오의 움직임을 참조 이미지로 매핑하며, 상당한 포즈 차이를 지원합니다.
애니메이션 합성: 디노이징 UNet, 참조 UNet, 모션 모듈을 사용하여 프레임을 합성합니다. 포즈 가이더가 정렬을 보장하며, 선택적 프레임 보간이 추론을 가속화합니다.
출력 세련: 512x512 같은 해상도로 비디오를 생성하며, film_net_fp16.pt를 사용한 가속 옵션으로 처리 시간을 줄입니다.

이 모듈식 접근은 사전 정의 포즈를 사용한 자율 애니메이션, 표정 전송을 통한 얼굴 재현, 완전 오디오 기반 합성을 지원하여 다양한 AI 포트레이트 애니메이션 시나리오에 유연합니다.

AniPortrait의 핵심 기능

AniPortrait는 현실적인 포트레이트 애니메이션에 맞춤형 강력한 기능 세트를 제공합니다:

오디오 기반 포트레이트 애니메이션: 오디오 입력에 립 움직임과 표정을 동기화하여 더빙이나 가상 아바타에 완벽합니다.
얼굴 재현: 소스 비디오의 얼굴 퍼포먼스를 타겟 포트레이트로 전송하며, 미디어의 딥페이크 유사 윤리적 애플리케이션에 이상적입니다.
포즈 제어 및 리타겟팅: 업데이트된 전략으로 다양한 머리 포즈를 처리하며, 정밀 제어를 위한 커스텀 포즈 파일 생성을 지원합니다.
고해상도 출력: 사진 수준 현실적인 비디오를 생성하며, 긴 시퀀스(300 프레임 이상)를 지원합니다.
가속 옵션: 프레임 보간과 FP16 모델로 추론을 가속화하며 품질을 유지합니다.
Gradio Web UI: 빠른 데모를 위한 사용자 친화적 인터페이스이며, Hugging Face Spaces에서 온라인 액세스 가능.
사전 훈련 모델: audio2mesh, audio2pose, 확산 구성 요소의 가중치를 포함하며, Wisemodel 같은 소스에서 다운로드 가능.

이 기능들은 AniPortrait를 AI 기반 비디오 합성의 필수 도구로 만들며, 포트레이트 충실도와 오디오-시각 일관성에 초점을 맞춰 기본 도구를 능가합니다.

설치 및 설정

Python >=3.10과 CUDA 11.7을 사용하는 사용자에게 시작은 간단합니다:

저장소 클론: git clone https://github.com/Zejun-Yang/AniPortrait.
종속성 설치: pip install -r requirements.txt.
./pretrained_weights/에 사전 훈련 가중치 다운로드, Stable Diffusion 구성 요소, wav2vec2, denoising_unet.pth와 audio2pose.pt 같은 커스텀 모델 포함.
README의 디렉토리 구조에 따라 파일 정리.

훈련을 위해 VFHQ나 CelebV-HQ 같은 데이터셋을 준비하고 키포인트를 추출하며 프리프로세싱 스크립트 실행. Accelerate를 사용한 분산 처리로 2단계 훈련 진행.

AniPortrait 사용 방법

추론 모드

AniPortrait는 명령줄 스크립트를 통해 3가지 주요 모드를 지원합니다:

자율 애니메이션:
```
python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc
```
참조 이미지나 포즈 비디오로 사용자 지정. 비디오를 포즈로 변환: python -m scripts.vid2pose --video_path input.mp4.

얼굴 재현:

python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc

YAML 편집으로 소스 비디오와 참조 포함.

오디오 기반 합성:
```
python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc
```
구성에 오디오와 이미지 추가. pose_temp 제거로 audio2pose 활성화하여 자동 포즈 생성.

머리 포즈 제어를 위해 python -m scripts.generate_ref_pose로 참조 포즈 생성.

Web 데모

Gradio UI 실행: python -m scripts.app. 또는 Hugging Face Spaces의 온라인 버전 시도.

사용자는 'cxk.mp4'나 'jijin.mp4' 같은 샘플 비디오로 오디오 싱크를 실험할 수 있으며, 이러한 샘플은 Bilibili 같은 플랫폼에서 유래합니다.

처음부터 AniPortrait 훈련

고급 사용자는 커스텀 모델을 훈련할 수 있습니다:

데이터 준비: 데이터셋 다운로드, python -m scripts.preprocess_dataset으로 프리프로세스, JSON 경로 업데이트.
단계 1: accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml.
단계 2: 모션 모듈 가중치 다운로드, 단계 1 체크포인트 지정, accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml 실행.

이 프로세스는 포트레이트 특정 데이터에서 미세 조정하며, AI 애니메이션 작업의 일반화를 강화합니다.

왜 AniPortrait를 선택하나?

AI 비디오 생성 도구의 혼잡한 분야에서 AniPortrait는 사진 수준 현실적인 포트레이트에 특화되어 탁월합니다. 범용 모델과 달리 오디오 립 싱크와 미묘한 표정을 정밀하게 처리하여 얼굴 애니메이션의 아티팩트를 줄입니다. 오픈소스 특성이 커스터마이징을 허용하며, 2024년 4월 audio2pose 릴리스와 가속 모듈 같은 최근 업데이트가 최첨단을 유지합니다. EMO와 AnimateAnyone 같은 프로젝트에 대한 커뮤니티 인정은 협력적 뿌리를 강조하며, 신뢰할 수 있는 성능을 보장합니다.

실용적 가치는 가상 인플루언서, 교육 비디오, 게임 에셋의 빠른 프로토타이핑을 포함합니다. arXiv 논문( eprint 2403.17694 ) 가용성으로 컴퓨터 비전에서 오디오-시각 합성을 탐구하는 연구자에게 유용합니다.

AniPortrait는 누구를 위한 것인가?

콘텐츠 크리에이터와 영화 제작자: 단편 비디오의 빠른 더빙이나 표정 전송을 위해.
Tencent 스타일 스튜디오의 게임 개발자: 인터랙티브 미디어에 애니메이션 포트레이트 통합.
AI 연구자: 확산 기반 애니메이션과 포즈 리타겟팅 실험.
취미 사용자와 교육자: 무거운 설정 없이 Web UI로 AI 개념 가르침.

오디오 기반 포트레이트 애니메이션을 생성하는 최선의 방법을 찾는다면, AniPortrait의 품질, 속도, 접근성 균형이 최고 선택입니다.

잠재적 애플리케이션과 사용 사례

가상 아바타: 소셜 미디어 또는 메타버스에서 동기화 음성으로 디지털 캐릭터 애니메이션.
교육 도구: 강의나 튜토리얼을 위한 토킹 헤드 비디오 생성.
미디어 제작: 역사 재현이나 광고를 위한 윤리적 얼굴 재현.
연구 프로토타이핑: CV 논문에서 오디오-투-비디오 모델 벤치마킹.

데모에는 'solo.mp4' 같은 자율 클립과 'kara.mp4' 같은 오디오 예시가 포함되어 원활한 통합을 보여줍니다.

문제 해결을 위해 GitHub의 76개 오픈 이슈 확인 또는 풀 리퀘스트로 기여. 전체적으로 AniPortrait는 신뢰할 수 있고 고忠実 결과로 AI 포트레이트 애니메이션의 경계를 넓히는 사용자를 강화합니다.

AniPortrait의 웹사이트 방문

"AniPortrait"의 최고의 대체 도구

AniPortrait의 추가 대안

즐겨찾기에 추가

즐겨찾기 편집

AniPortrait