AniPortrait の概要
AniPortrait とは?
AniPortrait は、オーディオ駆動のフォトリアリスティックなポートレートアニメーション合成のための革新的なオープンソースフレームワークです。Huawei Wei、Zejun Yang、Zhisheng Wang によって Tencent Games Zhiji および Tencent で開発されたこのツールは、高度な AI 技術を活用して、単一の参照画像とオーディオまたはビデオ入力から高品質のアニメーテッドポートレートを作成します。静的なポートレートをスピーチオーディオでアニメートしたり、ソースビデオから顔の表情を再現したりする場合、AniPortrait は唇同期や頭部の動きなどの微妙なニュアンスを捉えたリアルな結果を提供します。コンテンツクリエイター、ゲーム開発者、コンピュータビジョンの研究者にとって理想的で、AI ビデオ生成ツールの分野でポートレート特化のアニメーションに焦点を当てて際立っています。
GitHub で Apache-2.0 ライセンスの下でリリースされ、AniPortrait は AI コミュニティで 5,000 以上のスターを集め、その人気を反映しています。プロジェクトはアクセシビリティを重視し、事前訓練モデル、詳細なインストールガイド、簡単なテストのための Gradio Web UI を提供しています。
AniPortrait の仕組み
その核心では、AniPortrait は拡散モデル、オーディオ処理、ポーズ推定を統合した多段階パイプラインを採用してアニメーションを生成します。このフレームワークは、Stable Diffusion V1.5 や wav2vec2 などの確立されたモデルを特徴抽出に基盤とし、オーディオビジュアル同期の堅牢な処理を確保します。
主要コンポーネントとワークフロー
- 入力処理: 参照ポートレート画像から開始します。オーディオ駆動モードでは、wav2vec2-base-960h を使用してオーディオ入力を処理し、スピーチ特徴を抽出します。ビデオモードでは、キー点抽出によりソースビデオをポーズシーケンスに変換します。
- ポーズ生成: audio2pose モデルがオーディオから頭部ポーズシーケンス(例: pose_temp.npy)を生成し、顔の向きを制御します。顔再現の場合、ポーズリターゲティング戦略がソースビデオの動きを参照画像にマッピングし、大きなポーズ差をサポートします。
- アニメーション合成: デノイジング UNet、参照 UNet、モーションモジュールを使用してフレームを合成します。ポーズガイダーがアライメントを確保し、オプションのフレーム補間が推論を加速します。
- 出力洗練: 512x512 などの解像度でビデオを生成し、film_net_fp16.pt を使用した加速オプションで処理時間を短縮します。
このモジュール式アプローチにより、自己駆動アニメーション(事前定義ポーズ使用)、顔再現(表情転送)、完全オーディオ駆動合成が可能で、さまざまな AI ポートレートアニメーションシナリオに適応します。
AniPortrait のコア機能
AniPortrait は、現実的なポートレートアニメーションに特化した強力な機能群を備えています:
- オーディオ駆動ポートレートアニメーション: オーディオ入力に唇の動きと表情を同期し、吹き替えや仮想アバターに最適です。
- 顔再現: ソースビデオの顔のパフォーマンスをターゲットポートレートに転送し、メディアでのディープフェイク風の倫理的アプリケーションに理想的です。
- ポーズ制御とリターゲティング: 更新された戦略で多様な頭部ポーズを扱い、カスタムポーズファイルの生成で精密制御をサポートします。
- 高解像度出力: フォトリアリスティックなビデオを生成し、長シーケンス(300 フレーム以上)をサポートします。
- 加速オプション: フレーム補間と FP16 モデルで推論を高速化し、品質を犠牲にしません。
- Gradio Web UI: クイックデモのためのユーザー友好インターフェースで、Hugging Face Spaces でオンラインアクセス可能。
- 事前訓練モデル: audio2mesh、audio2pose、拡散コンポーネントのウェイトを含み、Wisemodel などのソースからダウンロード可能。
これらの機能により、AniPortrait は AI 駆動ビデオ合成の定番ツールとなり、ポートレートの忠実度とオーディオビジュアルの一貫性に焦点を当てて基本ツールを上回ります。
インストールとセットアップ
Python >=3.10 と CUDA 11.7 を使用するユーザーにとって、開始は簡単です:
- リポジトリをクローン:
git clone https://github.com/Zejun-Yang/AniPortrait
。 - 依存関係をインストール:
pip install -r requirements.txt
。 - 事前訓練ウェイトを
./pretrained_weights/
にダウンロード、Stable Diffusion コンポーネント、wav2vec2、カスタムモデル如denoising_unet.pth
とaudio2pose.pt
を含む。 - README のディレクトリ構造に従ってファイルを整理。
トレーニングのため、VFHQ や CelebV-HQ などのデータセットを準備し、キー点を抽出してプリプロセッシングスクリプトを実行。Accelerate を使用した分散処理で 2 段階のトレーニングを行います。
AniPortrait の使い方
推論モード
AniPortrait はコマンドラインスクリプト経由で 3 つの主要モードをサポートします:
自己駆動アニメーション:
python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc
参照画像やポーズビデオでカスタマイズ。ビデオをポーズに変換:
python -m scripts.vid2pose --video_path input.mp4
。顔再現:
python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc
YAML を編集してソースビデオと参照を追加。
オーディオ駆動合成:
python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc
コンフィグにオーディオと画像を追加。pose_temp を削除して audio2pose を有効にし、自動ポーズ生成。
頭部ポーズ制御のため、python -m scripts.generate_ref_pose
で参照ポーズを生成。
Web デモ
Gradio UI を起動:python -m scripts.app
。または Hugging Face Spaces のオンライン版を試す。
ユーザーは 'cxk.mp4' や 'jijin.mp4' などのサンプルビデオでオーディオ同期を実験可能、こうしたサンプルは Bilibili などのプラットフォームから来ています。
ゼロから AniPortrait をトレーニング
上級ユーザーはカスタムモデルをトレーニング可能:
- データ準備: データセットをダウンロード、
python -m scripts.preprocess_dataset
でプリプロセスし、JSON パスを更新。 - ステージ 1:
accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml
。 - ステージ 2: モーションモジュールウェイトをダウンロード、ステージ 1 チェックポイントを指定し、
accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml
を実行。
このプロセスはポートレート特化データで微調整し、AI アニメーションタスクの汎用性を向上させます。
なぜ AniPortrait を選ぶか?
AI ビデオ生成ツールの混雑した分野で、AniPortrait はフォトリアリスティックなポートレートへの特化で優れています。一般目的モデルとは異なり、オーディオリップシンクと微妙な表情を精密に扱い、顔アニメーションの偽影を低減します。オープンソースの性質がカスタマイズを可能にし、2024 年 4 月の audio2pose リリースや加速モジュールなどの最近の更新が最先端を維持します。EMO や AnimateAnyone などのプロジェクトへのコミュニティの感謝がその協力的なルーツを強調し、信頼性の高いパフォーマンスを確保します。
実用的価値には、仮想インフルエンサー、教育ビデオ、ゲームアセットの高速プロトタイピングが含まれます。arXiv 論文(eprint 2403.17694)の利用可能性により、コンピュータビジョンでのオーディオビジュアル合成を探求する研究者に役立ちます。
AniPortrait は誰向けか?
- コンテンツクリエイターと映画製作者: ショートフォームビデオのクイック吹き替えや表情転送に。
- Tencent 風スタジオのゲーム開発者: インタラクティブメディアへのアニメーテッドポートレート統合。
- AI 研究者: 拡散ベースアニメーションとポーズリターゲティングの実験。
- 趣味家と教育者: 重いセットアップなしで Web UI を使用して AI 概念を教える。
オーディオ駆動ポートレートアニメーションを作成する最高の方法を探しているなら、AniPortrait の品質、速度、アクセシビリティのバランスがトップチョイスにします。
潜在的なアプリケーションとユースケース
- 仮想アバター: ソーシャルメディアやメタバース向けに同期スピーチでデジタルキャラクターをアニメート。
- 教育ツール: 講義やチュートリアル向けのトーキングヘッドビデオ生成。
- メディア制作: 歴史再現や広告のための倫理的顔再現。
- 研究プロトタイピング: CV 論文でのオーディオtoビデオモデルのベンチマーク。
デモンストレーションには 'solo.mp4' のような自己駆動クリップと 'kara.mp4' のようなオーディオ例が含まれ、無縫の統合を示します。
トラブルシューティングのため、GitHub の 76 のオープンイシューを確認するか、プルリクエストで貢献。全体として、AniPortrait は信頼性が高く高忠実度の結果で AI ポートレートアニメーションの限界を押し広げるユーザーをエンパワーします。
"AniPortrait" のベストな代替ツール


Alle-AIは、ChatGPT、Gemini、Claude、DALL-E 2、Stable Diffusion、Midjourneyからの出力を組み合わせて比較する、テキスト、画像、オーディオ、ビデオ生成用のオールインワンAIプラットフォームです。


DeepFictionは、AIストーリー、画像、ビデオジェネレーターでストーリーテリングに革命を起こします。魅惑的な物語、素晴らしいビジュアル、魅力的なビデオを簡単に作成できます。ストーリーテラー、マーケター、クリエイターに最適です。

Minimax AIやLuma AIのようなAIビデオ生成技術とツールを探索。テキストプロンプトからビデオを作成し、ビデオ制作を強化。

SeaArt AIは、アート、ビデオ、オーディオ、AIチャットのためのオールインワンAIクリエイティブコミュニティです。AIアート、ビデオ、オーディオを生成し、AIモデルをトレーニングし、AIキャラクターとつながりましょう。


AI音楽、画像、音声用のオールインワンAIビデオジェネレーターであるSuperMaker AIで、未来のビデオ制作を体験してください。シネマ品質のビデオを簡単に作成できます。無料で開始でき、ログインは不要です!

PixNova AIは、写真、ビデオ、編集、顔交換などのためのオールインワンAI画像&ビデオジェネレータープラットフォームです。創造性を刺激し、無料で開始できます。

Kandinskyを使用してAIで画像を生成、編集、スタイル設定します。アイデアを数秒でビジュアルに変えます。無料で、どのデバイスからでもアクセスできます。Fusion Brain AIを搭載。

Potionは、自分の顔、声、ジェスチャーを使用して、無制限のパーソナライズされたビデオを作成できるAIビデオジェネレーターです。 マーケティング、販売、サポートに最適です。

VideoGenで瞬時にビデオを生成。最速のAIビデオ作成体験です。AIを使って数秒でビデオを作成、編集、共有できます。今すぐ無料でお試しください。

FLUX AIを搭載した無料のAI画像およびビデオジェネレーターであるFluxPictureを使用して、素晴らしい画像とビデオを作成します。Kreaでフォトリアリスティックな画像を生成し、Wan 2.2でビデオを生成します。今日から作成を始めましょう!

Kie.aiは、テキスト、音楽、ビデオ生成のための手頃な価格で安定したAI APIを提供します。 高い同時実行サポート、リアルタイムストリーミング出力、包括的なAPIドキュメントにより、高度なAI機能をプロジェクトに簡単に統合できます。
