AniPortrait: AIオーディオ駆動型ポートレートアニメーションツール

AniPortrait

3.5 | 20 | 0
しゅるい:
オープンソースプロジェクト
最終更新:
2025/10/03
説明:
AniPortraitは、オープンソースのAIフレームワークで、音声またはビデオ入力によって駆動されるフォトリアリスティックなポートレートアニメーションを生成します。自駆動、顔再現、オーディオ駆動モードをサポートし、高品質なビデオ合成を実現します。
共有:
オーディオ駆動ポートレート
アニメーション合成
顔再現
ポーズリターゲティング
ビデオ生成

AniPortrait の概要

AniPortrait とは?

AniPortrait は、オーディオ駆動のフォトリアリスティックなポートレートアニメーション合成のための革新的なオープンソースフレームワークです。Huawei Wei、Zejun Yang、Zhisheng Wang によって Tencent Games Zhiji および Tencent で開発されたこのツールは、高度な AI 技術を活用して、単一の参照画像とオーディオまたはビデオ入力から高品質のアニメーテッドポートレートを作成します。静的なポートレートをスピーチオーディオでアニメートしたり、ソースビデオから顔の表情を再現したりする場合、AniPortrait は唇同期や頭部の動きなどの微妙なニュアンスを捉えたリアルな結果を提供します。コンテンツクリエイター、ゲーム開発者、コンピュータビジョンの研究者にとって理想的で、AI ビデオ生成ツールの分野でポートレート特化のアニメーションに焦点を当てて際立っています。

GitHub で Apache-2.0 ライセンスの下でリリースされ、AniPortrait は AI コミュニティで 5,000 以上のスターを集め、その人気を反映しています。プロジェクトはアクセシビリティを重視し、事前訓練モデル、詳細なインストールガイド、簡単なテストのための Gradio Web UI を提供しています。

AniPortrait の仕組み

その核心では、AniPortrait は拡散モデル、オーディオ処理、ポーズ推定を統合した多段階パイプラインを採用してアニメーションを生成します。このフレームワークは、Stable Diffusion V1.5 や wav2vec2 などの確立されたモデルを特徴抽出に基盤とし、オーディオビジュアル同期の堅牢な処理を確保します。

主要コンポーネントとワークフロー

  • 入力処理: 参照ポートレート画像から開始します。オーディオ駆動モードでは、wav2vec2-base-960h を使用してオーディオ入力を処理し、スピーチ特徴を抽出します。ビデオモードでは、キー点抽出によりソースビデオをポーズシーケンスに変換します。
  • ポーズ生成: audio2pose モデルがオーディオから頭部ポーズシーケンス(例: pose_temp.npy)を生成し、顔の向きを制御します。顔再現の場合、ポーズリターゲティング戦略がソースビデオの動きを参照画像にマッピングし、大きなポーズ差をサポートします。
  • アニメーション合成: デノイジング UNet、参照 UNet、モーションモジュールを使用してフレームを合成します。ポーズガイダーがアライメントを確保し、オプションのフレーム補間が推論を加速します。
  • 出力洗練: 512x512 などの解像度でビデオを生成し、film_net_fp16.pt を使用した加速オプションで処理時間を短縮します。

このモジュール式アプローチにより、自己駆動アニメーション(事前定義ポーズ使用)、顔再現(表情転送)、完全オーディオ駆動合成が可能で、さまざまな AI ポートレートアニメーションシナリオに適応します。

AniPortrait のコア機能

AniPortrait は、現実的なポートレートアニメーションに特化した強力な機能群を備えています:

  • オーディオ駆動ポートレートアニメーション: オーディオ入力に唇の動きと表情を同期し、吹き替えや仮想アバターに最適です。
  • 顔再現: ソースビデオの顔のパフォーマンスをターゲットポートレートに転送し、メディアでのディープフェイク風の倫理的アプリケーションに理想的です。
  • ポーズ制御とリターゲティング: 更新された戦略で多様な頭部ポーズを扱い、カスタムポーズファイルの生成で精密制御をサポートします。
  • 高解像度出力: フォトリアリスティックなビデオを生成し、長シーケンス(300 フレーム以上)をサポートします。
  • 加速オプション: フレーム補間と FP16 モデルで推論を高速化し、品質を犠牲にしません。
  • Gradio Web UI: クイックデモのためのユーザー友好インターフェースで、Hugging Face Spaces でオンラインアクセス可能。
  • 事前訓練モデル: audio2mesh、audio2pose、拡散コンポーネントのウェイトを含み、Wisemodel などのソースからダウンロード可能。

これらの機能により、AniPortrait は AI 駆動ビデオ合成の定番ツールとなり、ポートレートの忠実度とオーディオビジュアルの一貫性に焦点を当てて基本ツールを上回ります。

インストールとセットアップ

Python >=3.10 と CUDA 11.7 を使用するユーザーにとって、開始は簡単です:

  1. リポジトリをクローン:git clone https://github.com/Zejun-Yang/AniPortrait
  2. 依存関係をインストール:pip install -r requirements.txt
  3. 事前訓練ウェイトを ./pretrained_weights/ にダウンロード、Stable Diffusion コンポーネント、wav2vec2、カスタムモデル如 denoising_unet.pthaudio2pose.pt を含む。
  4. README のディレクトリ構造に従ってファイルを整理。

トレーニングのため、VFHQ や CelebV-HQ などのデータセットを準備し、キー点を抽出してプリプロセッシングスクリプトを実行。Accelerate を使用した分散処理で 2 段階のトレーニングを行います。

AniPortrait の使い方

推論モード

AniPortrait はコマンドラインスクリプト経由で 3 つの主要モードをサポートします:

  • 自己駆動アニメーション

    python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc
    

    参照画像やポーズビデオでカスタマイズ。ビデオをポーズに変換:python -m scripts.vid2pose --video_path input.mp4

  • 顔再現

    python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc
    

    YAML を編集してソースビデオと参照を追加。

  • オーディオ駆動合成

    python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc
    

    コンフィグにオーディオと画像を追加。pose_temp を削除して audio2pose を有効にし、自動ポーズ生成。

頭部ポーズ制御のため、python -m scripts.generate_ref_pose で参照ポーズを生成。

Web デモ

Gradio UI を起動:python -m scripts.app。または Hugging Face Spaces のオンライン版を試す。

ユーザーは 'cxk.mp4' や 'jijin.mp4' などのサンプルビデオでオーディオ同期を実験可能、こうしたサンプルは Bilibili などのプラットフォームから来ています。

ゼロから AniPortrait をトレーニング

上級ユーザーはカスタムモデルをトレーニング可能:

  1. データ準備: データセットをダウンロード、python -m scripts.preprocess_dataset でプリプロセスし、JSON パスを更新。
  2. ステージ 1: accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml
  3. ステージ 2: モーションモジュールウェイトをダウンロード、ステージ 1 チェックポイントを指定し、accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml を実行。

このプロセスはポートレート特化データで微調整し、AI アニメーションタスクの汎用性を向上させます。

なぜ AniPortrait を選ぶか?

AI ビデオ生成ツールの混雑した分野で、AniPortrait はフォトリアリスティックなポートレートへの特化で優れています。一般目的モデルとは異なり、オーディオリップシンクと微妙な表情を精密に扱い、顔アニメーションの偽影を低減します。オープンソースの性質がカスタマイズを可能にし、2024 年 4 月の audio2pose リリースや加速モジュールなどの最近の更新が最先端を維持します。EMO や AnimateAnyone などのプロジェクトへのコミュニティの感謝がその協力的なルーツを強調し、信頼性の高いパフォーマンスを確保します。

実用的価値には、仮想インフルエンサー、教育ビデオ、ゲームアセットの高速プロトタイピングが含まれます。arXiv 論文(eprint 2403.17694)の利用可能性により、コンピュータビジョンでのオーディオビジュアル合成を探求する研究者に役立ちます。

AniPortrait は誰向けか?

  • コンテンツクリエイターと映画製作者: ショートフォームビデオのクイック吹き替えや表情転送に。
  • Tencent 風スタジオのゲーム開発者: インタラクティブメディアへのアニメーテッドポートレート統合。
  • AI 研究者: 拡散ベースアニメーションとポーズリターゲティングの実験。
  • 趣味家と教育者: 重いセットアップなしで Web UI を使用して AI 概念を教える。

オーディオ駆動ポートレートアニメーションを作成する最高の方法を探しているなら、AniPortrait の品質、速度、アクセシビリティのバランスがトップチョイスにします。

潜在的なアプリケーションとユースケース

  • 仮想アバター: ソーシャルメディアやメタバース向けに同期スピーチでデジタルキャラクターをアニメート。
  • 教育ツール: 講義やチュートリアル向けのトーキングヘッドビデオ生成。
  • メディア制作: 歴史再現や広告のための倫理的顔再現。
  • 研究プロトタイピング: CV 論文でのオーディオtoビデオモデルのベンチマーク。

デモンストレーションには 'solo.mp4' のような自己駆動クリップと 'kara.mp4' のようなオーディオ例が含まれ、無縫の統合を示します。

トラブルシューティングのため、GitHub の 76 のオープンイシューを確認するか、プルリクエストで貢献。全体として、AniPortrait は信頼性が高く高忠実度の結果で AI ポートレートアニメーションの限界を押し広げるユーザーをエンパワーします。

"AniPortrait" のベストな代替ツール

AnimateDiff
画像がありません
Alle-AI
画像がありません
205 0

Alle-AIは、ChatGPT、Gemini、Claude、DALL-E 2、Stable Diffusion、Midjourneyからの出力を組み合わせて比較する、テキスト、画像、オーディオ、ビデオ生成用のオールインワンAIプラットフォームです。

AI比較
マルチAI
生成AI
Genie 3 AI
画像がありません
39 0

DeepFiction
画像がありません
144 0

DeepFictionは、AIストーリー、画像、ビデオジェネレーターでストーリーテリングに革命を起こします。魅惑的な物語、素晴らしいビジュアル、魅力的なビデオを簡単に作成できます。ストーリーテラー、マーケター、クリエイターに最適です。

ストーリージェネレーター
AI Video Generation Hub
画像がありません
222 0

Minimax AIやLuma AIのようなAIビデオ生成技術とツールを探索。テキストプロンプトからビデオを作成し、ビデオ制作を強化。

AIビデオ
ビデオ生成
AIツール
SeaArt AI
画像がありません
344 0

SeaArt AIは、アート、ビデオ、オーディオ、AIチャットのためのオールインワンAIクリエイティブコミュニティです。AIアート、ビデオ、オーディオを生成し、AIモデルをトレーニングし、AIキャラクターとつながりましょう。

AIアート
ビデオ生成
Morphic
画像がありません
12 0

SuperMaker AI Video Generator
画像がありません
90 0

AI音楽、画像、音声用のオールインワンAIビデオジェネレーターであるSuperMaker AIで、未来のビデオ制作を体験してください。シネマ品質のビデオを簡単に作成できます。無料で開始でき、ログインは不要です!

ビデオ生成
AIビデオ
PixNova AI
画像がありません
228 0

PixNova AIは、写真、ビデオ、編集、顔交換などのためのオールインワンAI画像&ビデオジェネレータープラットフォームです。創造性を刺激し、無料で開始できます。

AI画像生成
AIビデオ生成
Kandinsky
画像がありません
250 0

Kandinskyを使用してAIで画像を生成、編集、スタイル設定します。アイデアを数秒でビジュアルに変えます。無料で、どのデバイスからでもアクセスできます。Fusion Brain AIを搭載。

AI画像生成
AIビデオ生成
Potion
画像がありません
241 0

Potionは、自分の顔、声、ジェスチャーを使用して、無制限のパーソナライズされたビデオを作成できるAIビデオジェネレーターです。 マーケティング、販売、サポートに最適です。

AIビデオ
VideoGen
画像がありません
207 0

VideoGenで瞬時にビデオを生成。最速のAIビデオ作成体験です。AIを使って数秒でビデオを作成、編集、共有できます。今すぐ無料でお試しください。

AIビデオ編集
ビデオ生成
FluxPicture
画像がありません
226 0

FLUX AIを搭載した無料のAI画像およびビデオジェネレーターであるFluxPictureを使用して、素晴らしい画像とビデオを作成します。Kreaでフォトリアリスティックな画像を生成し、Wan 2.2でビデオを生成します。今日から作成を始めましょう!

テキストから画像へ
AI画像生成
Kie AI
画像がありません
204 0

Kie.aiは、テキスト、音楽、ビデオ生成のための手頃な価格で安定したAI APIを提供します。 高い同時実行サポート、リアルタイムストリーミング出力、包括的なAPIドキュメントにより、高度なAI機能をプロジェクトに簡単に統合できます。

AI音楽生成
AIビデオ作成
Pykaso AI
画像がありません
13 0