AniPortrait:AI音频驱动肖像动画工具

AniPortrait

3.5 | 17 | 0
类型:
开源项目
最后更新:
2025/10/03
资源描述:
AniPortrait是一个开源AI框架,用于生成由音频或视频输入驱动的逼真肖像动画。它支持自驱动、面部重演和音频驱动模式,实现高质量视频合成。
分享:
音频驱动肖像
动画合成
面部重演
姿势重定向
视频生成

AniPortrait 概述

AniPortrait 是什么?

AniPortrait 是一个创新的开源框架,专为音频驱动的照片级真实肖像动画合成而设计。由华为魏、泽军杨和腾讯游戏智姬及腾讯的志胜王开发,该工具利用先进的 AI 技术,从单一参考图像和音频或视频输入创建高质量动画肖像。无论您是用语音音频动画化静态肖像,还是从源视频重演面部表情,AniPortrait 都能提供逼真的结果,捕捉唇同步和头部运动等细微差别。适合内容创作者、游戏开发者以及计算机视觉研究人员,它在 AI 视频生成工具领域脱颖而出,专注于肖像特定动画。

在 GitHub 上以 Apache-2.0 许可发布,AniPortrait 已获得超过 5,000 个星标,反映了其在 AI 社区的受欢迎程度。该项目强调可访问性,提供预训练模型、详细安装指南,甚至 Gradio Web UI 以便轻松测试。

AniPortrait 如何工作?

在其核心,AniPortrait 采用多阶段管道,集成扩散模型、音频处理和姿态估计来生成动画。该框架基于 Stable Diffusion V1.5 和 wav2vec2 等成熟模型进行特征提取,确保音频视觉同步的稳健处理。

关键组件和工作流程

  • 输入处理:从参考肖像图像开始。对于音频驱动模式,使用 wav2vec2-base-960h 处理音频输入以提取语音特征。在视频模式中,通过关键点提取将源视频转换为姿态序列。
  • 姿态生成:audio2pose 模型从音频生成头部姿态序列(例如 pose_temp.npy),实现对面部方向的控制。对于面部重演,姿态重定向策略将源视频中的运动映射到参考图像,支持显著的姿态差异。
  • 动画合成:利用去噪 UNet、参考 UNet 和运动模块来合成帧。姿态引导器确保对齐,而可选的帧插值加速推理。
  • 输出优化:生成如 512x512 分辨率的视频,使用 film_net_fp16.pt 等选项加速以减少处理时间。

这种模块化方法支持自驱动动画(使用预定义姿态)、面部重演(传输表情)和完全音频驱动合成,使其适用于各种 AI 肖像动画场景。

AniPortrait 的核心功能

AniPortrait 集成了多种强大功能,专为逼真肖像动画量身定制:

  • 音频驱动肖像动画:将唇部运动和表情与音频输入同步,完美适用于配音或虚拟头像。
  • 面部重演:将源视频的面部表演传输到目标肖像,适用于媒体中的深度伪造式伦理应用。
  • 姿态控制和重定向:更新的策略处理多样头部姿态,包括生成自定义姿态文件以实现精确控制。
  • 高分辨率输出:产生照片级真实视频,支持更长序列(最多 300 帧或更多)。
  • 加速选项:帧插值和 FP16 模型加速推理,同时不牺牲质量。
  • Gradio Web UI:用户友好的界面用于快速演示,也托管在 Hugging Face Spaces 上以便在线访问。
  • 预训练模型:包括 audio2mesh、audio2pose 和扩散组件的权重,可从 Wisemodel 等来源下载。

这些功能使 AniPortrait 成为 AI 驱动视频合成的首选工具,通过专注于肖像保真度和音频视觉一致性超越基本工具。

安装和设置

对于使用 Python >=3.10 和 CUDA 11.7 的用户,入门非常简单:

  1. 克隆仓库:git clone https://github.com/Zejun-Yang/AniPortrait
  2. 安装依赖项:pip install -r requirements.txt
  3. 下载预训练权重到 ./pretrained_weights/,包括 Stable Diffusion 组件、wav2vec2 和自定义模型如 denoising_unet.pthaudio2pose.pt
  4. 根据 README 中的目录结构组织文件。

对于训练,准备如 VFHQ 或 CelebV-HQ 数据集,通过提取关键点并运行预处理脚本。训练分为两个阶段,使用 Accelerate 进行分布式处理。

如何使用 AniPortrait?

推理模式

AniPortrait 通过命令行脚本支持三种主要模式:

  • 自驱动动画

    python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc
    

    使用参考图像或姿态视频自定义。将视频转换为姿态使用 python -m scripts.vid2pose --video_path input.mp4

  • 面部重演

    python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc
    

    编辑 YAML 以包括源视频和参考。

  • 音频驱动合成

    python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc
    

    在配置中添加音频和图像。通过移除 pose_temp 启用 audio2pose 以实现自动姿态生成。

对于头部姿态控制,使用 python -m scripts.generate_ref_pose 生成参考姿态。

Web 演示

启动 Gradio UI:python -m scripts.app。或在 Hugging Face Spaces 上尝试在线版本。

用户可以使用样本视频如 'cxk.mp4' 或 'jijin.mp4' 实验,以查看音频同步效果,这些样本来自 Bilibili 等平台。

从零训练 AniPortrait

高级用户可以训练自定义模型:

  1. 数据准备:下载数据集,使用 python -m scripts.preprocess_dataset 预处理,并更新 JSON 路径。
  2. 阶段 1accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml
  3. 阶段 2:下载运动模块权重,指定阶段 1 检查点,并运行 accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml

此过程在肖像特定数据上微调,提升 AI 动画任务的泛化能力。

为什么选择 AniPortrait?

在 AI 视频生成工具的拥挤领域,AniPortrait 以其对照片级真实肖像的专攻而脱颖而出。与通用模型不同,它精确处理音频唇同步和细微表情,减少面部动画中的伪影。开源性质允许自定义,最近更新——如 2024 年 4 月的 audio2pose 发布和加速模块——使其保持前沿。社区对 EMO 和 AnimateAnyone 等项目的认可突显其协作根源,确保可靠性能。

实际价值包括为虚拟影响者、教育视频或游戏资产更快原型设计。arXiv 论文可用(eprint 2403.17694),服务于探索计算机视觉中音频视觉合成的研究人员。

AniPortrait 适合谁?

  • 内容创作者和电影制作人:用于短视频的快速配音或表情传输。
  • 腾讯式工作室的游戏开发者:将动画肖像集成到互动媒体中。
  • AI 研究人员:实验基于扩散的动画和姿态重定向。
  • 业余爱好者和教育者:使用 Web UI 教授 AI 概念,而无需繁重设置。

如果您正在寻找创建音频驱动肖像动画的最佳方式,AniPortrait 的质量、速度和可访问性平衡使其成为首选。

潜在应用和用例

  • 虚拟头像:为社交媒体或元宇宙动画数字角色与同步语音。
  • 教育工具:生成讲座或教程的说话头视频。
  • 媒体制作:历史重演或广告的伦理面部重演。
  • 研究原型:在 CV 论文中基准音频到视频模型。

演示包括自驱动剪辑如 'solo.mp4' 和音频示例如 'kara.mp4',展示无缝集成。

对于故障排除,检查 GitHub 上的 76 个开放问题或通过拉取请求贡献。总体而言,AniPortrait 赋能用户在 AI 肖像动画中推动边界,获得可靠、高保真结果。

"AniPortrait"的最佳替代工具

ChatArt
暂无图片
251 0

ChatArt是一款人工智能工具,提供内容创作、图像编辑和人工智能聊天功能。它由GPT-5、Claude Sonnet和DeepSeek提供支持,可提供高质量的内容、人工智能图像生成/编辑以及抄袭/语法检测。

人工智能内容生成器
Hypergro
暂无图片
26 0

Alle-AI
暂无图片
205 0

Alle-AI是一个一体化AI平台,结合并比较来自ChatGPT、Gemini、Claude、DALL-E 2、Stable Diffusion和Midjourney的输出,用于文本、图像、音频和视频生成。

AI比较
多重AI
生成式AI
SpikeX AI
暂无图片
341 0

使用 SpikeX AI 轻松地将文本转换为引人入胜的视频,这是领先的文本转视频 AI 平台,可在几分钟内实现 YouTube 增长自动化!只需一个提示即可为 YouTube 和社交媒体创建无露脸视频。

文本转视频
AI视频创作
GlobalGPT
暂无图片
333 0

GlobalGPT 是一款一体化AI平台,提供对 ChatGPT、GPT-5、Claude、Unikorn (MJ-like)、Veo 和 100 多种 AI 工具的访问,用于写作、研究、图像和视频创作。

AI平台
内容创作
图像生成
Mochi AI
暂无图片
185 0

Mochi AI是一个开源视频生成模型,可以通过文本提示创建高保真视频。 它采用100亿参数扩散模型,并允许商业用途。

AI视频
开源
视频生成
Pykaso AI
暂无图片
13 0

CoursePro.Ai
暂无图片
274 0

CoursePro.Ai 是一个人工智能驱动的平台,可以帮助您轻松构建在线课程。使用人工智能生成内容、幻灯片、旁白和视频,并轻松托管和销售您的课程。

AI课程生成器
在线学习平台
Make Any Image
暂无图片
190 0

Make Any Image将您的照片转换为令人惊叹的AI生成的图像和视频。训练自定义AI模型以创建个性化的头像、产品可视化等。

AI图像
AI视频
自定义模型
CQTAI API
暂无图片
135 0

CQTAI API为开发者、创作者和教育工作者提供AI驱动的图像 (GPT-4O)、视频 (Veo3) 和音乐 (Suno) API。轻松集成,快速创作内容。

图像API
视频API
音乐API
EliteGPT
暂无图片
328 0

EliteGPT使用AI自动执行内容创建。访问GPT-4和Claude等多种AI模型,比较响应,并在一个平台上生成图像/视频。非常适合内容创作者和企业。

AI内容生成器
AI视频制作
FluxPicture
暂无图片
226 0

使用 FluxPicture 创建令人惊叹的图像和视频,这是一个由 FLUX AI 驱动的免费 AI 图像和视频生成器。使用 Krea 生成逼真的图像,使用 Wan 2.2 生成视频。立即开始创作!

文本到图像
AI图像生成
视频生成
NewRoom.io
暂无图片
304 0

AI室内设计助手,助力您的室内设计之旅。NewRoom.io开发AI室内设计工具,让设计变得简单而富有创意!

AI室内设计
房间风格
虚拟舞台
ToonCrafter AI
暂无图片
243 0

使用 ToonCrafter AI 将照片转换为引人入胜的卡通,这是一款用于无缝卡通插值和视频生成的开源 AI 工具。非常适合动画爱好者和创意总监。

卡通动画
图像插值
AI 视频
VeeGen
暂无图片
20 0

VeeGen是一款免费的在线AI工具,可即时将图片转换为动态视频且无水印。无需编辑技能即可为TikTok、Instagram和YouTube创建引人入胜的内容。

视频生成
AI动画
社交媒体工具