AniPortrait:AI音频驱动肖像动画工具

AniPortrait

3.5 | 250 | 0
类型:
开源项目
最后更新:
2025/10/03
资源描述:
AniPortrait是一个开源AI框架,用于生成由音频或视频输入驱动的逼真肖像动画。它支持自驱动、面部重演和音频驱动模式,实现高质量视频合成。
分享:
音频驱动肖像
动画合成
面部重演
姿势重定向
视频生成

AniPortrait 概述

AniPortrait 是什么?

AniPortrait 是一个创新的开源框架,专为音频驱动的照片级真实肖像动画合成而设计。由华为魏、泽军杨和腾讯游戏智姬及腾讯的志胜王开发,该工具利用先进的 AI 技术,从单一参考图像和音频或视频输入创建高质量动画肖像。无论您是用语音音频动画化静态肖像,还是从源视频重演面部表情,AniPortrait 都能提供逼真的结果,捕捉唇同步和头部运动等细微差别。适合内容创作者、游戏开发者以及计算机视觉研究人员,它在 AI 视频生成工具领域脱颖而出,专注于肖像特定动画。

在 GitHub 上以 Apache-2.0 许可发布,AniPortrait 已获得超过 5,000 个星标,反映了其在 AI 社区的受欢迎程度。该项目强调可访问性,提供预训练模型、详细安装指南,甚至 Gradio Web UI 以便轻松测试。

AniPortrait 如何工作?

在其核心,AniPortrait 采用多阶段管道,集成扩散模型、音频处理和姿态估计来生成动画。该框架基于 Stable Diffusion V1.5 和 wav2vec2 等成熟模型进行特征提取,确保音频视觉同步的稳健处理。

关键组件和工作流程

  • 输入处理:从参考肖像图像开始。对于音频驱动模式,使用 wav2vec2-base-960h 处理音频输入以提取语音特征。在视频模式中,通过关键点提取将源视频转换为姿态序列。
  • 姿态生成:audio2pose 模型从音频生成头部姿态序列(例如 pose_temp.npy),实现对面部方向的控制。对于面部重演,姿态重定向策略将源视频中的运动映射到参考图像,支持显著的姿态差异。
  • 动画合成:利用去噪 UNet、参考 UNet 和运动模块来合成帧。姿态引导器确保对齐,而可选的帧插值加速推理。
  • 输出优化:生成如 512x512 分辨率的视频,使用 film_net_fp16.pt 等选项加速以减少处理时间。

这种模块化方法支持自驱动动画(使用预定义姿态)、面部重演(传输表情)和完全音频驱动合成,使其适用于各种 AI 肖像动画场景。

AniPortrait 的核心功能

AniPortrait 集成了多种强大功能,专为逼真肖像动画量身定制:

  • 音频驱动肖像动画:将唇部运动和表情与音频输入同步,完美适用于配音或虚拟头像。
  • 面部重演:将源视频的面部表演传输到目标肖像,适用于媒体中的深度伪造式伦理应用。
  • 姿态控制和重定向:更新的策略处理多样头部姿态,包括生成自定义姿态文件以实现精确控制。
  • 高分辨率输出:产生照片级真实视频,支持更长序列(最多 300 帧或更多)。
  • 加速选项:帧插值和 FP16 模型加速推理,同时不牺牲质量。
  • Gradio Web UI:用户友好的界面用于快速演示,也托管在 Hugging Face Spaces 上以便在线访问。
  • 预训练模型:包括 audio2mesh、audio2pose 和扩散组件的权重,可从 Wisemodel 等来源下载。

这些功能使 AniPortrait 成为 AI 驱动视频合成的首选工具,通过专注于肖像保真度和音频视觉一致性超越基本工具。

安装和设置

对于使用 Python >=3.10 和 CUDA 11.7 的用户,入门非常简单:

  1. 克隆仓库:git clone https://github.com/Zejun-Yang/AniPortrait
  2. 安装依赖项:pip install -r requirements.txt
  3. 下载预训练权重到 ./pretrained_weights/,包括 Stable Diffusion 组件、wav2vec2 和自定义模型如 denoising_unet.pthaudio2pose.pt
  4. 根据 README 中的目录结构组织文件。

对于训练,准备如 VFHQ 或 CelebV-HQ 数据集,通过提取关键点并运行预处理脚本。训练分为两个阶段,使用 Accelerate 进行分布式处理。

如何使用 AniPortrait?

推理模式

AniPortrait 通过命令行脚本支持三种主要模式:

  • 自驱动动画

    python -m scripts.pose2vid --config ./configs/prompts/animation.yaml -W 512 -H 512 -acc
    

    使用参考图像或姿态视频自定义。将视频转换为姿态使用 python -m scripts.vid2pose --video_path input.mp4

  • 面部重演

    python -m scripts.vid2vid --config ./configs/prompts/animation_facereenac.yaml -W 512 -H 512 -acc
    

    编辑 YAML 以包括源视频和参考。

  • 音频驱动合成

    python -m scripts.audio2vid --config ./configs/prompts/animation_audio.yaml -W 512 -H 512 -acc
    

    在配置中添加音频和图像。通过移除 pose_temp 启用 audio2pose 以实现自动姿态生成。

对于头部姿态控制,使用 python -m scripts.generate_ref_pose 生成参考姿态。

Web 演示

启动 Gradio UI:python -m scripts.app。或在 Hugging Face Spaces 上尝试在线版本。

用户可以使用样本视频如 'cxk.mp4' 或 'jijin.mp4' 实验,以查看音频同步效果,这些样本来自 Bilibili 等平台。

从零训练 AniPortrait

高级用户可以训练自定义模型:

  1. 数据准备:下载数据集,使用 python -m scripts.preprocess_dataset 预处理,并更新 JSON 路径。
  2. 阶段 1accelerate launch train_stage_1.py --config ./configs/train/stage1.yaml
  3. 阶段 2:下载运动模块权重,指定阶段 1 检查点,并运行 accelerate launch train_stage_2.py --config ./configs/train/stage2.yaml

此过程在肖像特定数据上微调,提升 AI 动画任务的泛化能力。

为什么选择 AniPortrait?

在 AI 视频生成工具的拥挤领域,AniPortrait 以其对照片级真实肖像的专攻而脱颖而出。与通用模型不同,它精确处理音频唇同步和细微表情,减少面部动画中的伪影。开源性质允许自定义,最近更新——如 2024 年 4 月的 audio2pose 发布和加速模块——使其保持前沿。社区对 EMO 和 AnimateAnyone 等项目的认可突显其协作根源,确保可靠性能。

实际价值包括为虚拟影响者、教育视频或游戏资产更快原型设计。arXiv 论文可用(eprint 2403.17694),服务于探索计算机视觉中音频视觉合成的研究人员。

AniPortrait 适合谁?

  • 内容创作者和电影制作人:用于短视频的快速配音或表情传输。
  • 腾讯式工作室的游戏开发者:将动画肖像集成到互动媒体中。
  • AI 研究人员:实验基于扩散的动画和姿态重定向。
  • 业余爱好者和教育者:使用 Web UI 教授 AI 概念,而无需繁重设置。

如果您正在寻找创建音频驱动肖像动画的最佳方式,AniPortrait 的质量、速度和可访问性平衡使其成为首选。

潜在应用和用例

  • 虚拟头像:为社交媒体或元宇宙动画数字角色与同步语音。
  • 教育工具:生成讲座或教程的说话头视频。
  • 媒体制作:历史重演或广告的伦理面部重演。
  • 研究原型:在 CV 论文中基准音频到视频模型。

演示包括自驱动剪辑如 'solo.mp4' 和音频示例如 'kara.mp4',展示无缝集成。

对于故障排除,检查 GitHub 上的 76 个开放问题或通过拉取请求贡献。总体而言,AniPortrait 赋能用户在 AI 肖像动画中推动边界,获得可靠、高保真结果。

"AniPortrait"的最佳替代工具

Lip Sync AI
暂无图片
202 0

Lip Sync AI 使用先进的AI唇形同步技术将静态照片转换为说话视频。上传照片和音频文件,即可生成具有自然表情的逼真唇形同步视频。

AI唇形同步
说话照片
视频动画
Media.io
暂无图片
241 0

Media.io 是一个用于视频、图像和音频创作的多合一 AI 平台。 它提供 AI 视频生成器、图像转视频、文本转音乐和水印移除等工具,满足个人和商业用途。

AI视频编辑
图像增强
文本转音乐
SeaArt AI
暂无图片
272 0

SeaArt AI是一个一体化的人工智能创意平台,用于生成艺术、视频和AI聊天。探索AI工具,训练模型,并加入创作者社区。

AI艺术生成
视频创作
AI角色
Mango AI
暂无图片
245 0

Mango AI是一款AI驱动的视频生成器,可以轻松创建会说话的照片、头像和换脸。非常适合营销人员、教育工作者和内容创作者。

AI视频生成
换脸
会说话的照片
HitPaw AI Marvels
暂无图片
270 0

HitPaw AI Marvels是一款全能移动应用,利用先进AI技术转换照片和视频。功能包括AI舞蹈视频、动漫滤镜、物体移除、照片修复和风格转换,支持一键编辑。

照片增强
视频动画
AI滤镜
VisionFX
暂无图片
294 0

VisionFX是一个一体化AI创意工作室,使用先进AI技术生成图像、视频、音乐和语音内容。非常适合内容创作者、设计师和营销人员。

AI图像生成器
视频创作AI
AIVidly
暂无图片
297 0

AIVidly是一款iPhone全能AI视频制作App,可将文本转化为专业视频,配以AI语音、特效,并优化适用于TikTok和YouTube Shorts——无需编辑技能。

文本转视频
AI语音配音
视频特效
PICOAI
暂无图片
288 0

PICOAI.app 提供前沿 AI 工具,生成惊艳图像和视频。使用最新生成式 AI 模型轻松创建专业内容。

图像生成
视频创建
AI编辑
MirrorizeAI
暂无图片
279 0

MirrorizeAI是一个充满活力的AI艺术社区,赋能创作者使用电影级真实感生成惊艳图像、视频和音乐。全球协作、快速迭代,无需订阅即可释放想象力。

电影级AI艺术
生成音乐
图像转视频
Pollo AI
暂无图片
372 0

使用Pollo AI,这个免费的、终极的一体化AI图像和视频生成器,通过文本提示、图像或视频创建图像/视频。将您的想法转化为高分辨率和高品质的图像和视频。

文本到视频
图像到视频
AI头像
Wan 2.2 AI
暂无图片
325 0

探索Wan 2.2 AI,这是一个前沿平台,支持文本转视频和图像转视频生成,具有电影级控制、专业运动和720p分辨率。适合寻求高质量AI视频工具的创作者、营销人员和制作者。

文本转视频生成
图像转视频动画
CharGen
暂无图片
436 0

CharGen是一款AI驱动的奇幻内容生成器,为D&D、Pathfinder和RPG爱好者创建角色、NPC、怪物、地图和战役工具。

奇幻角色生成器
RPG资源创建
Artypa
暂无图片
350 0

使用 Artypa 提升创造力和生产力,这是一个由 AI 驱动的平台,可快速生成图像、视频和编辑内容。深受创作者信赖,实现智能快速的内容创作。

AI图像生成
AI视频编辑
内容创作
Eadlyn
暂无图片
279 0

Eadlyn 使用 AI 克隆肖像和声音,让您重温记忆。创建语音模型并生成逼真的数字生活。

AI语音
语音克隆
肖像AI