Phantom – 字节跳动推出的主体一致视频生成框架 ComfyUI视频生成新模型 附本地部署工作流!CUDA+Torch升级安装

图片[1]-Phantom - 字节跳动推出的主体一致视频生成框架 ComfyUI视频生成新模型 附本地部署工作流!CUDA+Torch升级安装

Phantom 是字节跳动智能创作团队推出的用于主体一致视频生成(Subject-to-Video, S2V)的框架。基于跨模态对齐技术,结合文本和图像提示,从参考图像中提取主体元素并生成与文本描述一致的视频内容。

Phantom 基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计了联合文本-图像注入模型,基于文本-图像-视频三元组数据学习跨模态对齐。

Phantom 框架支持单主体和多主体参考,特别在人类生成任务中强调主体一致性,覆盖现有的身份保留视频生成任务,提供增强优势。

主要功能

  • 从参考图像中提取主体元素:识别并提取图像中的主体(如人物、动物、物体等),作为生成视频的核心内容。
  • 根据文本提示生成视频:用户基于文本指令控制视频的内容和风格,实现高度定制化的视频生成。
  • 多主体视频生成:支持同时处理多个主体,生成复杂的交互场景,如多人互动、人与宠物互动等。
  • 身份保留(ID-Preserving):在生成视频时,保留主体的身份特征(如人脸、服装等),特别适用于虚拟试穿、数字人生成等场景。
  • 高质量视频输出:生成的视频在视觉效果、主体一致性和文本响应性方面表现出色,与现有的商业解决方案相当。

技术原理

  • 数据结构设计:Phantom 构建了文本-图像-视频三元组数据结构,用于训练模型理解不同模态之间的关系。数据分为 In-paired(图像与视频主体一致)和 Cross-paired(跨视频匹配)两种类型,避免模型简单复制输入图像。
  • 模型架构:基于现有的文本到视频(T2V)和图像到视频(I2V)架构,重新设计联合文本-图像注入模型。模型分为输入头(Input Head)和可训练的 DiT 模块。输入头负责编码视频、文本和参考图像,DiT 模块负责跨模态对齐和视频生成。
  • 跨模态对齐:参考图像基于特定的视觉编码器(如 VAE 和 CLIP)编码后,与视频特征和文本特征分别拼接,输入到 DiT 模块的视觉和文本分支。
  • 身份保留技术:在处理人脸等身份特征时,基于面部识别模型(如 ArcFace)评估生成视频与参考图像的相似度,确保主体身份的一致性。
  • 优化与训练:基于大规模的三元组数据训练,学习如何在生成视频时平衡文本和图像的双重提示。模型在预训练阶段继承基础模型的权重,基于跨模态数据进一步微调,实现高质量的视频生成。

应用场景

  • 虚拟试穿:生成服装动态展示视频,帮助用户预览效果。
  • 数字人生成:创建具有特定外貌的虚拟角色,用于虚拟主播等场景。
  • 广告视频制作:根据图像和文本快速生成产品广告,提升制作效率。
  • 影视动画:生成角色动画原型,辅助创意验证,降低制作成本。
  • 教育培训:生成科学实验、历史场景等教学视频,增强互动性。

快速部署

克隆存储库:

git clone https://github.com/Phantom-video/Phantom.git
cd Phantom

安装依赖项:

# Ensure torch >= 2.4.0
pip install -r requirements.txt

模型下载

首先需要下载 Wan2.1 的 1.3B 原始模型。使用 huggingface-cli 下载 Wan2.1-1.3B:

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.1-T2V-1.3B --local-dir ./Wan2.1-T2V-1.3B

然后下载 Phantom-Wan-1.3B 模型:

huggingface-cli download bytedance-research/Phantom --local-dir ./Phantom-Wan-1.3B

运行 Subject-to-Video Generation

  • 单 GPU 推理
python generate.py --task s2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --phantom_ckpt ./Phantom-Wan-1.3B/Phantom-Wan-1.3B.pth  --ref_image "examples/ref1.png,examples/ref2.png" --prompt "暖阳漫过草地,扎着双马尾、头戴绿色蝴蝶结、身穿浅绿色连衣裙的小女孩蹲在盛开的雏菊旁。她身旁一只棕白相间的狗狗吐着舌头,毛茸茸尾巴欢快摇晃。小女孩笑着举起黄红配色、带有蓝色按钮的玩具相机,将和狗狗的欢乐瞬间定格。" --base_seed 42
  • 使用 FSDP + xDiT USP 的多 GPU 推理
pip install "xfuser>=0.4.1"
torchrun --nproc_per_node=8 generate.py --task s2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --phantom_ckpt ./Phantom-Wan-1.3B/Phantom-Wan-1.3B.pth  --ref_image "examples/ref3.png,examples/ref4.png" --dit_fsdp --t5_fsdp --ulysses_size 4 --ring_size 2 --prompt "夕阳下,一位有着小麦色肌肤、留着乌黑长发的女人穿上有着大朵立体花朵装饰、肩袖处带有飘逸纱带的红色纱裙,漫步在金色的海滩上,海风轻拂她的长发,画面唯美动人。" --base_seed 42
Phantom - 字节跳动推出的主体一致视频生成框架 ComfyUI视频生成新模型 附本地部署工作流!CUDA+Torch升级安装
此内容为免费资源,请登录后查看
0积分
免费资源
已售 9
© 版权声明
THE END
喜欢就支持一下吧
点赞2 分享
相关推荐
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容