多主体视频生成

Phantom – 字节跳动推出的主体一致视频生成模型框架 CUDA+Torch升级安装

Phantom 是字节跳动智能创作团队推出的用于主体一致视频生成（Subject-to-Video, S2V）的框架。基于跨模态对齐技术，结合文本和图像提示，从参考图像中提取主体元素并生成与文本描述一致的视频内容。Phantom 基于现有的文本到视频（T2V）和图像到视频（I2V）架构，重新设计了联合文本-图像注入模型，基于文本-图像-视频三元组数据学习跨模态对齐。Phantom 框架支持单主体和多主体参考，特别在人类生成任务中强调主体一致性，覆盖现有的身份保留视频生成任务，提供增强优势。

3,397 40

Phantom主体视频生成多主体视频生成文生视频

多主体视频生成

服务器推荐