2月25日晚,阿里巴巴开源了火爆业界的视频生成模型——万相2.1(Wan)。本次一共开源了4个模型,包括2个文生视频模型 Wan2.1-T2V-14B、Wan2.1-T2V-1.3B,以及2个图生视频模型 Wan2.1-I2V-14B-720P、Wan2.1-I2V-14B-480P。此次开源采用 Apache 2.0 协议,当前全球开发者可通过GitHub、HuggingFace平台直接下载并上手体验。
Wan2.1 代码和权重均已开源,此次提供了两个主要参数版本——14B 和 1.3B,以及四款具体模型,分别涵盖文本生成视频(T2V)和图像生成视频(I2V)任务,带来了一个全面且开放的视频基础模型套件。
主要功能:
- 👍 SOTA 性能:Wan2.1 在多个基准测试中始终优于现有的开源模型和最先进的商业解决方案。
- 👍 支持消费级 GPU:T2V-1.3B 型号仅需 8.19 GB VRAM,几乎兼容所有消费级 GPU。它可以在大约 5 分钟内在 RTX 4090 上生成 4 秒的 4P 视频(无需量化等优化技术)。它的性能甚至可以与一些闭源模型相媲美。
- 👍 多任务:Wan2.1 擅长文本到视频、图像到视频、视频编辑、文本到图像和视频到音频,推动了视频生成领域的发展。
- 👍 视觉文本生成:Wan2.1 是第一个能够同时生成中英文文本的视频模型,具有强大的文本生成功能,增强了其实际应用。
- 👍 强大的视频 VAE:Wan-VAE 提供卓越的效率和性能,对任意长度的 1080P 视频进行编码和解码,同时保留时间信息,使其成为视频和图像生成的理想基础。
Wan2.1 基于主流的 diffusion transformer 范式设计,通过一系列创新实现了生成能力的重大进步。其中包括我们新颖的时空变分自动编码器 (VAE)、可扩展的训练策略、大规模数据构建和自动评估指标。总的来说,这些贡献增强了模型的性能和多功能性。
(1) 3D 变分自动编码器
我们提出了一种新颖的 3D 因果 VAE 架构,称为 Wan-VAE,专为视频生成而设计。通过组合多种策略,我们改进了时空压缩,减少了内存使用,并确保了时间因果性。与其他开源 VAE 相比,Wan-VAE 在性能效率方面表现出显著优势。此外,我们的 Wan-VAE 可以对无限长度的 1080P 视频进行编码和解码,而不会丢失历史时间信息,因此特别适合视频生成任务。
(2) 视频扩散 DiT
Wan2.1 是在主流 Diffusion Transformer 的范式中使用 Flow Matching 框架设计的。我们模型的架构使用 T5 编码器对多语言文本输入进行编码,每个 transformer 块中的交叉注意力将文本嵌入到模型结构中。此外,我们采用具有线性层和 SiLU 层的 MLP 来处理输入时间嵌入并分别预测六个调制参数。此 MLP 在所有 transformer 模块之间共享,每个模块学习一组不同的偏置。我们的实验结果表明,在相同的参数尺度上,这种方法的性能得到了显著的提高。
数据
我们整理并删除了一个包含大量图像和视频数据的候选数据集。在数据管理过程中,我们设计了一个四步数据清理流程,重点关注基本维度、视觉质量和运动质量。通过强大的数据处理管道,我们可以轻松获得高质量、多样化和大规模的图像和视频训练集。
与 SOTA 的比较
我们将 Wan2.1 与领先的开源和闭源模型进行了比较,以评估其性能。使用我们精心设计的 1,035 个内部提示,我们在 14 个主要维度和 26 个子维度上进行了测试。然后,我们通过对每个维度的分数进行加权计算来计算总分,在匹配过程中利用从人类偏好中获得的权重。详细结果如下表所示。这些结果表明,与开源和闭源模型相比,我们的模型具有卓越的性能。