videoEffect.duration

videoEffect.resolution

videoEffect.ratio

videoEffect.autoSound
videoEffect.autoSpeech
videoEffect.noWatermark
videoEffect.private

Wan 2.2:一款高保真电影级AI视频生成的免费开源MoE模型

体验电影级AI视频生成的自由——Wan 2.2,开源、MoE驱动,创新无限。

Wan 2.2:阿里巴巴通义实验室发布全球首个开源 MoE 视频生成器

在快速发展的AI视频生成领域,Wan 2.2 领先成为全球首个开源的 MoE 架构智能视频生成器,由阿里巴巴通义实验室于2025年7月28日正式发布。业内常称其为 wan 2.2 或 wan 视频生成器,是一款多模态AI模型,支持文生视频(T2V)、图生视频(I2V)及混合生成任务,并提供电影级光影控制、构图、色彩分级及复杂动作生成(如街舞、跑酷等)。该模型在 GitHub、Hugging Face 和 ModelScope 上以 Apache 2.0 协议开源,支持最高 720p、24fps 的视频生成,即使在消费级显卡(如 RTX 4090)上也能高效运行,非常适合数字艺术、广告、电影预演和游戏开发等领域。 Wan 2.2 模型家族包括三个版本:Wan2.2-T2V-A14B(拥有 140 亿参数,针对文生视频提供更强的布局与细节控制)、Wan2.2-I2V-A14B(同为 140 亿参数,优化图生视频效果,有效减少风格化场景中的伪影)、Wan2.2-TI2V-5B(采用 50 亿参数,结合文本与图像输入,基于 16×16×4 压缩机制实现快速 720p 生成)。相比 Wan 2.1,Wan 2.2 显著提升了动态表现能力,能稳定实现平移、推进、环绕等镜头运动,并在 Wan-Bench 2.0 等评测中,在语义与美学方面领先。 搭配一站式创作与编辑工具 WanBox,Wan 2.2 完整诠释了“All in Wan, Create Anything”的产品理念,邀请全球开发者共同探索开源视频 AI 的创新未来。

Wan 2.2 关键特性——下一代开源 AI 视频生成技术

采用 MoE 架构的可扩展 AI 视频生成 - Wan 2.2

Wan 2.2 是全球首个开源的 AI 视频生成模型,基于 Mixture-of-Experts (MoE) 扩散框架。通过将去噪任务分配给专门的专家模块,Wan 2.2 在不增加计算负担的情况下提升了处理能力。这样,生成的画面更清晰,动态细节更丰富,时间一致性更强。与传统的稠密扩散模型相比,这一突破在文生视频和图生视频流程中提供了显著提升的电影质感和连贯性。

Wan 2.2 的电影级别美学控制,呈现专业级视觉效果

Wan 2.2 为开源 AI 视频生成提供了电影级别的美学控制。通过提示驱动的光影、镜头运动、构图与色彩分级,创作者可以打造引人入胜的视觉风格——从赛博朋克市场到宁静的粉彩风景,风格千变万化。

Wan 2.2-T2V-A14B、I2V-A14B 和 TI2V-5B 模型支持的多模态统一视频创作

Wan 2.2 支持多种输入模态进行 AI 视频生成。Wan2.2-T2V-A14B 模型将自然语言转化为生动的 5 秒电影级片段,分辨率可达 720P,具备卓越的语义精度与复杂的运动表现。对于静态图像,Wan2.2-I2V-A14B 模型将图像转化为流畅的视频,保持风格和空间一致性。如果需要更大的灵活性,Wan2.2-TI2V-5B 混合模型在一个轻量级的包中同时处理文生视频与图生视频任务——单个消费级 GPU(如 RTX 4090)即可支持 720P@24fps,非常适合通过 ComfyUI 进行本地工作流操作。

Wan 2.2 完全开源模型,支持 ComfyUI 工作流

整个 Wan 2.2 模型套件——包括文生视频、图生视频和混合模型——已开源,支持通过 Hugging Face、GitHub 和 ModelScope 访问。通过与 ComfyUI 的无缝集成,用户可以设计基于节点的工作流、通过时间轴工具编辑视频片段,并批量生成资源——支持本地和云端环境。Wan 2.2 的开源特性使创作者、研究人员和开发者能够在不断发展的 AI 视频生成领域自由创新和构建。

Wan2.2 模型变体:T2V、I2V 和 TI2V,分别支持文本、图像及混合视频生成

  • Wan2.2-T2V-A14B:高保真文生视频生成,呈现电影级精准效果

    Wan2.2-T2V-A14B 是一款基于混合专家(MoE)架构的 140 亿参数文本到视频模型,提供卓越的语义精确度和电影级风格控制。它支持生成 5 秒的视频片段,分辨率为 480P 和 720P,通过自然语言提示生成视觉连贯、充满动感的内容。Wan2.2-T2V-A14B 在相机运动、审美分级和时间结构方面经过精细调整,在许多领先的商业替代品中表现更为出色,如在 Wan-Bench 2.0 基准任务中的表现。这款模型非常适合创意内容创作、广告和 AI 视频研究,特别适用于注重叙事真实性和视觉效果的场景。

  • Wan2.2-I2V-A14B:720P 稳定且风格化的图像到视频生成

    Wan2.2-I2V-A14B 专为将静态图像转化为动态视频内容而优化,赋予图像到视频生成过程电影般的表现力。该模型同样采用了 140 亿参数的 MoE 架构,支持 480P 和 720P 输出,同时优化了常见的合成问题,如不自然的相机抖动或场景不一致。模型在保持源图像高保真的同时,带来了流畅的运动和空间深度,非常适合数字艺术动画制作、时尚动态效果展示和电影级内容创作,尤其适用于需要视觉稳定性和风格化处理的场景。

  • Wan2.2-TI2V-5B:适用于本地部署的轻量化混合文本与图像到视频模型

    Wan2.2-TI2V-5B 是一款具有 50 亿参数的混合模型,设计用于文本到视频和图像到视频生成,采用统一架构。基于先进的 Wan2.2-VAE,压缩比为 16×16×4,它能够实时生成 720P 视频,帧率为 24fps,同时仅需一块 RTX 4090 GPU 即可运行,且保持高效性。该模型在性能和可访问性方面实现了理想平衡,非常适合快速原型设计、实时预览及在 ComfyUI 本地工作流中的应用。TI2V-5B 是当前最快的高分辨率开源视频生成模型之一,支持跨模态合成。

Wan 2.2 vs Wan 2.1:下一代开源视频AI的更新

功能Wan 2.1Wan 2.2
核心架构密集扩散混合专家(MoE)扩散技术,跨时间步的专家切换
模型变体T2V(14B),I2V(14B)T2V(14B),I2V(14B),TI2V 混合(5B)
训练数据基础训练数据集+65.6% 更多图像,+83.2% 更多视频——更丰富的运动细节和语义表达
美学控制基础标签电影级标签,涵盖光照、色彩、构图等方面
运动生成中等,较少可控高复杂度的运动生成,优化的相机逻辑(如倾斜、轨道、推拉等)
提示符合性准确性有待提升严格遵循提示,精准控制场景、动作和物体
分辨率与帧率最高支持 720P(T2V/I2V),但帧率较低TI2V 即使在单个 RTX 4090 上,也能达到 720P@24fps
消费级硬件上的性能本地部署的适用性有限TI2V 可在 8GB+ GPU(例如 RTX 4090)上本地运行
应用场景灵活性仅支持文本到视频或图像到视频统一的混合生成。更快的迭代,在 ComfyUI 工作流中得以实现。
整体视觉质量适合生成基础内容帧更清晰,伪影更少,输出效果达到电影级

如何设置和使用 Wan 2.2 进行 AI 视频生成

  • 1

    选项 1:本地部署 Wan 2.2

    您可以通过访问 GitHubHugging FaceModelScope,获取官方代码库和模型权重来进行 Wan 2.2 的本地部署。这些资源提供了运行文本到视频、图像到视频或混合生成工作流所需的全部内容。配置完成后,您可以使用命令行工具生成 720P 电影级视频内容,或与 ComfyUI 集成进行可视化编辑。

  • 2

    选项 2:通过官方网页接口在线使用 Wan 2.2

    如果你不想安装任何软件,可以直接在 Wan.Video 上在线体验 Wan 2.2——这是一个官方的基于浏览器的平台,支持快速、高质量的 AI 视频生成。只需输入文本或图像提示,几秒钟内即可获得电影级视频片段,无需 GPU 或繁琐的技术配置。这个选项非常适合创作者、设计师和研究人员,便于快速原型设计、测试不同提示或随时生成视觉概念。

用Wan 2.2制作高质量视频的4个专业技巧

  • 编写具象且有意图的提示

    想要充分发挥 Wan 2.2 的创意潜力,关键在于如何编写提示。避免模糊的指令,如“制作一个炫酷的视频”,而应描述具体的视觉元素、节奏和情感基调。例如,一个有效的提示是:“创作一个节奏感强的时尚短片,配以快节奏画面切换、大胆的文字叠加和电子音乐。”你的提示越具视觉细节和情感引导,生成的内容就会越贴合你的创作意图。

  • 使用同时包含场景、风格和情感的提示结构

    一种可靠的引导 AI 的方法是使用结构化的提示,结合三大核心元素:场景、风格和情感。例如:“玻璃窗上的雨滴特写 + 电影风格 + 忧郁氛围。”这种格式不仅帮助系统理解展示的内容,还能明确展示方式和情感意义。把提示当作给专业编辑的创意简报,既要表达内容,也要传达情感氛围。

  • 设计视觉与音频的节奏感:让视觉与音频相呼应

    要制作更具专业感的视频,需要考虑视觉与音频的节奏配合。在提示中加入节奏相关的指令,如“在节拍下切换画面”、“每段副歌提升情绪强度”或“根据节奏调整过渡”。Wan 2.2 可根据这些提示,运用节奏感编辑技术,制作出更加生动、富有吸引力的内容,避免生硬的自动化效果。

  • 通过提示反馈循环进行迭代优化

    不要满足于初步结果——将其视为草稿。Wan 2.2 的真正优势在于不断的优化迭代。初始结果出来后,分析其中缺失或不合适的部分,然后相应地调整提示。例如:“在情感场景中增加对比度和慢动作效果”或“缩短片头长度,突出产品特写”。每次调整提示,都是一个反馈循环,帮助最终结果更精准地达到你的创意目标。

在YesChat.AI使用Wan 2.2:在线创建电影级AI视频

  • 除了ComfyUI等本地工具,Wan 2.2还可通过YesChat.AI使用,这是一个基于浏览器的视频创作平台。无需安装或硬件配置,用户可通过文本或图像提示在几秒钟内生成电影级AI视频。YesChat.AI非常适合快速原型制作、创意实验和移动工作流,降低了创作者和研究人员快速、直观、便捷探索Wan 2.2功能的门槛。

Wan 2.2 常见问题

  • Wan 2.2是什么?它如何颠覆AI视频生成技术?

    Wan 2.2,由阿里巴巴的通义实验室开发,是全球首个开源的混合专家(MoE)视频生成模型,专为AI视频生成任务(如文生视频、图生视频及混合工作流)设计。与之前的密集型模型相比,Wan 2.2提供了电影级的真实感、更流畅的运动表现以及可扩展的性能,即便在RTX 4090这样的消费级GPU上,也能实现720p@24fps的生成。

  • Wan 2.2的三种型号:Wan2.2-T2V-A14B、Wan2.2-I2V-A14B和Wan2.2-TI2V-5B有何区别?

    Wan 2.2模型提供了三种针对性优化的版本:Wan2.2-T2V-A14B(14B参数,优化用于高保真度的文生视频生成)、Wan2.2-I2V-A14B(14B参数,设计用于风格化和稳定的图生视频合成)、Wan2.2-TI2V-5B(5B参数,一款轻量级的混合模型,支持在单个GPU上以720p分辨率同时处理T2V和I2V任务)。这些模型都基于MoE架构,并根据不同的创作和技术需求进行了优化。

  • Wan2.2-T2V-A14B如何实现电影级的文生视频效果?

    Wan2.2-T2V-A14B将自然语言提示转换为视觉丰富、运动一致的5秒视频片段,分辨率为720p,使用14B MoE参数。它支持对光线、构图、镜头运动和情感基调的精确控制,特别适合用于故事创作、概念开发和创意行业的前期可视化工作。

  • Wan2.2-I2V-A14B在图生视频生成中有哪些优势?

    Wan2.2-I2V-A14B为图生视频生成提供了稳定性和视觉一致性。它将静态图像转化为电影级的动态效果,同时保留艺术风格和空间布局。借助基于MoE的去噪技术,它减少了闪烁、抖动和失真——这对于数字艺术、风格化内容创作和动画插画等应用尤为重要。

  • 何时应该选择Wan2.2-TI2V-5B,而不是更大的14B模型?

    Wan2.2-TI2V-5B非常适合那些追求快速、高效资源利用的创作者。它在压缩架构(16×16×4 VAE)下支持同时处理文生视频和图生视频任务,在单个RTX 4090上流畅运行720p,特别适合实时预览、本地原型制作和基于ComfyUI的工作流,同时保持输出质量不变。

  • Wan 2.2在AI视频生成模型中有哪些独到之处?

    Wan 2.2是首个结合MoE架构和多模态视频生成(文生视频、图生视频及混合模式)的开源模型。凭借电影级的控制能力、Apache 2.0开源许可证、720p支持以及在消费级硬件上的实时性能,Wan 2.2成为电影、广告、游戏和数字设计领域专业人士必不可少的强大工具。

  • 如何使用Wan 2.2与ComfyUI进行本地视频生成?

    Wan 2.2 完全集成 ComfyUI,用户可创建基于节点的流程,执行文生视频、图生视频或混合任务。下载适当的 Wan 2.2 模型后,用户可启动预设流程(如 Wan2.2-T2V-A14B 或 Wan2.2-TI2V-5B),并通过可视化界面在本地生成 720p 视频——特别适合非编码用户、艺术创作者和快速原型制作。

  • 我可以在哪里下载 Wan 2.2 模型并参与并贡献于开源项目?

    Wan 2.2 的完整模型套件采用 Apache 2.0 开源许可证,可在 GitHub、Hugging Face 和 ModelScope 上找到。用户可以通过 Git 克隆代码库,下载适用于 Wan2.2-T2V-A14B、Wan2.2-I2V-A14B 或 Wan2.2-TI2V-5B 的 safetensors 文件,并通过 CLI 或 ComfyUI 在本地运行。欢迎通过 GitHub 提交问题和拉取请求,参与社区贡献,共同推动 Wan 视频创作与研究的全球创新。