videoEffect.duration

videoEffect.resolution

videoEffect.ratio

videoEffect.autoSound
videoEffect.autoSpeech
videoEffect.noWatermark
videoEffect.private

Wan 2.2: Ein kostenloses Open-Source MoE-Modell für hochauflösende kinoreife KI-Videos

Erlebe die Freiheit der kinoreifen KI-Videoerstellung mit Wan 2.2 – Open-Source, mit MoE-Technologie, gemacht für Innovation.

Wan 2.2: Alibaba’s Tongyi Lab veröffentlicht das weltweit erste Open-Source-MoE-Video-Generierungsmodell

Im dynamischen Bereich der KI-Videoerstellung hebt sich Wan 2.2 als das weltweit erste Open-Source-Video-Generierungsmodell mit Mixture-of-Experts (MoE)-Architektur hervor, das am 28. Juli 2025 von Alibabas Tongyi Lab vorgestellt wurde. Oft als Wan 2.2 oder Wan-Video bekannt, ist dieses multimodale Kraftpaket in den Bereichen Text-zu-Video (T2V), Bild-zu-Video (I2V) und hybride Aufgaben führend. Es bietet filmische Kontrolle über Beleuchtung, Komposition, Farbkorrektur und komplexe Bewegungen wie Hip-Hop-Tanz oder Street-Parkour. Vollständig Open-Source verfügbar unter der Apache 2.0-Lizenz auf GitHub, Hugging Face und ModelScope, unterstützen die Wan 2.2-Modelle Auflösungen bis zu 720p bei 24 fps und laufen effizient auf Consumer-GPUs wie der RTX 4090, was sie ideal für digitale Kunst, Werbung, Filmvorausvisualisierung und Spieleentwicklung macht. Die Wan 2.2-Modellreihe bietet drei Varianten: Wan 2.2-T2V-A14B (14B Parameter für überlegene T2V-Generierung mit MoE-gesteuertem Layout und Detailverfeinerung), Wan 2.2-I2V-A14B (14B für stabile I2V-Synthese, die Artefakte in stilisierten Szenen reduziert) und Wan 2.2-TI2V-5B (5B Hybrid für schnelle 720p-Generierung via 16×16×4-Kompression). Dieses Upgrade übertrifft Wan 2.1 in der Bewegungsgenauigkeit – mit zuverlässigen Kamerabewegungen wie Links/Rechts-Panorama, Dolly-In/Out und orbitalen Bögen – sowie Benchmarks wie Wan-Bench 2.0, wo es in Semantik und Ästhetik die Konkurrenz übertrifft. Mit WanBox für die vollständige Erstellung und Bearbeitung verkörpert Wan 2.2 das Motto: „Alles in Wan, erschaffe alles“ und fördert globale Innovationen in der offenen Video-KI.

Wichtige Funktionen von Wan 2.2 – Next-Gen Open-Source KI-Video-Generator

Skalierbare KI-Video-Erstellung mit der Mixture-of-Experts-Architektur von Wan 2.2

Wan 2.2 ist das weltweit erste Open-Source-KI-Video-Generierungsmodell, das das Mixture-of-Experts (MoE) Diffusions-Framework nutzt. Durch die Zuweisung von Rauschreduzierung an spezialisierte Expertenmodule lässt sich die Kapazität skalieren, ohne die Rechenlast zu erhöhen – was schärfere Bilder, detailliertere Bewegungsdetails und eine überlegene zeitliche Konsistenz ermöglicht. Im Vergleich zu traditionellen, dichten Diffusionsmodellen liefert dieser Durchbruch deutlich cinematischere und kohärentere Ergebnisse sowohl in der Text-zu-Video- als auch in der Bild-zu-Video-Generierung.

Cinematische Kontrolle der Ästhetik in Wan 2.2 für professionelle visuelle Ergebnisse

Wan 2.2 bringt cinematische Kontrolle der Ästhetik in die Open-Source-KI-Video-Generierung. Durch benutzerdefinierte Eingaben zur Manipulation von Beleuchtung, Kamerabewegung, Komposition und Farbkorrektur können Kreative fesselnde visuelle Stile gestalten – von atmosphärischen Cyberpunk-Märkten bis zu ruhigen, pastellfarbenen Landschaften.

Vereinte Multi-Modale Videoerstellung mit Wan2.2-T2V-A14B, I2V-A14B und TI2V-5B

Wan 2.2 unterstützt eine vollständige Reihe von Eingabemodalitäten für die KI-Video-Generierung. Das Wan2.2-T2V-A14B Modell verwandelt natürliche Sprache in lebendige, 5-sekündige cineastische Clips in bis zu 720P, mit beeindruckender semantischer Präzision und Bewegungs-Komplexität. Für statische Bilder wandelt das Wan2.2-I2V-A14B Modell Bilder in flüssiges Video um, wobei Stil und räumliche Kohärenz erhalten bleiben. Brauchen Sie mehr Flexibilität? Das Wan2.2-TI2V-5B Hybridmodell übernimmt sowohl Text-zu-Video- als auch Bild-zu-Video-Aufgaben in einem einzigen, leichten Paket – fähig zu 720P@24fps auf einer einzelnen Konsumergrafikkarte wie der RTX 4090, und macht es damit ideal für lokale Workflows mit ComfyUI.

Vollständig Open-Source Wan 2.2 Modelle mit Unterstützung für ComfyUI-Workflows

Die gesamte Wan 2.2 Modellreihe – Text-zu-Video, Bild-zu-Video und Hybrid – ist öffentlich zugänglich über Hugging Face, GitHub und ModelScope. Mit der nahtlosen Integration von ComfyUI können Nutzer node-basierte Workflows gestalten, Clips über Zeitleistenwerkzeuge bearbeiten und Assets in großen Mengen generieren – alles in lokalen oder Cloud-Umgebungen. Die Open-Source-Natur von Wan 2.2 ermöglicht es Kreativen, Forschern und Entwicklern, innerhalb der sich ständig weiterentwickelnden Landschaft der KI-Video-Generierung frei zu bauen und zu innovieren.

Wan2.2 Modellvarianten: T2V, I2V und TI2V für Text-, Bild- und Hybrid-Video-Generierung

  • Wan2.2-T2V-A14B: Hochwertige Text-zu-Video-Generierung mit cineastischer Präzision

    Wan2.2-T2V-A14B ist ein Text-zu-Video-Modell mit 14 Milliarden Parametern auf Basis der Mixture-of-Experts (MoE)-Architektur. Es bietet außergewöhnliche Genauigkeit bei der semantischen Interpretation und Kontrolle über den filmischen Stil. Das Modell erzeugt 5-sekündige Videoclips in 480P und 720P mit fließenden Bewegungen – direkt aus natürlichen Spracheingaben. Mit fein abgestimmten Funktionen für Kamerabewegung, ästhetisches Grading und zeitliche Struktur setzt Wan2.2-T2V-A14B neue Maßstäbe in Benchmarks wie Wan-Bench 2.0. Ideal für kreatives Storytelling, Werbung und KI-gestützte Videoerstellung, bei denen Erzählgenauigkeit und visuelle Qualität entscheidend sind.

  • Wan2.2-I2V-A14B: Stabile und stilisierte Bild-zu-Video-Generierung in 720P

    Optimiert für die Umwandlung statischer Bilder in dynamische Video-Inhalte bringt Wan2.2-I2V-A14B filmische Ausdruckskraft in Bild-zu-Video-Workflows. Das Modell basiert ebenfalls auf der MoE-Architektur mit 14 Milliarden Parametern und unterstützt Ausgaben in 480P und 720P. Es reduziert häufige Probleme wie unnatürliche Kamerabewegungen oder Szenenbrüche und erhält gleichzeitig die visuelle Treue zum Quellbild. Mit flüssiger Bewegung und räumlicher Tiefe eignet es sich perfekt für digitale Kunstanimationen, Modevisualisierungen und cinematische Inhalte, bei denen visuelle Stabilität und Stil im Vordergrund stehen.

  • Wan2.2-TI2V-5B: Effizientes Hybridmodell für Text- und Bild-zu-Video-Generierung – lokal einsetzbar

    Wan2.2-TI2V-5B ist ein Hybridmodell mit 5 Milliarden Parametern, das sowohl für Text-zu-Video als auch für Bild-zu-Video-Generierung mit einer einheitlichen Architektur entwickelt wurde. Es basiert auf dem fortschrittlichen Wan2.2-VAE mit einem Kompressionsverhältnis von 16×16×4 und ermöglicht die Echtzeit-Generierung von 720P bei 24fps auf einer RTX 4090 GPU. Dieses Modell bietet ein ideales Gleichgewicht zwischen Leistung und Zugänglichkeit – perfekt für schnelle Prototypenentwicklung, Echtzeit-Vorschau und lokale Workflows mit ComfyUI. TI2V-5B gehört derzeit zu den schnellsten hochauflösenden Open-Source-Video-Generierungsmodellen für die Synthese von Text, Bild und Video.

Wan 2.2 vs Wan 2.1: Was ist neu in der nächsten Generation der Open-Source Video-KI?

FunktionenWan 2.1Wan 2.2
KernarchitekturDichte DiffusionMixture-of-Experts (MoE) Diffusion mit Expertinnen-Übergabe über Zeitschritte
ModellvariantenT2V (14B), I2V (14B)T2V (14B), I2V (14B), TI2V Hybrid (5B)
Training-DatenBaseline-Datensatz+65,6 % mehr Bilder, +83,2 % mehr Videos – reichhaltigere Bewegungen und Semantik
Ästhetische KontrolleBasis-TagsFilmische Steuerung für Beleuchtung, Farbe, Komposition
BewegungsgenerierungModerat, eingeschränkte KontrolleHohe Bewegungs-Komplexität, verbesserte Kamerasteuerung (Neigung, Orbit, Dolly, etc.)
Prompt-KompatibilitätBegrenzte GenauigkeitStarke Prompt-Kompatibilität mit präziser Steuerung von Szene, Bewegung und Objekten
Auflösung & BildrateBis zu 720P (T2V/I2V), niedrigere FPS720P@24fps sogar auf einer einzelnen RTX 4090 (TI2V)
Leistung auf VerbrauchermaschinenBegrenzte lokale EinsatzmöglichkeitenTI2V läuft lokal auf einer GPU mit mindestens 8 GB VRAM (z. B. RTX 4090)
VerwendungsmöglichkeitenNur Text-zu-Video oder Bild-zu-Video-GenerierungVereinheitlichte hybride Generierung + schnelleres Iterieren in ComfyUI-Workflows
GesamtbildqualitätAusreichend für grundlegende InhalteSchärfere Frames, weniger Artefakte, filmischer Feinschliff

Wie man Wan 2.2 für die KI-Videoerstellung einrichtet und verwendet

  • 1

    Option 1: Lokale Bereitstellung von Wan 2.2

    Wan 2.2 kann lokal bereitgestellt werden, indem der offizielle Code und die Modellgewichte von GitHub, Hugging Face oder ModelScope bezogen werden. Diese Quellen bieten alles, was benötigt wird, um Text-zu-Video, Bild-zu-Video oder hybride Generierungs-Workflows in Ihrer eigenen Umgebung zu nutzen. Nach der Einrichtung können Sie 720p-filmische Videoinhalte mit Kommandozeilentools erstellen oder ComfyUI für eine visuelle Bearbeitung nutzen.

  • 2

    Option 2: Nutzung von Wan 2.2 online über die offizielle Web-Oberfläche

    Wenn du nichts installieren möchtest, kannst du Wan 2.2 direkt online über Wan.Video ausprobieren – die offizielle browserbasierte Plattform für schnelle, hochwertige KI-Videoerstellung. Gib einfach eine Text- oder Bildvorgabe ein und erhalte in Sekundenschnelle einen cinematischen Videoclip – ganz ohne GPU oder technische Einrichtung. Diese Option ist ideal für Kreativschaffende, Designer und Forschende, die unterwegs schnell Prototypen erstellen, Prompts testen oder visuelle Konzepte entwickeln möchten.

4 Profi-Tipps zur Erstellung von hochwertigen Videoinhalten mit Wan 2.2

  • Erstelle bildhafte und präzise Eingabeaufforderungen

    Der Schlüssel, um das kreative Potenzial von Wan 2.2 zu entfalten, liegt darin, wie du deine Prompts formulierst. Vermeide vage Anweisungen wie „Erstelle ein cooles Video“ und beschreibe stattdessen die visuellen Elemente, das Tempo und die emotionale Stimmung. Ein starkes Beispiel für einen Prompt wäre: „Erstelle eine energiegeladene Modemontage mit schnellen Schnitten, markanten Texteinblendungen und elektronischer Musik.“ Je bildhafter und emotional geführter dein Prompt ist, desto besser stimmen die generierten Inhalte mit deiner kreativen Vision überein.

  • Nutze Prompt-Strukturen, die Szene, Stil und Emotion kombinieren

    Eine zuverlässige Methode, die KI zu steuern, besteht darin, strukturierte Prompts zu verwenden, die drei zentrale Elemente kombinieren: [Szene] + [Stil] + [Emotion]. Zum Beispiel: „Nahaufnahmen von Regentropfen auf Glas + cinematischer Stil + melancholische Stimmung.“ Dieses Format hilft der KI zu verstehen, was sie zeigen soll, wie sie es zeigen soll und warum es emotional wichtig ist. Behandle deinen Prompt wie ein Briefing für einen professionellen Editor – er sollte sowohl den Inhalt als auch die gewünschte Stimmung widerspiegeln.

  • Design mit Rhythmus: Visuelle Elemente mit Audiohinweisen abstimmen

    Um professionellere Videos zu erstellen, solltest du berücksichtigen, wie deine visuellen Elemente mit dem Audio synchronisiert sind. Gib in deinem Prompt Anweisungen zur Rhythmusgestaltung, wie z. B. „Schnitt bei Beat Drops“, „Intensität mit jedem Refrain steigern“ oder „Übergänge dem Tempo anpassen“. Wan 2.2 kann auf diese Hinweise mit rhythmusorientierten Schnitttechniken reagieren, was zu dynamischeren und ansprechenderen Inhalten führt, die absichtlich wirken und nicht automatisiert.

  • Iteriere und verfeinere durch Feedback-Schleifen

    Gib dich nicht mit dem ersten Ergebnis zufrieden – behandle es als Rohschnitt. Die wahre Stärke von Wan 2.2 liegt in seiner Fähigkeit zur iterativen Verbesserung. Nach dem ersten Ergebnis analysiere, was fehlt oder nicht stimmt, und verfeinere deinen Prompt entsprechend. Zum Beispiel: „Füge mehr Kontrast und Zeitlupeneffekte in emotionalen Szenen hinzu“ oder „Reduziere die Länge des Intros und betone die Detailaufnahmen des Produkts.“ Jede Runde der Eingabeaufforderungen funktioniert wie eine Feedback-Schleife, die das Endergebnis präziser auf deine kreative Vision abstimmt.

Erstelle kinoreife KI-Videos online mit Wan 2.2 auf YesChat.AI

  • Neben lokalen Tools wie ComfyUI ist Wan 2.2 auch auf YesChat.AI verfügbar, einer Online-Plattform für mühelose, browserbasierte Videoerstellung. Ohne Installation oder Hardware-Setup können Nutzer kinoreife KI-Videos direkt aus Text- oder Bild-Prompts in Sekunden erstellen. Ideal für schnelle Prototypenerstellung, kreative Experimente und mobile Workflows, senkt YesChat.AI die Einstiegshürden für Kreative und Forscher, die die Fähigkeiten von Wan 2.2 in einer schnellen, intuitiven und zugänglichen Umgebung testen möchten.

Häufig gestellte Fragen zu Wan 2.2

  • Was ist Wan 2.2 und wie definiert es die KI-Video-Generierung neu?

    Wan 2.2, entwickelt von Alibabas Tongyi Lab, ist das weltweit erste Open-Source-Modell für KI-Video-Generierung auf Basis einer Mixture-of-Experts-Architektur (MoE). Es wurde speziell für Text-zu-Video (T2V), Bild-zu-Video (I2V) und hybride Arbeitsabläufe konzipiert. Im Vergleich zu früheren, kompakten Modellen bietet Wan 2.2 eine kinoreife Bildqualität, flüssige Bewegungen und skalierbare Leistung – inklusive 720p bei 24fps auf handelsüblichen GPUs wie der RTX 4090.

  • Was unterscheidet die Modelle Wan2.2-T2V-A14B, Wan2.2-I2V-A14B und Wan2.2-TI2V-5B?

    Wan 2.2 bietet drei spezialisierte Modellvarianten: Wan2.2-T2V-A14B (14B Parameter, optimiert für hochauflösende Text-zu-Video-Generierung), Wan2.2-I2V-A14B (14B Parameter, ideal für stilisierte und stabile Bild-zu-Video-Erstellung) und Wan2.2-TI2V-5B (5B Parameter, ein leichtgewichtiges Hybridmodell für T2V und I2V in 720p auf einer einzigen GPU). Alle Varianten basieren auf der MoE-Architektur und sind auf verschiedene kreative und technische Anwendungsfälle zugeschnitten.

  • Wie erreicht Wan2.2-T2V-A14B kinoreifes Text-zu-Video-Rendering?

    Wan2.2-T2V-A14B wandelt Sprachprompts in visuell beeindruckende, bewegungskonsistente 5-Sekunden-Clips in 720p um – unterstützt durch 14B MoE-Parameter. Es ermöglicht präzise Kontrolle über Licht, Komposition, Kamerabewegung und emotionale Tonalität – perfekt für Storytelling, Konzeptentwicklung und Visualisierung von Konzepten in der Kreativbranche.

  • Welche Vorteile bietet Wan 2.2-I2V-A14B bei der Bild-zu-Video-Generierung?

    Wan 2.2-I2V-A14B bringt Stabilität und visuelle Kohärenz bei der Bild-zu-Video-Generierung. Es verwandelt statische Bilder in realistische Bewegungen und bewahrt dabei den künstlerischen Stil sowie das räumliche Layout. Durch die MoE-basierte Rauschunterdrückung werden Flimmern, Ruckeln und Verzerrungen reduziert – essenziell für Anwendungen in digitaler Kunst, stilisierten Inhalten und animierter Illustration.

  • Wann sollte ich Wan 2.2-TI2V-5B anstelle der größeren 14B-Modelle verwenden?

    Wan 2.2-TI2V-5B ist ideal für Schaffende, die schnelle, ressourcenschonende hybride Video-Generierung suchen. Es verarbeitet sowohl Text-zu-Video- als auch Bild-zu-Video-Aufgaben in einer kompakten Architektur (16×16×4 VAE), läuft mit 720p flüssig auf einer einzelnen RTX 4090 und eignet sich hervorragend für Echtzeit-Vorschau, lokales Prototyping und Workflows mit ComfyUI, ohne die Ausgabequalität zu beeinträchtigen.

  • Was macht Wan 2.2 heute einzigartig unter den KI-Video-Generatoren?

    Wan 2.2 ist das erste Open-Source-Modell, das MoE-Architektur mit multimodaler Video-Generierung (T2V, I2V und hybrid) kombiniert. Die kinoreife Steuerung, die Open-Source-Lizenz nach Apache 2.0, 720p-Unterstützung und die Echtzeit-Leistung auf gängiger Hardware machen Wan 2.2 zu einem einzigartig zugänglichen und leistungsstarken Tool für Profis aus Film, Werbung, Gaming und digitalem Design.

  • Wie kann ich Wan 2.2 mit ComfyUI für lokale Video-Generierungs-Workflows verwenden?

    Wan 2.2 bietet eine vollständige Integration mit ComfyUI und ermöglicht es Nutzern, Workflows auf Basis von Knoten für Text-zu-Video, Bild-zu-Video oder hybride Aufgaben zu erstellen. Nach dem Herunterladen der entsprechenden Wan 2.2-Modelle können Nutzer vorgefertigte Workflows (z.B. für Wan 2.2-T2V-A14B oder Wan 2.2-TI2V-5B) starten und lokale Videosynthese in 720p über eine benutzerfreundliche Oberfläche durchführen – ideal für Nicht-Programmierer, Künstler und schnelle Iterationen.

  • Wo kann ich die Wan 2.2-Modelle herunterladen und zum Open-Source-Projekt beitragen?

    Alle Wan 2.2-Modelle sind Open Source unter der Apache 2.0-Lizenz und auf GitHub, Hugging Face sowie ModelScope verfügbar. Benutzer können die Repositories herunterladen, Safetensors für Wan 2.2-T2V-A14B, Wan 2.2-I2V-A14B oder Wan 2.2-TI2V-5B herunterladen und sie lokal über CLI oder ComfyUI ausführen. Beiträge der Community sind über GitHub-Issues und Pull-Requests willkommen und fördern die globale Innovation in der Wan-Video-Erstellung und -Forschung.