Alibaba Introduces Open-Source Model for Digital Human Video Generation
Speech-to-Video model, Wan2.2-S2V, brings portraits to life
August 27, 2025 – Alibaba has unveiled Wan2.2-S2V (Speech-to-Video), its latest open-source model designed for digital human video creation. This innovative tool converts portrait photos into film-quality avatars capable of speaking, singing, and performing.
Part of Alibaba’s Wan2.2 video generation series, the new model can generate high-quality animated videos from a single image and an audio clip.
Wan2.2-S2V offers versatile character animation capabilities, enabling the creation of videos across multiple framing options including portrait, bust, and full-body perspectives. It can generate character actions and environmental factors dynamically based on prompt instructions, allowing professional content creators to capture precise visual representations tailored to specific storytelling and design requirements.
Powered by advanced audio-driven animation technology, the model delivers lifelike character performances, ranging from natural dialogue to musical performances, and seamlessly handles multiple characters within a scene. Creators can now transform voice recordings into lifelike animated movements, supporting a diverse range of avatars, from cartoon and animals to stylized characters.
To meet the diverse needs of professional content creators, the technology provides flexible output resolutions of 480P and 720P. This ensures high-quality visuals output that meets various professional and creative standards, making it suitable for both social media content and professional presentations.
Innovative Technologies
Wan2.2-S2V transcends traditional talking-head animations by combining text-guided global motion control with audio-driven fine-grained local movements. This enables natural and expressive character performances across complex and challenging scenarios.
Another key breakthrough lies in the model's innovative frame processing technique. By compressing historical frames of arbitrary length into a single, compact latent representation, the technology significantly reduces computational overhead. This approach allows for remarkably stable long-video generation, addressing a critical challenge in extended animated content production.
The model’s advanced capabilities are further amplified by the model's comprehensive training methodology. Alibaba’s research team constructed a large-scale audio-visual dataset specifically tailored to film and television production scenarios. Using a multi-resolution training approach, Wan2.2-S2V supports flexible video generation across diverse formats – from vertical short-form content to traditional horizontal film and television productions.
Wan2.2-S2V model is available to download on Hugging Face and GitHub, as well as Alibaba Cloud’s open-source community, ModelScope. A major contributor to the global open-source community, Alibaba open sourced Wan2.1 models in February 2025 and Wan 2.2 models in July. To date, the Wan series has generated over 6.9 million downloads on Hugging Face and ModelScope.
"علي بابا" تطلق نموذجاً مفتوح المصدر لإنشاء مقاطع فيديو بشرية رقمية
نموذج تحويل الكلام إلى فيديو، Wan2.2-S2V، يضفي الحيوية على صور البورتريه
27 أغسطس 2025: كشفت "علي بابا" عن Wan2.2-S2V (تحويل الكلام إلى فيديو)، أحدث نموذج مفتوح المصدر مصمم لإنشاء مقاطع فيديو بشرية رقمية. وتحوّل هذه الأداة المبتكرة صور البورتريه إلى صور رمزية بجودة أفلام، قادرة على التحدث والغناء والأداء.
ويعدّ هذا النموذج الجديد جزءًا من سلسلة إنتاج مقاطع الفيديو Wan2.2 من علي بابا، ويمكنه إنشاء مقاطع فيديو متحركة عالية الجودة من صورة واحدة ومقطع صوتي.
ويوفر Wan2.2-S2V إمكانيات متنوعة لتحريك الشخصيات، مما يتيح إنشاء مقاطع فيديو عبر خيارات تأطير متعددة، مثل منظور البورتريه والصدر والجسم الكامل. كما يمكنه توليد حركات الشخصيات والعوامل البيئية ديناميكيًا بناءً على تعليمات سريعة، مما يسمح لصناع المحتوى المحترفين بالتقاط تمثيلات بصرية دقيقة معدة خصيصًا لمتطلبات سرد القصص والتصميم.
وبفضل تقنية الرسوم المتحركة الصوتية المتقدمة، يقدم هذا النموذج أداءً واقعيًا للشخصيات، بدءًا من الحوار الطبيعي وصولًا إلى العروض الموسيقية، ويتعامل بسلاسة مع شخصيات متعددة داخل المشهد. ويمكن للمبدعين الآن تحويل التسجيلات الصوتية إلى حركات واقعية، مما يدعم مجموعة متنوعة من الصور الرمزية، من الرسوم المتحركة والحيوانات إلى الشخصيات المنمقة.
ولتلبية الاحتياجات المتنوعة لصناع المحتوى المحترفين، توفر هذه التقنية دقة إخراج مرنة تبلغ 480 بكسل و720 بكسل. وهذا يضمن إنتاجًا بصريًا عالي الجودة يلبي مختلف المعايير المهنية والإبداعية، مما يجعله مناسبًا لكل من محتوى وسائل التواصل الاجتماعي والعروض التقديمية الاحترافية.
تقنيات مبتكرة
يتجاوز Wan2.2-S2V الرسوم المتحركة التقليدية بالرأس الناطق من خلال الجمع بين التحكم الشامل في الحركة الموجه بالنص والحركات المحلية الدقيقة المدعومة بالصوت. وهذا يتيح أداءً طبيعيًا ومعبرًا للشخصيات في سيناريوهات معقدة وصعبة.
ويكمن إنجاز رئيسي آخر في تقنية معالجة الإطارات المبتكرة في النموذج. فمن خلال ضغط الإطارات التاريخية ذات الطول العشوائي في تمثيل كامن واحد مضغوط، تقلل هذه التقنية بشكل كبير من التكلفة الحسابية. كما يتيح هذا النهج توليد مقاطع فيديو طويلة مستقرة بشكل ملحوظ، مما يعالج تحديًا بالغ الأهمية في إنتاج المحتوى الممتد للرسوم المتحركة.
وتعزز منهجية التدريب الشاملة للنموذج قدراته المتقدمة. فقد أنشأ فريق البحث في علي بابا مجموعة بيانات سمعية وبصرية واسعة النطاق مصممة خصيصًا لسيناريوهات إنتاج الأفلام والتلفزيون. وباستخدام نهج تدريب متعدد الدقة، يدعم Wan2.2-S2V توليد مقاطع فيديو مرنة عبر تنسيقات متنوعة - من المحتوى القصير العمودي إلى إنتاج الأفلام والتلفزيون الأفقي التقليدي.
يذكر أن نموذج Wan2.2-S2V متاح للتنزيل عبر Hugging Face وGitHub، بالإضافة إلى ModelScope، مجتمع علي بابا كلاود مفتوح المصدر. وباعتبارها مساهمًا رئيسيًا في المجتمع العالمي للمصادر المفتوحة، قامت علي بابا بفتح المصدر لنماذج Wan2.1 في شهر فبراير 2025 ونماذج Wan 2.2 في شهر يوليو. وحتى الآن، سجلت سلسلة Wan أكثر من 6.9 مليون عملية تنزيل على Hugging Face وModelScope.