阿里云,重大消息傳來。
2月25日晚間,阿里云旗下視覺生成基座模型萬相2.1(Wan)正式開源,此次開源采用最寬松的Apache2.0協議,14B和1.3B兩個參數規格的全部推理代碼和權重全部開源,同時支持文生視頻和圖生視頻任務,全球開發者可在Github、HuggingFace和魔搭社區下載體驗。
阿里云實現全模態、全尺寸大模型開源
據介紹,14B萬相模型在指令遵循、復雜運動生成、物理建模、文字視頻生成等方面表現突出,在權威評測集VBench中,萬相2.1以總分86.22%的成績大幅超越Sora、Luma、Pika等國內外模型,穩居榜首位置。1.3B版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯卡運行,僅需8.2GB顯存就可以生成高質量視頻,適用于二次模型開發和學術研究。
在算法設計上,萬相基于主流DiT架構和線性噪聲軌跡Flow Matching范式,研發了高效的因果3D VAE、可擴展的預訓練策略等。以3D VAE為例,為了高效支持任意長度視頻的編碼和解碼,萬相在3D VAE的因果卷積模塊中實現了特征緩存機制,從而代替直接對長視頻端到端的編解碼過程,實現了無限長1080P視頻的高效編解碼。此外,通過將空間降采樣壓縮提前,在不損失性能的情況下進一步減少了29%的推理時內存占用。
萬相團隊的實驗結果顯示,在運動質量、視覺質量、風格和多目標等14個主要維度和26個子維度測試中,萬相均達到了業界領先表現,并且斬獲5項第一。尤其在復雜運動和物理規律遵循上的表現上大幅提升,萬相能夠穩定展現各種復雜的人物肢體運動,如旋轉、跳躍、轉身、翻滾等;能夠精準還原碰撞、反彈、切割等復雜真實物理場景。
從2023年開始,阿里云就堅定大模型開源路線。
自2023年8月起,阿里云相繼開源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸,大語言、多模態、數學和代碼等全模態,多次登上國內外權威榜單,已成為全球開源社區最重要的模型系列。阿里云千問(Qwen)衍生模型數量已超過10萬個,是全球最大的AI模型家族。
隨著萬相的開源,阿里云實現了全模態、全尺寸大模型的開源。
值得一提的是,自2025年1月DeepSeek火爆出圈至今,開源正在成為國內外眾多大模型的“必選項”。今年2月,字節豆包、昆侖萬維、百度文心、阿里通義千問等均推出開源模型。
投入3800億元建設云和AI硬件基礎設施
阿里巴巴集團CEO吳泳銘在2月24日宣布,未來三年,阿里將投入超過3800億元,用于建設云和AI硬件基礎設施,總額超過去十年總和。這也創下中國民營企業在云和AI硬件基礎設施建設領域有史以來最大規模投資紀錄。
阿里這筆投入發生在兩個重要時點之后。一是國內AI產業爆發;二是民營企業座談會召開。吳泳銘表示:“AI爆發遠超預期,國內科技產業方興未艾,潛力巨大。阿里巴巴將不遺余力加速云和AI硬件基礎設施建設,助推全行業生態發展。”
此前在2月20日,吳泳銘在財報會上表示,阿里將于近期發布基于千問Qwen2.5-MAX的深度推理模型。1月底,阿里發布了AI基礎大模型千問旗艦版Qwen2.5-Max,在多項權威基準評測中,處于業界領先水平。目前,Qwen的全球衍生模型已突破9萬個,全球排名第一。
2月25日,通義千問官方賬號Qwen在海外社交平臺發布了QwQ-Max-Preview(推理模型預覽版),即將發布QwQ-Max正式版本、可部署在本地的較小版本以及官方App QwQ-Max。
Qwen同時宣布,即將發布QwQ-Max的正式版本,將在Apache 2.0許可下開源QwQ-Max和 Qwen2.5-Max。此外,還將提供規模較小的版本,例如 QwQ-32B,可部署在本地設備上。另外,將在發布官方QwQ-Max的同時發布安卓和iOS App。
目前,阿里云是亞洲第一的云計算公司,阿里巴巴通義千問大模型已成為全球頂尖的開源模型。3800億元巨額資金繼續投入,能極大提振相關產業信心,同時也表明阿里一如既往相信未來、投資未來。