螞蟻集團使用國產AI芯片訓練大模型,成本可進一步降低。
近日,螞蟻集團Ling團隊發表了一篇技術成果論文。論文顯示,螞蟻集團推出了兩款不同規模的MoE大語言模型——百靈輕量版(Ling-Lite)與百靈增強版(Ling-Plus),前者參數規模為168億(激活參數27.5億),Plus基座模型參數規模高達2900億(激活參數288億),兩者性能均達到行業領先水平。
除了自研性能領先的大模型以外,該技術論文最大的突破在于提出了一系列創新方法,以提升資源受限環境下AI開發的效率與可及性。實驗表明,其3000億參數的MoE(混合專家)大模型可在使用國產GPU的低性能設備上完成高效訓練,性能與完全使用英偉達芯片、同規模的稠密模型及MoE模型相當。
在低性能硬件上高效訓練的自研大模型
目前,螞蟻集團Ling團隊的技術成果論文《每一個FLOP都至關重要:無需高級GPU即可擴展3000億參數混合專家LING大模型》已發表在預印版Arxiv平臺上。
據技術成果論文,雖然DeepSeek、阿里通義千問、MiniMax等系列的MoE大模型在特定任務中展現出卓越性能,但是MoE模型的訓練通常依賴高性能計算資源(如英偉達H100/H800等先進GPU),高昂成本制約了在資源受限環境中的普及應用。同時,近年來英偉達高性能芯片持續短缺,相比之下,低性能加速器供應更充足且單機成本更低。這種差異凸顯了構建跨異構計算單元與分布式集群無縫切換技術框架的必要性。
因此,Ling團隊設定的目標是“不使用高級GPU”來擴展模型,并通過提出創新性的訓練策略,旨在突破資源與預算限制實現高效大語言模型訓練,從而推動AI技術向普惠化方向發展。
具體而言,團隊提出的創新策略包括:1)架構與訓練策略革新:動態參數分配與混合精度調度技術;2)訓練異常處理機制升級:自適應容錯恢復系統縮短中斷響應時間;3)模型評估流程優化:自動化評測框架壓縮驗證周期超50%;4)工具調用能力突破:基于知識圖譜的指令微調提升復雜任務執行精度。
據技術論文,Ling團隊在五種不同的硬件配置上對9萬億個token進行Ling-Plus的預訓練,其中使用高性能硬件配置訓練1萬億token的預訓練成本約為635萬元人民幣,但利用螞蟻的優化方法后,使用低規格硬件的訓練成本將降至508萬元左右,節省了近20%,最終實現與阿里通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當的性能。
此前,DeepSeek通過一系列算法創新及工程優化,使用性能較低的英偉達H800訓練出了性能與頂尖模型相當的V3與R1,為大模型的訓練開辟了新的道路,讓更多的企業和研究機構看到了降低成本、提高效率的可能性。如果螞蟻集團的技術成果得到驗證及推廣,意味著國產大模型能夠尋找成本更低、效率更高的國產芯片或其他替代方案,以進一步降低對英偉達芯片的依賴。
螞蟻持續加碼AI應用與人形機器人
記者了解到,百靈大模型作為螞蟻集團自研的大模型,重點布局在生活服務、金融服務、醫療健康等場景的應用。去年5月,螞蟻在開放日上對外展示了多個AI創新應用產品,并首次公布了AI應用矩陣。螞蟻集團CTO何征宇透露,基于螞蟻百靈大模型的三個應用是螞蟻當下重點破局方向:生活管家、就醫助理及金融助手。
3月21日,螞蟻宣布AI醫療領域的最新進展:發布面向醫療機構、醫生、用戶三端的AI產品體系升級,其中,面向醫療機構,我們聯合華為醫療衛生軍團、阿里云、蘋果等推出“螞蟻醫療大模型一體機”全棧式解決方案;面向醫生,發布AI醫生助手系列工具;同時,面向用戶的健康應用“AI健康管家”也推出智能思考、健康自測等十余項新功能。
除了AI以外,螞蟻近期在人形機器人領域也動作頻頻。今年2月,某招聘平臺信息顯示,螞蟻集團開放招聘具身智能人形機器人系統和應用等崗位,年薪高達百萬元。而早在去年12月,螞蟻集團就注冊成立了上海螞蟻靈波科技有限公司,聚焦具身智能技術和產品研發。
據浦東發布消息,3月11日,上海螞蟻靈波科技有限公司在上海浦東舉行揭牌儀式。據介紹,螞蟻靈波科技是螞蟻集團拓展具身智能和機器人業務的主要載體,致力在家庭、養老、醫療健康等領域打造行業領先的機器人產品,此番落地將與浦東攜手共進,在未來產業新賽道上相互促進、共謀發展,助力浦東加快技術引領、行業集聚、產業升級步伐,打造以人形機器人為引領的具身智能創新高地和具有行業影響力的創新產業生態。
具身智能人形機器人作為新興領域,具有廣闊的市場前景和巨大的商業潛力。螞蟻集團可能希望通過布局該領域,探索新的增長點,并推動人機交互的新體驗。此外,具身智能人形機器人技術還可以與螞蟻集團現有的金融科技業務產生協同效應,共同推動技術創新和業務升級。
業內人士分析稱,具身智能人形機器人為新興領域,市場前景廣闊。螞蟻集團布局該領域,有助于探索新的增長點,并基于自身在人工智能、大數據、云計算等方面的技術優勢和已有業務布局,加速人形機器人的研發和在相關業務場景中的應用。
校對:彭其華
(點擊圖片進入報名頁面)