經過兩年多的探索,金融行業已經達成的共識是,大模型基于巨量數據語料學習實現快問快答的“快思考”,仍不能滿足產業應用側的實際業務需求,側重推理邏輯的“慢思考”必不可少。
去年9月,OpenAI-o1模型一經推出就在全球AI市場掀起風暴,正是因為其通過強化學習和思維鏈拆解了復雜問題,使大模型的推理能力得到大幅提高,特別是解決數理問題和復雜任務的表現顯著優于GPT系列的通用大模型。
然而,o1模型推理能力的提升是以響應速度與算力消耗為代價的。與GPT系列通用大模型的“秒答”相比,o1的響應速度大約需要10秒,且使用價格高昂。
在這個春節前,DeepSeek正式發布DeepSeek-R1推理大模型,并同步開源模型權重,成為全球第一個成功復現o1能力的模型,在推理性能與o1持平的同時,將相關算力消耗降到十分之一。通過官方API接入R1模型的輸入token(命中緩存)價格只有o1的五十分之一,未命中緩存以及輸出token的價格大約是二十七分之一。
談到R1帶來的這場技術熱潮,一家股份行數字化轉型部門高層難掩激動,向記者表示:“毫不夸張地說,DeepSeek研發出了目前國內開閉源模型中性價比最高的大模型。”他指出,這里的性價比既包括推理成本上的節約,也有業務場景應用能力的大幅躍升。“過去很多上報申請資金的AI項目,或由于成本高昂,或是落地計劃不夠實際,最終沒能過批,但現在我相信未來會有大量創新項目涌現。”
多位受訪對象指出,R1模型通過開源實現了“AI平權”,能釋放更多中小金融機構的AI應用想象力,形成更多確定性的應用,但這樣的優等生要真正“上崗”,依然離不開傳統通用大模型在落地時的語料訓練、算法調優與算力加持。
另一個需要明確的是,多家金融機構宣布接入了DeepSeek-V3和R1全尺寸模型,不意味著其他通用模型廠商的敗退。在下一個技術“奇點”出現前,通用大模型、深度推理大模型、多模態模型以及核心業務場景下的小模型仍將處于并存狀態,根據不同場景實施應用落地。
補齊短板:一個“全科211碩士”的誕生
“嗯,用戶的問題是……”
這是DeepSeek在很多時候回復用戶的第一句話。當你向DeepSeek提出一個問題,它會通過十幾秒的深度思考后再給出回復,并在回復中提到自己如何理解這一問題、該問題涉及哪些方面、用戶可能期待哪些方向的回復,這就是深度推理大模型的“慢思考”過程。
R1模型的慢思考能力來自于DeepSeek的算法創新。相較于傳統大模型的“秒問秒答”,R1不會提供直接響應,而是對指令內容進行多次推理,采用思維鏈、共識和檢索來生成最佳答案。由于模型每一次生成內容都需要反復思考,因此也會創建出更多的輸出標記,從而進一步提高模型質量。
在多位受訪對象看來,R1帶來最大的變化是補齊了傳統通用大模型的推理短板。
“整體來看,現在的大模型擁有全科211碩士的能力。”一位來自腰部券商的信息技術負責人向記者表示,一個具備完整能力的數字員工,需要兼具快思考和慢思考兩種能力,在R1的加持下,“慢思考”得以實現。
他坦言,在DeepSeek開源R1之前,機構要應用深度推理模型只能選擇接入o1模型的API接口,但金融行業出于合規和數據安全考量,不可能在生產環節實際應用,如今R1的出現可以分析復雜數據并通過思維鏈模擬人類的推理思維過程,性能與o1不相上下。
一家城商行大模型業務負責人也告訴記者:“之前我們接入的都是類似通義千問、DeepSeek-V3這樣的通用大模型,始終沒有像o1這樣的深度推理大模型,R1模型發布后AI應用才真正有了深度思考的能力。”
以智能營銷場景為例,傳統通用大模型生成的營銷話術,或是基于規則系統對語料的組織整合,抑或是基于用戶給出的指令進行快速反饋,但如果受到指令方的質疑,可能無法通過多次交互達到營銷效果,但基于推理大模型的深度理解,與用戶的交互將更加智能準確。
算力、數據:通用大模型走過的路一條也不能少
雖然R1模型是精于推理的“優等生”,但要成為金融行業從業者,和傳統通用大模型在金融行業要經受的考驗是一樣的。
AI行業權威的Vectara HHEM人工智能幻覺測試顯示,DeepSeek-R1顯示出14.3%的幻覺率,遠高于同為DeepSeek旗下V3模型3.9%的幻覺率,也超過了行業平均水平。
“學而不思則罔,思而不學則殆。”這句話在AI領域同樣適用。
R1模型的超強推理能力使得它在數理能力和邏輯推理方面表現優秀,但在文科內容輸出方面“過度發揮”從而產生幻覺。
一家金融機構的首席信息官告訴記者,他在嘗試通過DeepSeek生成個人簡歷時發現,其表述出現“胡說八道”的情況,但其他通用大模型基于公開資料梳理較為準確。
前述城商行人士向記者坦言,在邏輯推理能力方面,R1模型的表現是目前國內大模型中最突出的,但在本地化部署輸入金融相關語料數據前,其專業知識理解依然存在偏差。
“灌進去的知識也不是立刻就能用得上它的邏輯思維能力。”他表示,所有大模型在金融行業的落地,都需要解決算力和數據這兩大問題。
一方面,AI戰略下語料需求帶來的數據治理仍是金融機構的必答題,R1模型更大的幻覺問題對高質量數據集和知識庫提出更高的要求。
另一方面,在算力角度,記者了解到,金融機構如果要本地部署大模型,其算力消耗包括兩個方面,一是本地部署激活所需的算力成本,二是推理過程中消耗的算力成本,前者是固定的成本支出,根據部署模型的不同尺寸會有所差異,后者則是關乎模型效果的成本支出。
不過與通用大模型相比,R1模型無論是在推理成本還是訓練成本上都有顯著優勢,降低了算力端的落地應用成本。
值得一提的是,雖然多家金融機構都官宣接入DeepSeek-R1或V3相關模型,但各家金融機構根據自身資源稟賦不同,或是成本支出、實際應用等方面的考量,接入模型的尺寸是有差異的。
例如郵儲銀行、江蘇銀行接入的是輕量版DeepSeek-R1模型,另有一家大行金融科技部人士告訴記者,該行目前剛剛部署了14B的R1模型還在測試中。而前述腰部券商IT部門則是部署了R1的全尺寸模型。
前述城商行人士向記者表示,DeepSeek-R1模型有7B、14B、32B、671B等不同尺寸模型供用戶選擇,用戶基于個人或企業需求可自行部署,小尺寸模型是基于“滿血版”671B模型的蒸餾版,其性能和效果都會存在差異。但通義千問旗下Qwen2.5開源版本的最大尺寸是72B。
這意味著如果金融機構想要通過本地化部署實現最佳效果,“滿血版”R1模型的本地化部署所需的顯存遠高于Qwen2.5,這或許也是一些機構從輕量模型開始試水的一大原因。
變革已至:釋放創新應用想象力
盡管不同金融機構接入DeepSeek的深度有所差異,但對于金融行業來說,R1強大的推理能力仍將釋放創新應用的想象力,帶來一場AI應用的深度變革。
其實金融行業對DeepSeek也不陌生。記者了解到,早在一年多以前金融機構嘗試AI大模型部署應用時,就接入了DeepSeek-Coder-V2開源代碼語言模型。在接受21世紀經濟報道記者采訪的7家金融機構IT部門人士中,有5家機構的智能代碼助手模型是基于Coder-V2提供服務的。
“我們嘗試過市面上大部分代碼語言模型,可能因為幻方量化本身在量化編程方面的能力就很強,Coder-V2在代碼生成方面的能力會更好。”有受訪對象表示。
“DeepSeek通過開源R1模型實現了‘AI平權’。”前述券商人士表示,原本這類推理模型需要超強的技術背景,如深度學習、神經網絡推理、元學習等,但DeepSeek開放的技術報告,讓所有機構得以在自己的大模型上復現用于構建R1模型的強化學習工作流,以知識蒸餾方式實現從DeepSeek到金融垂域大模型的能力轉移,從而實現AI應用在復雜金融場景中的實戰效能。
他表示,在證券領域,將為行業探索“AI+經紀”“AI+投研”“AI+投顧”“AI+合規”“AI+文檔”等創新模式開辟新路徑、新場景。同時,他所在公司計劃基于深度推理大模型進一步增強AI診股、AI漲停分析、行研報告生成等AI功能。
值得關注的是,推理大模型的出現并不意味著通用大模型的撤退。如今,通用大模型、推理大模型、多模態模型和小模型正在不同金融業務場景發揮著各自的作用。
“對于我們這樣將AI作為核心戰略的銀行來說,DeepSeek將加速創新應用的出現,而對部分此前出于成本考量而沒有大規模實施AI戰略的中小金融機構來說,或許會重構其科技規劃。”一位銀行數字化轉型部門高層向記者表示,雖然AI在金融核心業務場景的落地實施還存在痛點,但人工智能的目標并不是代替業務人員做到100%的準確,而是通過人工智能來提供金融服務的更多可能,在業務上產生更大的創新應用價值。
“如果一家銀行的CIO對AI抱有這種不切實際的期望,或許是不理解智能時代AI的真正價值。”他表示。