四月_AI模型專題|DeepSeek 撼動全世界的技術創新(下)

發佈於: 2025/04/02|分類: 科技(Technology)|

作者:智璞產業趨勢研究所執行副總 林偉智

DeepSeek-V3模型概述

DeepSeek於2024年聖誕節推出DeepSeek-V3模型,是基於Transformer架構,並上文所提及的專家混合(Mixture-of-Experts, MoE)架構做了一些創新,其總參數量達到6710且每層256個專家僅啟動8+1達到了高效且精確的處理。其有三大創新點:

一、 客製化模型架選8+1個專家8個Routed Expert +1個Shared Expert

DeepSeek-V3能夠在性能與計算效率之間取得卓越平衡,關鍵在於其精心設計的客製化模型架構。其中,最核心的創新便自主研發的專家混合(Mixture-of-Experts, MoE機制透過更細緻、更小型化、數量更多的專家設計,並額外引入

共享專家(Shared Experts),負責處理所有輸入內容中的共通知識與特徵DeepSeek在每次推理時,會從眾多專家中動態選擇8位專家,再搭配1位固定的共享專家(Shared Expert) 共同進行解答,即8+1的專家調度機制。這樣的設計確保了在針對不同問題進行專業推理的同時,始終融入通用知識,提升模型的整體穩定性與泛化能力。另外,此模型中存在眾多的專家,每一個專家皆分布在不同的GPU上,若是選擇8+1個專家則會使GPU的溝通成本上升,搭配無限制路由(No Limit Routed)技術透過門控函數Gating Function適應性參數(如K值)動態選擇適當數量的專家對於簡單的問題,系統會分配給M個(評估過後的數值)專家以提升處理效率、降低溝通成本。其動態負載均衡機制確保門控網路自動選擇負載較低的專家,避免某些專家過載,進而減少GPU之間的通訊成本,提升整體運算效率。外,DeepSeek-V3採用了Auxiliary-Loss Free(免輔助損失)機制不依賴傳統的輔助損失進行負載均衡,而是透過動態調整專家偏壓項防止路由崩潰(Routing Collapse在Gate Routing 時候會去計算一個Routing score加上一個bias term動態偏差參數(bias term)𝑏𝑖。代表當某個專家過載時,系統會自動減小其偏壓,降低其被選擇的機率;若負載不足,則增加偏壓,確保專家之間的工作分配始終保持平衡。這不僅提升了模型的推理效率,還讓其在高效訓練的同時,維持卓越的性能。

另一大多頭潛在注意力(Multi-Head Latent Attention, MLA。MLA相對於傳統的多頭注意力機制(Multi-Head Attention,MHA)在多個層面上帶來了改進傳統MHA需要保存完整的Key(鍵、特徵)、Value(值)緩存,很大程度上限制了模型批次處裡的規模Batch size),而MLA的核心思想則是通過對「Key」和「Value」進行聯合壓縮,以此來減少緩存的佔用從論文中可以發現,壓縮檔案技術可以使其縮小93%,而在解壓縮時卻不會讓資料失真。K、V的暫存(Cache)資料中有非常多雜訊,在壓縮過程中反而會將不重要的雜訊慢慢減少,更能讓模型專注在重要的資訊上、提高推理效率

另外,MLA通過新增獨立維度以保存位置資訊,應用了旋轉位置編碼(RoPE的技術,不僅保留了位置感知能力,還能避免額外的計算開銷使運算效率提升。附帶一提,在推論上處裡的規模(Batch size)的優化是一個很大的學問,也是這次2025GTC 黃仁勳Keynote的一個重點。                        

二、 創新的模型訓練方式預測多步標記(Multi-Token Prediction, MTP

傳統的Transformer架構採用自回歸(Autoregressive)的方式,也就是必須基於前面的標記(Token)預測出下一個接續的標記(Token),稱為下一代預測Next Token Prediction, NTP新的MTP方法可以預測多步標記(Token),迫使模型學習到更長的Token依賴關係,從而更好理解上下文,避免陷入局部決策的學習模式,有助於模型加速效能

三、 客製化的訓練設備包含CUDA程式撰寫等軟體架構

在高效能深度學習訓練中,訓練架構(Training Framework)的設計對於提升GPU利用率至關重要其中,DeepSeek-V3採用了一種名為DualPipe的創新流水線並行策略透過將計算與GPU之間的溝通重疊進行,顯著減少傳統方法中的閒置時間(idle time),提高硬體使用效率。普遍在訓練過程中計算Computation與通訊Communication是分開的,當計算完成後才會將資料傳輸至其他GPU,這種先後順序容易GPU在等待數據時閒置,浪費運算資源。而DualPipe技術能夠讓這兩個過程同時發生,不僅能夠提升運算效率,還可以顯著減少流水線氣泡(Pipeline Bubble)且減少內部儲存空間最大化GPU的使用率通過巧妙地編排計算和通信的順序,實現了兩者的高度重疊。在數值計算層面,細緻化混合精度架構(Fine-Grained Mixed Precision Framework進一步提升了訓練的計算效率。該框架主要以FP8進行大部分運算[以目前大致的研究來看,訓練的精度最少要FP8,推論就可以再下降到FP4],而對於如MoE Gating等對數值精度較為敏感的計算,則採用BF16或FP32,確保精度與效能之間的最佳平衡。傳統的 混合精度(Mixed Precision方案雖然已被廣泛應用,但在FP8計算時容易受異常值(outliers)影響,進而影響收斂效果。為了解決此問題,該框架透過細緻度(Fine-Grained設計,將張量(Tensor拆分為更多更小的子集合(Sub Group),有效降低異常值對FP8 計算的影響。不過由於 NVIDIA 軟體原生不支援該級別的混合精度,DeepSeek自主開發了對應的實作,並解決了標準FP8在應用過程中的多項技術挑戰,使得這套框架能夠在實際應用中發揮更大優勢。

 

DeepSeek-R1 Zero/R1 模型概述

目前具備推理功能的模型包括OpenAI的O1/O3、Gemini 2.0 Pro/Flash(在2025年3月底又推出2.5)DeepSeek R1,以及 xAI的Grok3其中,DeepSeek-R1 Zero/R1是基於 DeepSeek-V3發布的開源模型。根據國外專家的評價,其性能與O1相當,但推理成本(透過 API 使用)卻只有O1的1/30[2025年2月],展現出極高的性價比。

一、 DeepSeek-R1 Zero(實驗模型)

此模型的命名是為致敬Alpha Zero,因為他們非常類似,皆脫離人類指導而自主發現規律、提升智能。其特點在於完全透過強化學習(Reinforcement Learning, RL)進行訓練,未經過任何監督微調(Supervised Fine-Tuning, SFT)階段。

其RL是列出許多思維鏈(Chainof-Thought),若回答正確了未來就會多用這套CoT,反之亦然。
傳統的RL方法通常需要計算每個動作的絕對回報值(PPO),R1 Zero模型使用GPPO,將多個樣本組成一個群組並以該群組內部的相對回報值作為學習信號,避免依賴獨立的回報模型,可減少計算成本這種群組化學習方式有助於減少回報信號的高變異性問題,使模型在訓練過程中能夠更快收斂,並在大規模訓練場景下表現出更高的穩定性與泛化能力。GPPO利用分層學習機制來提升樣本利用率,允許模型在不同群組之間共享信息進一步提升策略學習的效率。與傳統RL方法相比,這不僅減少了對高精度回報預測模型的需求,也使得策略訓練能夠適應更複雜的環境。GPPO也能夠在GPU上高效運行,進一步降低計算資源的消耗,使其成為大規模強化學習應用中的關鍵技術之一

Source: DeepSeekMath: Pushing the Limits of Mathematical

Reasoning in Open Language Models,

其使用格式獎勵,遵循<think>和<answer>標籤格式,使輸出更結構化。
後面發現模型學會長鏈式推理,展現出更明顯的邏輯性及自我檢查,甚至會有「Aha Moment」與反思,也就是在學習或推理過程中,模型突然理解某個概念或找到更有效解法的時刻(從困惑轉變為清晰的那一刻)。

R1 Zero模型雖然有明顯提升的推理能力,其可讀性差,可能會使用中英文夾雜程式語言等輸出,較不易直觀的理解其內容。

二、 DeepSeek-R1

為了解決R1 Zero模型的問題DeepSeek-R1在訓練過程中導入多階段訓練 Multi-Stage Training, MST),將模型訓練拆分為多個階段,每個階段逐步優化模型,以提升最終的性能。其中分為四步:

引入冷啟動數據(Cold-Start Data,從DeepSeek V3中提供幾千筆人類修改出來的思維鏈(CoT,讓模型學習。其中的冷啟動(ColdStart)可以簡單理解成,新用戶一開始註冊音樂App時,系統不了解你的喜好而先推出一些熱門歌曲(冷啟動數據),後面再根據點擊及聽歌風格等推薦你可能會喜歡的歌曲。
其RL與R1 Zero模型的相同,導入拒絕採樣(Rejection Sampling, RS)讓AI生成多個答案,並只選擇最優的答案繼續訓練。再加上監督式微調(SFT)進一步優化推理及非推理能力如問答中的敏感字眼等。
利用所有場景下強化學習(RL for all scenarios,執行更深層的訓練,使模型在所有場景下皆能表現良好,提升推理能力。

另一大亮點就小模型蒸餾(Distillation也就是一種模型壓縮技術,將一個大型且性能優異的模型(教師模型)內的知識轉移到一個較小的模型(學生模型)。這過程使得學生模型能夠在保持相似性能的同時,顯著降低計算需求和資源的消耗。

DeepSeek從V2、V3到R1的一連串進步與創新震撼了AI界,不僅在推論能力上表現卓越,推論與訓練成本也相對同等級之大語言模型。然而,即使R1的表現優異,這仍然不是終點,AI模型領域的聖杯通用AI模型(Artificial General Intelligence,AGI),目前所以具有邏輯推理能力的模型都還差了一截。因此AI市場對算力、GPU及AI晶片甚至資訊傳輸的需求將持續擴大。從xAI的持續投入及美國Stargate Project預計募資5000億美元的規模可見,當前的大模型競賽仍在激烈進行。

DeepSeek R1導入創新的強化學習(RL),使其具備更強的邏輯性V3模型在創新方面展現三大特點:客製化模型架構、預測多步標記(MTP)以及客製化的訓練設備,不僅提升了模型效率,若未來MTP效能獲得廣泛應用,可能將需要更多CPU與GPU的協同運作,而這種訓練架構的發展將帶動光通訊需求的增加,同時也需要CPU(ASIC)具備更強的排程能力

由於Scaling law的放緩,大型AI公司開始將模型的邏輯性(RL、CoT)與Test-Time Compute improvement 視為新的突破點。在開源AI模型領域,R1 Zero/R1的提出具有重要意義,不僅引入GRPO與Cold-Start Data等技術以降低推論成本,還發現透過蒸餾(Distillation)訓練的小模型表現異常優秀,顯示未來大模型生態將與「小而精」的模型並存由於小模型的使用率將大幅提升(傑文斯悖論),推論需求將進一步增加,這將帶動更多ASIC的使用,並促使OPEX支出與IC與模型協作的需求同步提升。

四月_AI模型專題|DeepSeek 撼動全世界的技術創新(上)
四月_關稅戰專題|川普關稅新政的動機與風險解析
—欲索取更多資訊,請點聯繫我們
現在就立刻分享文章