April_AI Model Feature|DeepSeek: The technology innovation that shakes the world(Next)

Published On: 2025/04/02|Categories: 科技(Technology)|

Author: Mr. Lin Weizhi, Executive Vice President, Ji-Pu Industrial Trend Research Institute

DeepSeek-V3Model overview

DeepSeekIn 2024Christmasrolled outDeepSeek-V3Model.is based onTransformer organizationandking (chess piece)referred to aboveMixture-of-Experts. MoE) StructureMade some innovationsIts total number of parameters reaches6710billion(math.) genusand each layer256 expertscenterActivate only8+1individual(math.) genusUp toThe process is efficient and precise.It has three major innovations:

One, Customized Model Racksorganization(onlySelect 8+1 experts::8 R's.outed Expert +1 Shared Expert)

The key to DeepSeek-V3's ability to strike an excellent balance between performance and computational efficiency is its carefully designed customized model architecture. The core innovation isbecause ofMixture-of-Experts, autonomous R&D. MoE)MechanismTheBy being more compact and miniaturized,More Expert DesignsThe Government of the Hong Kong Special Administrative Region (HKSAR) has also introduced additional

共享專家(Shared Experts),負責處理所有輸入內容中的共通知識與特徵The(indicates contrast)DeepSeek在每次推理時,會從眾多專家中動態選擇8位專家,再搭配1位固定的共享專家(Shared Expert) 共同進行解答,即because of8+1的專家調度機制。這樣的設計確保了在針對不同問題進行專業推理的同時,始終融入通用知識,提升模型的整體穩定性與泛化能力。另外,此模型中存在眾多的專家,每一個專家皆分布在不同的GPU上,若是選擇8+1個專家則會使GPU的溝通成本上升,搭配無限制路由(No Limit Routed)技術(math.) genus透過門控函數(Gating Function)適應性參數(如K值)動態選擇適當數量的專家(math.) genus對於簡單的問題,系統會分配給M個(評估過後的數值)專家以提升處理效率、降低溝通成本。其動態負載均衡機制確保門控網路自動選擇負載較低的專家,避免某些專家過載,進而減少GPU之間的通訊成本,提升整體運算效率。外,DeepSeek-V3採用了Auxiliary-Loss Free(免輔助損失)機制(math.) genus不依賴傳統的輔助損失進行負載均衡,而是透過動態調整專家偏壓項防止路由崩潰(Routing Collapse)The在Gate Routing 時候會去計算一個Routing score加上一個bias term動態偏差參數(bias term)𝑏𝑖。代表當某個專家過載時,系統會自動減小其偏壓,降低其被選擇的機率;若負載不足,則增加偏壓,確保專家之間的工作分配始終保持平衡。這不僅提升了模型的推理效率,還讓其在高效訓練的同時,維持卓越的性能。

另一大多頭潛在注意力(Multi-Head Latent Attention, MLA)。MLA相對於傳統的多頭注意力機制(Multi-Head Attention,MHA)在多個層面上帶來了改進The傳統MHA需要保存完整的Key(鍵、特徵)、Value(值)緩存,很大程度上限制了模型批次處裡的規模(Batch size),而MLA的核心思想則是通過對「Key」和「Value」進行聯合壓縮,以此來減少緩存的佔用The從論文中可以發現,壓縮檔案技術可以使其縮小93%,而在解壓縮時卻不會讓資料失真。K、V的暫存(Cache)資料中有非常多雜訊,在壓縮過程中反而會將不重要的雜訊慢慢減少,更能讓模型專注在重要的資訊上、提高推理效率The

另外,MLA通過新增獨立維度以保存位置資訊,應用了旋轉位置編碼(RoPE)的技術,不僅保留了位置感知能力,還能避免額外的計算開銷(math.) genus使運算效率提升。附帶一提,在推論上處裡的規模(Batch size)的優化是一個很大的學問,也是這次2025GTC 黃仁勳Keynote的一個重點。                        

二、 創新的模型訓練方式::預測多步標記(Multi-Token Prediction, MTP)

傳統的Transformer架構採用自回歸(Autoregressive)的方式,也就是必須基於前面的標記(Token)預測出下一個接續的標記(Token),稱為下一代預測(Next Token Prediction, NTP)The(indicates contrast)新的MTP方法可以預測多步標記(Token),迫使模型學習到更長的Token依賴關係,從而更好理解上下文,避免陷入局部決策的學習模式,有助於模型加速效能The

三、 客製化的訓練設備(包含CUDA程式撰寫等軟體架構)

在高效能深度學習訓練中,訓練架構(Training Framework)的設計對於提升GPU利用率至關重要The其中,DeepSeek-V3採用了一種名為DualPipe的創新流水線並行策略The透過將計算與GPU之間的溝通重疊進行,顯著減少傳統方法中的閒置時間(idle time),提高硬體使用效率。普遍在訓練過程中計算(Computation)與通訊(Communication)是分開的,當計算完成後才會將資料傳輸至其他GPU,這種先後順序容易GPU在等待數據時閒置,浪費運算資源。而DualPipe技術能夠讓這兩個過程同時發生,不僅能夠提升運算效率,還可以顯著減少流水線氣泡(Pipeline Bubble)且減少內部儲存空間(math.) genus最大化GPU的使用率The通過巧妙地編排計算和通信的順序,實現了兩者的高度重疊。在數值計算層面,細緻化混合精度架構(Fine-Grained Mixed Precision Framework)進一步提升了訓練的計算效率。該框架主要以FP8進行大部分運算[以目前大致的研究來看,訓練的精度最少要FP8,推論就可以再下降到FP4],而對於如MoE Gating等對數值精度較為敏感的計算,則採用BF16或FP32,確保精度與效能之間的最佳平衡。傳統的 混合精度(Mixed Precision)方案雖然已被廣泛應用,但在FP8計算時容易受異常值(outliers)影響,進而影響收斂效果。為了解決此問題,該框架透過細緻度(Fine-Grained)設計,將張量(Tensor)拆分為更多更小的子集合(Sub Group),有效降低異常值對FP8 計算的影響。不過(math.) genus由於 NVIDIA 軟體原生不支援該級別的混合精度,DeepSeek自主開發了對應的實作,並解決了標準FP8在應用過程中的多項技術挑戰,使得這套框架能夠在實際應用中發揮更大優勢。

 

DeepSeek-R1 Zero/R1 Model overview

目前具備推理功能的模型包括OpenAI的O1/O3、Gemini 2.0 Pro/Flash(在2025年3月底又推出2.5),DeepSeek R1,以及 xAI的Grok3The其中,DeepSeek-R1 Zero/R1是基於 DeepSeek-V3發布的開源模型。根據國外專家的評價,其性能與O1相當,但推理成本(透過 API 使用)卻只有O1的1/30[2025年2月],展現出極高的性價比。

One, DeepSeek-R1 Zero(實驗模型)

此模型的命名是為致敬Alpha Zero,因為他們非常類似,皆脫離人類指導而自主發現規律、提升智能。其特點在於完全透過強化學習(Reinforcement Learning, RL)進行訓練,未經過任何(used form a nominal expression)監督微調(Supervised Fine-Tuning, SFT)階段。

其RL是列出許多思維鏈(Chainof-Thought),若回答正確了未來就會多用這套CoT,反之亦然。
傳統的RL方法通常需要計算每個動作的絕對回報值(PPO),(indicates contrast)R1 Zero模型使用GPPO,將多個樣本組成一個群組(math.) genus並以該群組內部的相對回報值作為學習信號,避免依賴獨立的回報模型,可減少計算成本The這種群組化學習方式有助於減少回報信號的高變異性問題,使模型在訓練過程中能夠更快收斂,並在大規模訓練場景下表現出更高的穩定性與泛化能力。GPPO利用分層學習機制來提升樣本利用率,允許模型在不同群組之間共享信息(math.) genus進一步提升策略學習的效率。與傳統RL方法相比,這不僅減少了對高精度回報預測模型的需求,也使得策略訓練能夠適應更複雜的環境。(indicates contrast)GPPO也能夠在GPU上高效運行,進一步降低計算資源的消耗,使其成為大規模強化學習應用中的關鍵技術之一The

Source: DeepSeekMath: Pushing the Limits of Mathematical

Reasoning in Open Language Models,

其使用格式獎勵,遵循<think>和<answer>(used form a nominal expression)標籤格式,使輸出更結構化。
後面發現模型學會長鏈式推理,展現出更明顯的邏輯性及自我檢查,甚至會有「Aha Moment」與反思,也就是在學習或推理過程中,模型突然理解某個概念或找到更有效解法的時刻(從困惑轉變為清晰的那一刻)。

R1 Zero模型雖然有明顯提升的推理能力,but其可讀性差,可能會使用中英文夾雜程式語言等輸出,較不易直觀的理解其內容。

二、 DeepSeek-R1

為了解決R1 Zero模型的問題DeepSeek-R1在訓練過程中導入多階段訓練 (Multi-Stage Training, MST),將模型訓練拆分為多個階段,每個階段逐步優化模型,以提升最終的性能。其中分為四步:

引入冷啟動數據(Cold-Start Data),從DeepSeek V3中提供幾千筆人類修改出來的思維鏈(CoT),讓模型學習。其中的冷啟動(ColdStart)可以簡單理解成,新用戶一開始註冊音樂App時,系統不了解你的喜好而先推出一些熱門歌曲(冷啟動數據),後面再根據點擊及聽歌風格等推薦你可能會喜歡的歌曲。
其RL與R1 Zero模型的相同,導入拒絕採樣(Rejection Sampling, RS)讓AI生成多個答案,並只選擇最優的答案繼續訓練。再加上監督式微調(SFT)進一步優化推理及非推理能力(math.) genus如問答中的敏感字眼等。
利用所有場景下強化學習(RL for all scenarios),執行更深層的訓練,使模型在所有場景下皆能表現良好,提升推理能力。

另一大亮點就小模型蒸餾(Distillation)(math.) genus也就是一種模型壓縮技術,將一個大型且性能優異的模型(教師模型)內的知識轉移到一個較小的模型(學生模型)center。這過程使得學生模型能夠在保持相似性能的同時,顯著降低計算需求和資源的消耗。

DeepSeek從V2、V3到R1的一連串進步與創新震撼了AI界,不僅在推論能力上表現卓越,推論與訓練成本也相對同等級之大語言模型。然而,即使R1的表現優異,這仍然不是終點,AI模型領域的聖杯::通用AI模型(Artificial General Intelligence,AGI),目前所以具有邏輯推理能力的模型都還差了一截。因此AI市場對算力、GPU及AI晶片甚至資訊傳輸的需求將持續擴大。從xAI的持續投入及美國Stargate Project預計募資5000億美元的規模可見,當前的大模型競賽仍在激烈進行。

DeepSeek R1導入創新的強化學習(RL),使其具備更強的邏輯性V3模型在創新方面展現三大特點:客製化模型架構、預測多步標記(MTP)以及客製化的訓練設備,不僅提升了模型效率,若未來MTP效能獲得廣泛應用,可能將需要更多CPU與GPU的協同運作,而這種訓練架構的發展將帶動光通訊需求的增加,同時也需要CPU(ASIC)具備更強的排程能力The

由於Scaling law的放緩,大型AI公司開始將模型的邏輯性(RL、CoT)與Test-Time Compute improvement 視為新的突破點。在開源AI模型領域,R1 Zero/R1的提出具有重要意義,不僅引入GRPO與Cold-Start Data等技術以降低推論成本,還發現透過蒸餾(Distillation)訓練的小模型表現異常優秀,顯示未來大模型生態將與「小而精」的模型並存The由於小模型的使用率將大幅提升(傑文斯悖論),推論需求將進一步增加,這將帶動更多ASIC的使用,並促使OPEX支出與IC與模型協作的需求同步提升。

April_AI Model Feature|DeepSeek: The technology innovation that shakes the world(Up)
April_Tariff War|Trump's New Tariff Policy: Motivation and Risk Analysis
-For more information, please clickContact Us-
Share the article now!