AI模型專題｜DeepSeek 撼動全世界的技術創新(下)

Published On: 2025/04/02|Categories: 科技(Technology)|

Author: Mr. Lin Weizhi, Executive Vice President, Ji-Pu Industrial Trend Research Institute

DeepSeek-V3Model overview

DeepSeekIn 2024Christmasrolled outDeepSeek-V3Model.is based onTransformer organizationandking (chess piece)referred to aboveMixture-of-Experts. MoE) StructureMade some innovationsIts total number of parameters reaches6710billion(math.) genusand each layer256 expertscenterActivate only8+1individual(math.) genusUp toThe process is efficient and precise.It has three major innovations:

One, Customized Model Racksorganization(onlySelect 8+1 experts::8 R's.outed Expert +1 Shared Expert)

The key to DeepSeek-V3's ability to strike an excellent balance between performance and computational efficiency is its carefully designed customized model architecture. The core innovation isbecause ofMixture-of-Experts, autonomous R&D. MoE)MechanismTheBy being more compact and miniaturized,More Expert DesignsThe Government of the Hong Kong Special Administrative Region (HKSAR) has also introduced additional

共享專家（Shared Experts），負責處理所有輸入內容中的共通知識與特徵The(indicates contrast)DeepSeek在每次推理時，會從眾多專家中動態選擇8位專家，再搭配1位固定的共享專家（Shared Expert） 共同進行解答，即because of8+1的專家調度機制。這樣的設計確保了在針對不同問題進行專業推理的同時，始終融入通用知識，提升模型的整體穩定性與泛化能力。另外，此模型中存在眾多的專家，每一個專家皆分布在不同的GPU上，若是選擇8+1個專家則會使GPU的溝通成本上升，其搭配無限制路由（No Limit Routed）技術(math.) genus透過門控函數(Gating Function)及適應性參數（如K值）來動態選擇適當數量的專家(math.) genus對於較簡單的問題，系統會分配給M個（評估過後的數值）專家以提升處理效率、降低溝通成本。其動態負載均衡機制也確保門控網路自動選擇負載較低的專家，避免某些專家過載，進而減少GPU之間的通訊成本，提升整體運算效率。此外，DeepSeek-V3採用了Auxiliary-Loss Free（免輔助損失）機制(math.) genus不依賴傳統的輔助損失進行負載均衡，而是透過動態調整專家偏壓項來防止路由崩潰（Routing Collapse)The在Gate Routing 時候會去計算一個Routing score加上一個bias term動態偏差參數（bias term）𝑏𝑖。代表當某個專家過載時，系統會自動減小其偏壓，降低其被選擇的機率；若負載不足，則增加偏壓，確保專家之間的工作分配始終保持平衡。這不僅提升了模型的推理效率，還讓其在高效訓練的同時，維持卓越的性能。

另一大亮點是多頭潛在注意力（Multi-Head Latent Attention, MLA)。MLA相對於傳統的多頭注意力機制（Multi-Head Attention,MHA）在多個層面上帶來了改進The傳統MHA需要保存完整的Key（鍵、特徵）、Value（值）緩存，很大程度上限制了模型批次處裡的規模(Batch size），而MLA的核心思想則是通過對「Key」和「Value」進行聯合壓縮，以此來減少緩存的佔用The從論文中可以發現，壓縮檔案技術可以使其縮小93%，而在解壓縮時卻不會讓資料失真。K、V的暫存（Cache）資料中有非常多雜訊，在壓縮過程中反而會將不重要的雜訊慢慢減少，更能讓模型專注在重要的資訊上、提高推理效率The

另外，MLA通過新增獨立維度以保存位置資訊，應用了解耦旋轉位置編碼（RoPE)的技術，不僅保留了位置感知能力，還能避免額外的計算開銷(math.) genus使運算效率提升。附帶一提，在推論上處裡的規模（Batch size）的優化是一個很大的學問，也是這次2025GTC 黃仁勳Keynote的一個重點。

二、創新的模型訓練方式::預測多步標記（Multi-Token Prediction, MTP)

傳統的Transformer架構採用自回歸（Autoregressive）的方式，也就是必須基於前面的標記（Token）預測出下一個接續的標記（Token），稱為下一代預測(Next Token Prediction, NTP)The(indicates contrast)新的MTP方法可以預測多步標記（Token），迫使模型學習到更長的Token依賴關係，從而更好理解上下文，避免陷入局部決策的學習模式，有助於模型加速效能The

三、客製化的訓練設備(包含CUDA程式撰寫等軟體架構)

在高效能深度學習訓練中，訓練架構（Training Framework）的設計對於提升GPU利用率至關重要The其中，DeepSeek-V3採用了一種名為DualPipe的創新流水線並行策略The透過將計算與GPU之間的溝通重疊進行，顯著減少傳統方法中的閒置時間（idle time），提高硬體使用效率。普遍在訓練過程中計算(Computation)與通訊(Communication)是分開的，當計算完成後才會將資料傳輸至其他GPU，這種先後順序容易讓GPU在等待數據時閒置，浪費運算資源。而DualPipe技術能夠讓這兩個過程同時發生，不僅能夠提升運算效率，還可以顯著減少流水線氣泡（Pipeline Bubble）且減少內部儲存空間(math.) genus最大化GPU的使用率The通過巧妙地編排計算和通信的順序，實現了兩者的高度重疊。在數值計算層面，細緻化混合精度架構（Fine-Grained Mixed Precision Framework)進一步提升了訓練的計算效率。該框架主要以FP8進行大部分運算[以目前大致的研究來看，訓練的精度最少要FP8，推論就可以再下降到FP4]，而對於如MoE Gating等對數值精度較為敏感的計算，則採用BF16或FP32，確保精度與效能之間的最佳平衡。傳統的混合精度（Mixed Precision)方案雖然已被廣泛應用，但在FP8計算時容易受異常值（outliers）影響，進而影響收斂效果。為了解決此問題，該框架透過細緻度（Fine-Grained)設計，將張量（Tensor)拆分為更多更小的子集合（Sub Group），有效降低異常值對FP8 計算的影響。不過(math.) genus由於 NVIDIA 軟體原生不支援該級別的混合精度，DeepSeek自主開發了對應的實作，並解決了標準FP8在應用過程中的多項技術挑戰，使得這套框架能夠在實際應用中發揮更大優勢。

DeepSeek-R1 Zero/R1 Model overview

目前具備推理功能的模型包括OpenAI的O1/O3、Gemini 2.0 Pro/Flash(在2025年3月底又推出2.5),DeepSeek R1，以及 xAI的Grok3等The其中，DeepSeek-R1 Zero/R1是基於 DeepSeek-V3發布的開源模型。根據國外專家的評價，其性能與O1相當，但推理成本（透過 API 使用）卻只有O1的1/30[2025年2月]，展現出極高的性價比。

One, DeepSeek-R1 Zero（實驗模型）

此模型的命名是為致敬Alpha Zero，因為他們非常類似，皆脫離人類指導而自主發現規律、提升智能。其特點在於完全透過強化學習（Reinforcement Learning, RL）進行訓練，未經過任何(used form a nominal expression)監督微調（Supervised Fine-Tuning, SFT）階段。

● 其RL是列出許多思維鏈（Chain–of-Thought），若回答正確了未來就會多用這套CoT，反之亦然。

● 傳統的RL方法通常需要計算每個動作的絕對回報值（PPO），(indicates contrast)R1 Zero模型使用GPPO，將多個樣本組成一個群組(math.) genus並以該群組內部的相對回報值作為學習信號，避免依賴獨立的回報模型，可減少計算成本The這種群組化學習方式有助於減少回報信號的高變異性問題，使模型在訓練過程中能夠更快收斂，並在大規模訓練場景下表現出更高的穩定性與泛化能力。GPPO利用分層學習機制來提升樣本利用率，允許模型在不同群組之間共享信息(math.) genus進一步提升策略學習的效率。與傳統RL方法相比，這不僅減少了對高精度回報預測模型的需求，也使得策略訓練能夠適應更複雜的環境。(indicates contrast)GPPO也能夠在GPU上高效運行，進一步降低計算資源的消耗，使其成為大規模強化學習應用中的關鍵技術之一The

Source: DeepSeekMath: Pushing the Limits of Mathematical

Reasoning in Open Language Models,

● 其使用格式獎勵，遵循<think>和<answer>(used form a nominal expression)標籤格式，使輸出更加結構化。

● 後面發現模型學會長鏈式推理，展現出更明顯的邏輯性及自我檢查，甚至會有「Aha Moment」與反思，也就是在學習或推理過程中，模型突然理解某個概念或找到更有效解法的時刻（從困惑轉變為清晰的那一刻）。

R1 Zero模型雖然有明顯提升的推理能力，but其可讀性差，可能會使用中英文夾雜程式語言等輸出，較不易直觀的理解其內容。

二、 DeepSeek-R1

為了解決R1 Zero模型的問題DeepSeek-R1在訓練過程中導入多階段訓練 (Multi-Stage Training, MST），將模型訓練拆分為多個階段，每個階段逐步優化模型，以提升最終的性能。其中分為四步：

● 引入冷啟動數據（Cold-Start Data)，從DeepSeek V3中提供幾千筆人類修改出來的思維鏈（CoT)，讓模型學習。其中的冷啟動（ColdStart）可以簡單理解成，新用戶一開始註冊音樂App時，系統不了解你的喜好而先推出一些熱門歌曲（冷啟動數據），後面再根據點擊及聽歌風格等推薦你可能會喜歡的歌曲。

● 其RL與R1 Zero模型的相同，卻導入拒絕採樣（Rejection Sampling, RS）讓AI生成多個答案，並只選擇最優的答案繼續訓練。再加上監督式微調（SFT）進一步優化推理及非推理能力(math.) genus如問答中的敏感字眼等。

● 利用所有場景下強化學習（RL for all scenarios)，執行更深層的訓練，使模型在所有場景下皆能表現良好，提升推理能力。

另一大亮點就是小模型蒸餾（Distillation)(math.) genus也就是一種模型壓縮技術，將一個大型且性能優異的模型（教師模型）內的知識轉移到一個較小的模型（學生模型）center。這過程使得學生模型能夠在保持相似性能的同時，顯著降低計算需求和資源的消耗。

DeepSeek從V2、V3到R1的一連串進步與創新震撼了AI界，不僅在推論能力上表現卓越，推論與訓練成本也相對較同等級之大語言模型低。然而，即使R1的表現優異，這仍然不是終點，AI模型領域的聖杯::通用AI模型(Artificial General Intelligence，AGI)，目前所以具有邏輯推理能力的模型都還差了一截。因此AI市場對算力、GPU及AI晶片甚至資訊傳輸的需求將持續擴大。從xAI的持續投入及美國Stargate Project預計募資5000億美元的規模可見，當前的大模型競賽仍在激烈進行。

DeepSeek R1導入創新的強化學習（RL），使其具備更強的邏輯性；V3模型在創新方面展現三大特點：客製化模型架構、預測多步標記（MTP）以及客製化的訓練設備，不僅提升了模型效率，若未來MTP效能獲得廣泛應用，可能將需要更多CPU與GPU的協同運作，而這種訓練架構的發展將帶動光通訊需求的增加，同時也需要CPU（ASIC）具備更強的排程能力The

由於Scaling law的放緩，大型AI公司開始將模型的邏輯性（RL、CoT）與Test-Time Compute improvement 視為新的突破點。在開源AI模型領域，R1 Zero/R1的提出具有重要意義，不僅引入GRPO與Cold-Start Data等技術以降低推論成本，還發現透過蒸餾（Distillation）訓練的小模型表現異常優秀，顯示未來大模型生態將與「小而精」的模型並存The由於小模型的使用率將大幅提升（傑文斯悖論），推論需求將進一步增加，這將帶動更多ASIC的使用，並促使OPEX支出與IC與模型協作的需求同步提升。