AI模型專題｜DeepSeek 撼動全世界的技術創新(下)

發佈於: 2025/04/02|分類: 科技(Technology)|

作者：智璞產業趨勢研究所執行副總林偉智

DeepSeek-V3模型概述

DeepSeek於2024年聖誕節推出DeepSeek-V3模型，是基於Transformer架構，並將上文所提及的專家混合（Mixture-of-Experts, MoE）架構做了一些創新，其總參數量達到6710億，且每層256個專家中僅啟動8+1個，達到了高效且精確的處理。其有三大創新點：

一、客製化模型架構（僅選8+1個專家：8個Routed Expert +1個Shared Expert）

DeepSeek-V3能夠在性能與計算效率之間取得卓越平衡，關鍵在於其精心設計的客製化模型架構。其中，最核心的創新便為自主研發的專家混合（Mixture-of-Experts, MoE）機制。透過更細緻、更小型化、數量更多的專家設計，並額外引入

共享專家（Shared Experts），負責處理所有輸入內容中的共通知識與特徵。而DeepSeek在每次推理時，會從眾多專家中動態選擇8位專家，再搭配1位固定的共享專家（Shared Expert） 共同進行解答，即為8+1的專家調度機制。這樣的設計確保了在針對不同問題進行專業推理的同時，始終融入通用知識，提升模型的整體穩定性與泛化能力。另外，此模型中存在眾多的專家，每一個專家皆分布在不同的GPU上，若是選擇8+1個專家則會使GPU的溝通成本上升，其搭配無限制路由（No Limit Routed）技術，透過門控函數（Gating Function）及適應性參數（如K值）來動態選擇適當數量的專家，對於較簡單的問題，系統會分配給M個（評估過後的數值）專家以提升處理效率、降低溝通成本。其動態負載均衡機制也確保門控網路自動選擇負載較低的專家，避免某些專家過載，進而減少GPU之間的通訊成本，提升整體運算效率。此外，DeepSeek-V3採用了Auxiliary-Loss Free（免輔助損失）機制，不依賴傳統的輔助損失進行負載均衡，而是透過動態調整專家偏壓項來防止路由崩潰（Routing Collapse）。在Gate Routing 時候會去計算一個Routing score加上一個bias term動態偏差參數（bias term）𝑏𝑖。代表當某個專家過載時，系統會自動減小其偏壓，降低其被選擇的機率；若負載不足，則增加偏壓，確保專家之間的工作分配始終保持平衡。這不僅提升了模型的推理效率，還讓其在高效訓練的同時，維持卓越的性能。

另一大亮點是多頭潛在注意力（Multi-Head Latent Attention, MLA）。MLA相對於傳統的多頭注意力機制（Multi-Head Attention,MHA）在多個層面上帶來了改進。傳統MHA需要保存完整的Key（鍵、特徵）、Value（值）緩存，很大程度上限制了模型批次處裡的規模（Batch size），而MLA的核心思想則是通過對「Key」和「Value」進行聯合壓縮，以此來減少緩存的佔用。從論文中可以發現，壓縮檔案技術可以使其縮小93%，而在解壓縮時卻不會讓資料失真。K、V的暫存（Cache）資料中有非常多雜訊，在壓縮過程中反而會將不重要的雜訊慢慢減少，更能讓模型專注在重要的資訊上、提高推理效率。

另外，MLA通過新增獨立維度以保存位置資訊，應用了解耦旋轉位置編碼（RoPE）的技術，不僅保留了位置感知能力，還能避免額外的計算開銷，使運算效率提升。附帶一提，在推論上處裡的規模（Batch size）的優化是一個很大的學問，也是這次2025GTC 黃仁勳Keynote的一個重點。

二、創新的模型訓練方式：預測多步標記（Multi-Token Prediction, MTP）

傳統的Transformer架構採用自回歸（Autoregressive）的方式，也就是必須基於前面的標記（Token）預測出下一個接續的標記（Token），稱為下一代預測（Next Token Prediction, NTP）。而新的MTP方法可以預測多步標記（Token），迫使模型學習到更長的Token依賴關係，從而更好理解上下文，避免陷入局部決策的學習模式，有助於模型加速效能。

三、客製化的訓練設備（包含CUDA程式撰寫等軟體架構）

在高效能深度學習訓練中，訓練架構（Training Framework）的設計對於提升GPU利用率至關重要。其中，DeepSeek-V3採用了一種名為DualPipe的創新流水線並行策略。透過將計算與GPU之間的溝通重疊進行，顯著減少傳統方法中的閒置時間（idle time），提高硬體使用效率。普遍在訓練過程中計算（Computation）與通訊（Communication）是分開的，當計算完成後才會將資料傳輸至其他GPU，這種先後順序容易讓GPU在等待數據時閒置，浪費運算資源。而DualPipe技術能夠讓這兩個過程同時發生，不僅能夠提升運算效率，還可以顯著減少流水線氣泡（Pipeline Bubble）且減少內部儲存空間，最大化GPU的使用率。通過巧妙地編排計算和通信的順序，實現了兩者的高度重疊。在數值計算層面，細緻化混合精度架構（Fine-Grained Mixed Precision Framework）進一步提升了訓練的計算效率。該框架主要以FP8進行大部分運算[以目前大致的研究來看，訓練的精度最少要FP8，推論就可以再下降到FP4]，而對於如MoE Gating等對數值精度較為敏感的計算，則採用BF16或FP32，確保精度與效能之間的最佳平衡。傳統的混合精度（Mixed Precision）方案雖然已被廣泛應用，但在FP8計算時容易受異常值（outliers）影響，進而影響收斂效果。為了解決此問題，該框架透過細緻度（Fine-Grained）設計，將張量（Tensor）拆分為更多更小的子集合（Sub Group），有效降低異常值對FP8 計算的影響。不過，由於 NVIDIA 軟體原生不支援該級別的混合精度，DeepSeek自主開發了對應的實作，並解決了標準FP8在應用過程中的多項技術挑戰，使得這套框架能夠在實際應用中發揮更大優勢。

DeepSeek-R1 Zero/R1 模型概述

目前具備推理功能的模型包括OpenAI的O1/O3、Gemini 2.0 Pro/Flash(在2025年3月底又推出2.5)、DeepSeek R1，以及 xAI的Grok3等。其中，DeepSeek-R1 Zero/R1是基於 DeepSeek-V3發布的開源模型。根據國外專家的評價，其性能與O1相當，但推理成本（透過 API 使用）卻只有O1的1/30[2025年2月]，展現出極高的性價比。

一、 DeepSeek-R1 Zero（實驗模型）

此模型的命名是為致敬Alpha Zero，因為他們非常類似，皆脫離人類指導而自主發現規律、提升智能。其特點在於完全透過強化學習（Reinforcement Learning, RL）進行訓練，未經過任何的監督微調（Supervised Fine-Tuning, SFT）階段。

● 其RL是列出許多思維鏈（Chain–of-Thought），若回答正確了未來就會多用這套CoT，反之亦然。

● 傳統的RL方法通常需要計算每個動作的絕對回報值（PPO），而R1 Zero模型使用GPPO，將多個樣本組成一個群組，並以該群組內部的相對回報值作為學習信號，避免依賴獨立的回報模型，可減少計算成本。這種群組化學習方式有助於減少回報信號的高變異性問題，使模型在訓練過程中能夠更快收斂，並在大規模訓練場景下表現出更高的穩定性與泛化能力。GPPO利用分層學習機制來提升樣本利用率，允許模型在不同群組之間共享信息，進一步提升策略學習的效率。與傳統RL方法相比，這不僅減少了對高精度回報預測模型的需求，也使得策略訓練能夠適應更複雜的環境。而GPPO也能夠在GPU上高效運行，進一步降低計算資源的消耗，使其成為大規模強化學習應用中的關鍵技術之一。

Source: DeepSeekMath: Pushing the Limits of Mathematical

Reasoning in Open Language Models,

● 其使用格式獎勵，遵循<think>和<answer>的標籤格式，使輸出更加結構化。

● 後面發現模型學會長鏈式推理，展現出更明顯的邏輯性及自我檢查，甚至會有「Aha Moment」與反思，也就是在學習或推理過程中，模型突然理解某個概念或找到更有效解法的時刻（從困惑轉變為清晰的那一刻）。

R1 Zero模型雖然有明顯提升的推理能力，但其可讀性差，可能會使用中英文夾雜程式語言等輸出，較不易直觀的理解其內容。

二、 DeepSeek-R1

為了解決R1 Zero模型的問題DeepSeek-R1在訓練過程中導入多階段訓練（Multi-Stage Training, MST），將模型訓練拆分為多個階段，每個階段逐步優化模型，以提升最終的性能。其中分為四步：

● 引入冷啟動數據（Cold-Start Data），從DeepSeek V3中提供幾千筆人類修改出來的思維鏈（CoT），讓模型學習。其中的冷啟動（ColdStart）可以簡單理解成，新用戶一開始註冊音樂App時，系統不了解你的喜好而先推出一些熱門歌曲（冷啟動數據），後面再根據點擊及聽歌風格等推薦你可能會喜歡的歌曲。

● 其RL與R1 Zero模型的相同，卻導入拒絕採樣（Rejection Sampling, RS）讓AI生成多個答案，並只選擇最優的答案繼續訓練。再加上監督式微調（SFT）進一步優化推理及非推理能力，如問答中的敏感字眼等。

● 利用所有場景下強化學習（RL for all scenarios），執行更深層的訓練，使模型在所有場景下皆能表現良好，提升推理能力。

另一大亮點就是小模型蒸餾（Distillation），也就是一種模型壓縮技術，將一個大型且性能優異的模型（教師模型）內的知識轉移到一個較小的模型（學生模型）中。這過程使得學生模型能夠在保持相似性能的同時，顯著降低計算需求和資源的消耗。

DeepSeek從V2、V3到R1的一連串進步與創新震撼了AI界，不僅在推論能力上表現卓越，推論與訓練成本也相對較同等級之大語言模型低。然而，即使R1的表現優異，這仍然不是終點，AI模型領域的聖杯：通用AI模型(Artificial General Intelligence，AGI)，目前所以具有邏輯推理能力的模型都還差了一截。因此AI市場對算力、GPU及AI晶片甚至資訊傳輸的需求將持續擴大。從xAI的持續投入及美國Stargate Project預計募資5000億美元的規模可見，當前的大模型競賽仍在激烈進行。

DeepSeek R1導入創新的強化學習（RL），使其具備更強的邏輯性；V3模型在創新方面展現三大特點：客製化模型架構、預測多步標記（MTP）以及客製化的訓練設備，不僅提升了模型效率，若未來MTP效能獲得廣泛應用，可能將需要更多CPU與GPU的協同運作，而這種訓練架構的發展將帶動光通訊需求的增加，同時也需要CPU（ASIC）具備更強的排程能力。

由於Scaling law的放緩，大型AI公司開始將模型的邏輯性（RL、CoT）與Test-Time Compute improvement 視為新的突破點。在開源AI模型領域，R1 Zero/R1的提出具有重要意義，不僅引入GRPO與Cold-Start Data等技術以降低推論成本，還發現透過蒸餾（Distillation）訓練的小模型表現異常優秀，顯示未來大模型生態將與「小而精」的模型並存。由於小模型的使用率將大幅提升（傑文斯悖論），推論需求將進一步增加，這將帶動更多ASIC的使用，並促使OPEX支出與IC與模型協作的需求同步提升。