April_AI Model Feature|DeepSeek: The technology innovation that shakes the world(Next)
Author: Mr. Lin Weizhi, Executive Vice President, Ji-Pu Industrial Trend Research Institute
DeepSeek-V3Model overview
DeepSeekIn 2024Christmasrolled outDeepSeek-V3Model.is based onTransformer organizationandking (chess piece)referred to aboveMixture-of-Experts. MoE) StructureMade some innovationsIts total number of parameters reaches6710billion(math.) genusand each layer256 expertscenterActivate only8+1individual(math.) genusUp toThe process is efficient and precise.It has three major innovations:
The key to DeepSeek-V3's ability to strike an excellent balance between performance and computational efficiency is its carefully designed customized model architecture. The core innovation isbecause ofMixture-of-Experts, autonomous R&D. MoE)MechanismTheBy being more compact and miniaturized,More Expert DesignsThe Government of the Hong Kong Special Administrative Region (HKSAR) has also introduced additional 另一大亮點是多頭潛在注意力(Multi-Head Latent Attention, MLA)。MLA相對於傳統的多頭注意力機制(Multi-Head Attention,MHA)在多個層面上帶來了改進The傳統MHA需要保存完整的Key(鍵、特徵)、Value(值)緩存,很大程度上限制了模型批次處裡的規模(Batch size),而MLA的核心思想則是通過對「Key」和「Value」進行聯合壓縮,以此來減少緩存的佔用The從論文中可以發現,壓縮檔案技術可以使其縮小93%,而在解壓縮時卻不會讓資料失真。K、V的暫存(Cache)資料中有非常多雜訊,在壓縮過程中反而會將不重要的雜訊慢慢減少,更能讓模型專注在重要的資訊上、提高推理效率The 另外,MLA通過新增獨立維度以保存位置資訊,應用了解耦旋轉位置編碼(RoPE)的技術,不僅保留了位置感知能力,還能避免額外的計算開銷(math.) genus使運算效率提升。附帶一提,在推論上處裡的規模(Batch size)的優化是一個很大的學問,也是這次2025GTC 黃仁勳Keynote的一個重點。 傳統的Transformer架構採用自回歸(Autoregressive)的方式,也就是必須基於前面的標記(Token)預測出下一個接續的標記(Token),稱為下一代預測(Next Token Prediction, NTP)The(indicates contrast)新的MTP方法可以預測多步標記(Token),迫使模型學習到更長的Token依賴關係,從而更好理解上下文,避免陷入局部決策的學習模式,有助於模型加速效能The 在高效能深度學習訓練中,訓練架構(Training Framework)的設計對於提升GPU利用率至關重要The其中,DeepSeek-V3採用了一種名為DualPipe的創新流水線並行策略The透過將計算與GPU之間的溝通重疊進行,顯著減少傳統方法中的閒置時間(idle time),提高硬體使用效率。普遍在訓練過程中計算(Computation)與通訊(Communication)是分開的,當計算完成後才會將資料傳輸至其他GPU,這種先後順序容易讓GPU在等待數據時閒置,浪費運算資源。而DualPipe技術能夠讓這兩個過程同時發生,不僅能夠提升運算效率,還可以顯著減少流水線氣泡(Pipeline Bubble)且減少內部儲存空間(math.) genus最大化GPU的使用率The通過巧妙地編排計算和通信的順序,實現了兩者的高度重疊。在數值計算層面,細緻化混合精度架構(Fine-Grained Mixed Precision Framework)進一步提升了訓練的計算效率。該框架主要以FP8進行大部分運算[以目前大致的研究來看,訓練的精度最少要FP8,推論就可以再下降到FP4],而對於如MoE Gating等對數值精度較為敏感的計算,則採用BF16或FP32,確保精度與效能之間的最佳平衡。傳統的 混合精度(Mixed Precision)方案雖然已被廣泛應用,但在FP8計算時容易受異常值(outliers)影響,進而影響收斂效果。為了解決此問題,該框架透過細緻度(Fine-Grained)設計,將張量(Tensor)拆分為更多更小的子集合(Sub Group),有效降低異常值對FP8 計算的影響。不過(math.) genus由於 NVIDIA 軟體原生不支援該級別的混合精度,DeepSeek自主開發了對應的實作,並解決了標準FP8在應用過程中的多項技術挑戰,使得這套框架能夠在實際應用中發揮更大優勢。 DeepSeek-R1 Zero/R1 Model overview 目前具備推理功能的模型包括OpenAI的O1/O3、Gemini 2.0 Pro/Flash(在2025年3月底又推出2.5),DeepSeek R1,以及 xAI的Grok3等The其中,DeepSeek-R1 Zero/R1是基於 DeepSeek-V3發布的開源模型。根據國外專家的評價,其性能與O1相當,但推理成本(透過 API 使用)卻只有O1的1/30[2025年2月],展現出極高的性價比。 此模型的命名是為致敬Alpha Zero,因為他們非常類似,皆脫離人類指導而自主發現規律、提升智能。其特點在於完全透過強化學習(Reinforcement Learning, RL)進行訓練,未經過任何(used form a nominal expression)監督微調(Supervised Fine-Tuning, SFT)階段。 Source: DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models, R1 Zero模型雖然有明顯提升的推理能力,but其可讀性差,可能會使用中英文夾雜程式語言等輸出,較不易直觀的理解其內容。 為了解決R1 Zero模型的問題DeepSeek-R1在訓練過程中導入多階段訓練 (Multi-Stage Training, MST),將模型訓練拆分為多個階段,每個階段逐步優化模型,以提升最終的性能。其中分為四步: 另一大亮點就是小模型蒸餾(Distillation)(math.) genus也就是一種模型壓縮技術,將一個大型且性能優異的模型(教師模型)內的知識轉移到一個較小的模型(學生模型)center。這過程使得學生模型能夠在保持相似性能的同時,顯著降低計算需求和資源的消耗。 DeepSeek從V2、V3到R1的一連串進步與創新震撼了AI界,不僅在推論能力上表現卓越,推論與訓練成本也相對較同等級之大語言模型低。然而,即使R1的表現優異,這仍然不是終點,AI模型領域的聖杯::通用AI模型(Artificial General Intelligence,AGI),目前所以具有邏輯推理能力的模型都還差了一截。因此AI市場對算力、GPU及AI晶片甚至資訊傳輸的需求將持續擴大。從xAI的持續投入及美國Stargate Project預計募資5000億美元的規模可見,當前的大模型競賽仍在激烈進行。 DeepSeek R1導入創新的強化學習(RL),使其具備更強的邏輯性;V3模型在創新方面展現三大特點:客製化模型架構、預測多步標記(MTP)以及客製化的訓練設備,不僅提升了模型效率,若未來MTP效能獲得廣泛應用,可能將需要更多CPU與GPU的協同運作,而這種訓練架構的發展將帶動光通訊需求的增加,同時也需要CPU(ASIC)具備更強的排程能力The 由於Scaling law的放緩,大型AI公司開始將模型的邏輯性(RL、CoT)與Test-Time Compute improvement 視為新的突破點。在開源AI模型領域,R1 Zero/R1的提出具有重要意義,不僅引入GRPO與Cold-Start Data等技術以降低推論成本,還發現透過蒸餾(Distillation)訓練的小模型表現異常優秀,顯示未來大模型生態將與「小而精」的模型並存The由於小模型的使用率將大幅提升(傑文斯悖論),推論需求將進一步增加,這將帶動更多ASIC的使用,並促使OPEX支出與IC與模型協作的需求同步提升。






