四月_AI模型專題｜DeepSeek 撼動全世界的技術創新(上)

發佈於: 2025/04/02|分類: 科技(Technology)|

作者：智璞產業趨勢研究所執行副總林偉智

為了防堵中國發展AI晶片，美國川普政府將延續前朝持續祭出”AI晶片三級管制”，於2025年5月15日上路。包括彭博等外媒大篇幅報導，不少科技巨頭和國家，希望川普政府重新考慮AI晶片三級管制規定，不過台灣因為有半導體重量級企業，雖名列第一級（T1）相對不受美國出口限制，但多數國家都被列入第二級（T2），購買AI晶片，運算力有上限，傳出不能超過7%。最嚴格的第三級（T3），包括中國、俄羅斯、北韓、伊朗等，是美國武器禁運常見國家，一旦禁令一開，形同封殺，更衝擊到輝達等大廠的營收與獲利。其中，川普特別提到：「中國公司DeepSeek推出R1/R1 Zero模型對我們業界當頭棒喝，提醒我們需要專注於競爭並贏得勝利。」延伸川普的話代表DeepSeek的出現可能成為美國晶片禁令升級的表面原因，因此我們就以技術的角度來看看，DeepSeek如何能撼動世界。

DeepSeek（深度求索）是一家在2023年7月成立的AI新創公司，總部位於中國杭州。該公司由幻方量化（對沖基金公司）的創辦人梁文鋒領導，堅持研發強大模型、堅持往開源的方向走、堅持做技術創新並瞄準AGI，並迅速在全球AI領域崛起。DeepSeek的技術研發涵蓋多個版本，如2024年六月推出的DeepSeek-V2(市場稱為價格屠夫)、2024聖誕推出的DeepSeek-V3及今年農曆年前推出的DeepSeek-R1 Zero/R1，展現出強勁的性能與高效的成本控制策略。而這些技術突破使DeepSeek在教育、金融、客服及內容創作等領域發揮重要作用，並透過開源策略提升開發者的靈活性與數據安全性。也憑藉高效能、低成本等優勢，逐步挑戰知名開源模型甚至其他的

大語言模型之主導地位。下面我們就以技術角度一步步來探討，DeepSeek的技術創新之處。

簡單回顧Transformer架構機制

如上篇文章所提到【大語言模型的運作、極限與突破】，當今市面上大多數大語言模型（LLM）皆基於Transformer架構，當時不但取代了傳統RNN/CNN的架構，還大幅提高了計算效率以及規模化的可能，為之後快速進步的AI 模型奠定基礎。其兩大核心部分概述如下：

一、 Encoder（編碼器）

編碼器是透過多層的Self-Attention（自注意力機制）和Feed Forward Network (FFN)（前饋神經網路），將輸入序列（例如一句話）轉換為高維向量表示。而其中組件運作機制大致為下：

● 自注意力機制（Self-Attention）

自注意力機制是Transformer的核心概念，讓語句中每個詞都能得到權重，並計算他們的重要性。具體作法主要有三個方向。

a) 計算向量資訊Query（查，關）、Key（鍵、特徵）、Value（值）

Ｑ、Ｋ、Ｖ是輸入詞語後，經過不同權重矩陣而得到的三個向量。

b) 計算Attention Scores（注意力分數）

使用點積注意力的方法（Scaled Dot-Product Attention）計算關聯度，使模型較易判讀。

c) 多頭注意力（Multi-Head Attention）

利用多個Self-Attention可以關注不同語意的特徵，讓模型學習不同的關聯性（比如文法結構、語義關聯等），並且合併結果。

● 位置編碼（Position Encoding）

由於Transformer並沒有傳統RNN的時序性，因此需要使用位置編碼讓模型得知詞語於文句中的排序。就像是在課本中標上頁碼，能夠更好的理解訊息的先後關係。

● 前饋神經網路（Feed Forward Network, FFN）

每個Transformer的內部還包含一個前饋神經網路（FFN），其有總結及鞏固的功能。好比你從書本上學習到很多東西後，需要花時間統整並內化資訊，而Transformer會用運用FFN提取核心資訊，讓最重要的內容更突出。

二、 Decoder（解碼器）

負責接收Encoder（編碼器）的輸出，並且生成目標序列，內部也包含自注意力機制（Self-Attention）及FFN（前饋神經網路），不同的是其多了一個Masked Self-Attention防止資訊洩漏。

了解專家混合模型（Mixture of Experts, MoE）

由於DeepSeek使用Transformer模型架構，並採用MoE模型做優化，在此需要提一下MoE模型的基本概念，MoE最早可追溯至1988年，直至2017年1月，Google在論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中進一步發展，將其應用於長短期記憶（LSTM）模型，並成功訓練出擁有高達1370億（137B）參數、專家數量達12.8萬（128K）的模型。2021年後Goggle在傳統Transformer架構中，將前饋神經網路（FFN）替換為MoE層，如此可提高提高模型容量（Capacity）；減少計算成本等優點，當然過去一直也存在著挑戰，如負載不均；Gating Network 訓練不穩等。而一個ＭoE層通常由兩個關鍵部分所組成：

一、 專家網路（Experts）

每個專家皆是獨立的子網路（通常為FFN），在實際計算過程中，只有部分專家會被激活並參與處理。例如在自然語言處裡任務中，專家Ａ可能專注於處理與語言、文法相關的問題，專家Ｂ可能更專注於語意理解等。

二、 門控網路（Gating/Router）

負責根據用戶輸入標記（Token）的特徵，而動態的選擇激活那些專家。通常門控網路會使用簡單的FFN（前饋神經網路）來計算每個專家的權重，最後經過訓練後會逐步學會將相似的輸入傳遞到表現更好的專家。

例如你在聊天機器人輸入一個問題，這些輸入將會先被分解成較小的單位，也就是標記（Token）。門控網路類似於一個交管人員，會根據Token的向量計算每個專家的相關性分數，並決定哪些專家更適合處理該輸入。最後所有專家的結果會被整合，生成最終的輸出。想像你想學習整個科學領域的知識，從物理、化學到生物，這對一個人來說是一項極為艱鉅的任務。但是，如果有一組專門的學生，每個人都專精於不同的科學科目，那麼學習將變得更加有效率。這正是混合專家模型（Mixture of Experts, MoE）在人工智慧（AI）領域的運作方式。它讓AI模型變得更聰明、更高效，並能夠處理龐大的資訊量。