四月_AI模型專題|DeepSeek 撼動全世界的技術創新(上)
作者:智璞產業趨勢研究所執行副總 林偉智
為了防堵中國發展AI晶片,美國川普政府將延續前朝持續祭出”AI晶片三級管制”,於2025年5月15日上路。包括彭博等外媒大篇幅報導,不少科技巨頭和國家,希望川普政府重新考慮AI晶片三級管制規定,不過台灣因為有半導體重量級企業,雖名列第一級(T1)相對不受美國出口限制,但多數國家都被列入第二級(T2),購買AI晶片,運算力有上限,傳出不能超過7%。最嚴格的第三級(T3),包括中國、俄羅斯、北韓、伊朗等,是美國武器禁運常見國家,一旦禁令一開,形同封殺,更衝擊到輝達等大廠的營收與獲利。其中,川普特別提到:「中國公司DeepSeek推出R1/R1 Zero模型對我們業界當頭棒喝,提醒我們需要專注於競爭並贏得勝利。」延伸川普的話代表DeepSeek的出現可能成為美國晶片禁令升級的表面原因,因此我們就以技術的角度來看看,DeepSeek如何能撼動世界。
DeepSeek(深度求索)是一家在2023年7月成立的AI新創公司,總部位於中國杭州。該公司由幻方量化(對沖基金公司)的創辦人梁文鋒領導,堅持研發強大模型、堅持往開源的方向走、堅持做技術創新並瞄準AGI,並迅速在全球AI領域崛起。DeepSeek的技術研發涵蓋多個版本,如2024年六月推出的DeepSeek-V2(市場稱為價格屠夫)、2024聖誕推出的DeepSeek-V3及今年農曆年前推出的DeepSeek-R1 Zero/R1,展現出強勁的性能與高效的成本控制策略。而這些技術突破使DeepSeek在教育、金融、客服及內容創作等領域發揮重要作用,並透過開源策略提升開發者的靈活性與數據安全性。也憑藉高效能、低成本等優勢,逐步挑戰知名開源模型甚至其他的 簡單回顧Transformer架構機制 如上篇文章所提到【大語言模型的運作、極限與突破】,當今市面上大多數大語言模型(LLM)皆基於Transformer架構,當時不但取代了傳統RNN/CNN的架構,還大幅提高了計算效率以及規模化的可能,為之後快速進步的AI 模型奠定基礎。其兩大核心部分概述如下: 編碼器是透過多層的Self-Attention(自注意力機制)和Feed Forward Network (FFN)(前饋神經網路),將輸入序列(例如一句話)轉換為高維向量表示。而其中組件運作機制大致為下: 自注意力機制是Transformer的核心概念,讓語句中每個詞都能得到權重,並計算他們的重要性。具體作法主要有三個方向。 Q、K、V是輸入詞語後,經過不同權重矩陣而得到的三個向量。 使用點積注意力的方法(Scaled Dot-Product Attention)計算關聯度,使模型較易判讀。 利用多個Self-Attention可以關注不同語意的特徵,讓模型學習不同的關聯性(比如文法結構、語義關聯等),並且合併結果。 由於Transformer並沒有傳統RNN的時序性,因此需要使用位置編碼讓模型得知詞語於文句中的排序。就像是在課本中標上頁碼,能夠更好的理解訊息的先後關係。 每個Transformer的內部還包含一個前饋神經網路(FFN),其有總結及鞏固的功能。好比你從書本上學習到很多東西後,需要花時間統整並內化資訊,而Transformer會用運用FFN提取核心資訊,讓最重要的內容更突出。 負責接收Encoder(編碼器)的輸出,並且生成目標序列,內部也包含自注意力機制(Self-Attention)及FFN(前饋神經網路),不同的是其多了一個Masked Self-Attention防止資訊洩漏。 了解專家混合模型(Mixture of Experts, MoE) 由於DeepSeek使用Transformer模型架構,並採用MoE模型做優化,在此需要提一下MoE模型的基本概念,MoE最早可追溯至1988年,直至2017年1月,Google在論文《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》中進一步發展,將其應用於長短期記憶(LSTM)模型,並成功訓練出擁有高達1370億(137B)參數、專家數量達12.8萬(128K)的模型。2021年後Goggle在傳統Transformer架構中,將前饋神經網路(FFN)替換為MoE層,如此可提高提高模型容量(Capacity);減少計算成本等優點,當然過去一直也存在著挑戰,如負載不均;Gating Network 訓練不穩等。而一個MoE層通常由兩個關鍵部分所組成: 每個專家皆是獨立的子網路(通常為FFN),在實際計算過程中,只有部分專家會被激活並參與處理。例如在自然語言處裡任務中,專家A可能專注於處理與語言、文法相關的問題,專家B可能更專注於語意理解等。 負責根據用戶輸入標記(Token)的特徵,而動態的選擇激活那些專家。通常門控網路會使用簡單的FFN(前饋神經網路)來計算每個專家的權重,最後經過訓練後會逐步學會將相似的輸入傳遞到表現更好的專家。 例如你在聊天機器人輸入一個問題,這些輸入將會先被分解成較小的單位,也就是標記(Token)。門控網路類似於一個交管人員,會根據Token的向量計算每個專家的相關性分數,並決定哪些專家更適合處理該輸入。最後所有專家的結果會被整合,生成最終的輸出。想像你想學習整個科學領域的知識,從物理、化學到生物,這對一個人來說是一項極為艱鉅的任務。但是,如果有一組專門的學生,每個人都專精於不同的科學科目,那麼學習將變得更加有效率。這正是 混合專家模型(Mixture of Experts, MoE) 在人工智慧(AI)領域的運作方式。它讓AI模型變得更聰明、更高效,並能夠處理龐大的資訊量。






