六月_AI晶片專題|一個人的雲端之AI 訓練晶片趨勢解析(下)

發佈於: 2025/07/01|分類: 科技(Technology)|

作者:智璞產業趨勢研究所執行副總 林偉智

 

晶片種類介紹

AI技術自1950年代發展至今歷經符號邏輯、專家系統、機器學習等階段,2012年AlexNet以深度學習模型奪得ImageNet冠軍,開啟AI的新時代。隨後RNN、GAN等架構相繼出現,Google開發的Transformer更成為現今大語言模型(LLM)的基礎。這些模型普遍特徵是包含大量神經元、權重與層數,具高度複雜性,並以乘積累加運算(MAC)為核心。模型訓練需從初始權重出發,透過推論結果反向修正數以億計的權重,需經數千至數萬次迭代才能收斂。龐大的資料運算需求催生出AI專用硬體,稱為神經網路處理器(NPU)以加速計算。AI模型開發分

訓練與推論階段,前者重視算力與可編程性,對成本與能耗容忍度相對較高;後者視應用場景決定重點,如邊緣與終端裝置更注重低成本與低功耗,有時只需達到基本推論效能。目前常見AI運算晶片包括CPU、GPU、FPGA與ASIC,各有其效能與彈性上的權衡。

  • CPU : 除了資料運算外運轉時還需執行資料的存儲與讀取、指令分析、分支跳轉等命令,故處理重複性高的類神經運算效能低且功耗大,雖然搭配如Intel的AVX、ARM的NEON、RISC-V的P擴展(Extension)等單指令流多資料流(SIMD)指令集,可將32/64/128/256/512 bit拆分成8/16 /32 bit,以提高4~64倍的運算效能,不過迄今仍然甚少用於訓練AI模型。
  • GPU : 原本是用於電腦繪圖的專用晶片,主要功能是處理矩陣計算,擅長浮點數及平行運算,十分適合深度學習需求,但不適用於非大量矩陣計算的AI模型及演算法。早期的深度學習是採用大量的小規模稠密矩陣運算,為其擅長領域,但2020年代後的LLM開始以稀疏矩陣運算為主,使用GPU處理時會遇到大量無意義的運算而增加能耗。
  • ASIC : 係針對特定應用設計的專用晶片,其技術發展起於1970年代,至1990年代曾盛極一時,然而由於客製化設計門檻高,隨後逐漸被通用型晶片取代。近幾年隨著AI熱潮讓ASIC再次成為焦點,它在執行特定AI運算時能實現更高的運算效能,進而降低功耗與縮小體積,但缺點是晶片研發成本高,所以開發者多半是資源豐厚的大型AI平台廠商。
  • FPGA : 使用者可以根據自身的需求進行重複編程,且能耗低於CPU和GPU,但缺點是每家廠商各有專屬的硬體程式設計語言而提高使用困難度,加上單元計算能力較弱且售價偏高,所以目前甚少用於訓練AI模型,其低能耗的特點在邊緣與終端AI晶片較具優勢。

 

訓練晶片競爭分析

由於目前(2025年)各大雲端服務平台(CSP)企業仍持續購置雲端AI晶片以擴充算力資源,使得資料中心建置仍然是2025年AI晶片市場發展重心。現今90%的AI晶片使用GPU與ASIC。在雲端等資料中心的晶片建置,仍是以訓練模型為主,而訓練晶片市場的主導地位當然是以NVIDIA為主的晶片公司,當前主要市售產品的技術資料如表2所示,其中GH200與GB200是H200、B200搭配Grace CPU的版本。

表2、目前Nvidia市售的資料中心用GPU(以Superchip 的尺度)的技術資料

註釋: BW-Bandwidth;Con-Consumption;H100/H200 目前僅有單 GPU 形態,無 Superchip,故表內數字即為單卡峰值

Source. nVIDIA、FiberMail;智璞產業趨勢研究所整理

 

依NVIDIA官方白皮書與 GTC 24/25 大會所公開內容,NVIDIA GPU 主要由三類專用單元構成,CUDA Core、Tensor Core、RT Core。最常聽到的CUDA Core 負責一般浮點/整數運算與 GPU 計算核心並行排程;Tensor Core 以 4×4–16×16 的微型矩陣乘加 (MMA) 加速深度學習,從 Volta 第一代到 Blackwell 第五代,資料精度已從 FP16 進化至 FP4;RT Core 是NVIDIA的專用硬體單元,則專為光線追蹤的 BVH traversal 與相交測試設計,對即時渲染與 DLSS 取樣器尤為關鍵,主要用於遊戲開發、電影製作和虛擬實境等需要即時渲染的領域。在過去八年幾乎保持了18-24個月推出下一代的架構的演進,從2017年Volta如下:

  • Volta (2017,第六代):首度加入 Tensor Core,V100 成為資料中心標配。
  • Turing (2018,第七代):新增 RT Core 與 DLSS,推動即時光追。
  • Ampere (2020,第八代):第三代 Tensor Core 支援 TF32 與 FP8,SM 微分割提高單晶片利用率。
  • Hopper (2022,第九代):第四代 Tensor Core 搭配 Transformer Engine,強化 LLM 訓練/推論效率。
  • Blackwell (2024,第十代):導入第五代 Tensor Core,新增 FP4/FP6 精度與微張量動態縮放,單 GPU FP4 算力提升至 20 PFLOPS,官方宣稱在 LLM 推論可較 Hopper 降低成本與能耗 25×,訓練速度最高 4×。

這一系列設計重點顯示 NVIDIA 正從「圖形加速」逐步轉向「以 AI 為核心的資料中心計算」。未來Rubin預期將在 NVLink6、HBM4 與 chiplet 封裝上再推升規模,為 10 兆參數以上的模型做準備。

表3、目前Nvidia資料中心用GPU架構的技術資料

Source : nVIDIA;智璞產業趨勢研究所整理

 

總結上述內容,NVIDIA以「技術架構」築出三道護城河:

  1. 封裝 + HBM 高度整合,把算力貼近記憶體;
  2. NVLink/NVSwitch,形成單機櫃 GPU 網域;
  3. CUDA + TensorRT, 量化編譯器鎖住開發生態。

以GB300 NVL72為例(每節點為 Grace CPU + 4 顆 B300 Ultra,總 72 GPU)三道護城河同步加深加寬:首先HBM3e 12-Hi × 32 堆疊,單一Superchip記憶體達1.152 TB,強化第一道護城河;接著,NVLink Gen-5 + NVSwitch-5 把網域擴至 72GPU/櫃、帶寬7.2TB/s,擴大護城河二;最後Blackwell 的第五代 Tensor Core 支援 FP4/FP6 精度,加上 TensorRT-LLM[ LLM專用推論編譯器/量化器 ] 的自動量化功能,單一 GB300 Superchip(4× B300 Ultra)在 FP4 dense 模式下峰值可達 ≈ 60 PFLOPS(15 PFLOPS × 4,官方尚未公布最終 Datasheet,數值為推算)。模型權重從 FP8 縮減一半,使推論成本和能耗再壓低一個數量級,深化護城河三。因此,我們對下一代Rubin NVL144 將以 HBM4、chiplet 封裝 及 NVLink 6 / NVSwitch-6 把單櫃規模推至 144 GPU、互連頻寬翻倍,對護城河1、2再次躍升,並以 CUDA Next 與 NIM 微服務 強化第三層軟體生態。因此GB300可說是進一步拉大了「記憶體密度 × 互連規模 × 軟體黏著性」的三重進入門檻, Rubin 則把這條曲線延伸到 10 兆參數時代。根據 NVIDIA 的說法,若雲端營運商持續在同一代伺服器框架上升級 GPU/Superchip,可直接放大 TCO 成本槓桿。以7B Llama模型架構為例,在 Hopper FP8 推論約 US$1/萬 token,換成 Blackwell B200 FP4,官方宣稱成本與能耗可降 25×,約 US$0.03/萬 token,升級至 GB300 NVL72(FP4 算力再 +50 %)可進一步壓到約 US$0.02/萬 token,2026 年 Rubin NVL144(FP4 3.6 EFLOPS,為 GB300 的 3.3×)推估可低至 US$0.006/萬 token,較 Hopper 整體降幅逾 99 %。因此我們說在雲端訓練的晶片市場,NVIDIA 將持續維持一個人的武林。

另一家GPU供應商AMD,Instinct MI是它的資料中心用AI晶片產品代號, 2020年起陸續推出MI100、200、300系列產品,MI200系列與MI300系列的MI300X、MI300A是分別對標Nvidia的A100、H100與GH200,預計2025、2026年發布MI350X、MI400X。雖然 AMD 在 TOP500 超算與部分雲端客戶已有布局,但截至 2025 年第一季,資料中心 GPU 市佔仍低於 10%,正試圖透過更大容量的 HBM、與 OpenAI 社群整合的 ROCm 生態,來瓜分 NVIDIA GPGPU的壟斷市場。

 

 

六月_AI晶片專題|一個人的雲端之AI 訓練晶片趨勢解析(上)
新聞評析|英特爾或將取消代工客戶的 18A 製程節點,使台積電幾乎無可匹敵?!
—欲索取更多資訊,請點聯繫我們
現在就立刻分享文章