AI晶片專題｜一個人的雲端之AI 訓練晶片趨勢解析(下)

發佈於: 2025/07/01|分類: 科技(Technology)|

作者：智璞產業趨勢研究所執行副總林偉智

晶片種類介紹

AI技術自1950年代發展至今歷經符號邏輯、專家系統、機器學習等階段，2012年AlexNet以深度學習模型奪得ImageNet冠軍，開啟AI的新時代。隨後RNN、GAN等架構相繼出現，Google開發的Transformer更成為現今大語言模型（LLM）的基礎。這些模型普遍特徵是包含大量神經元、權重與層數，具高度複雜性，並以乘積累加運算（MAC）為核心。模型訓練需從初始權重出發，透過推論結果反向修正數以億計的權重，需經數千至數萬次迭代才能收斂。龐大的資料運算需求催生出AI專用硬體，稱為神經網路處理器（NPU）以加速計算。AI模型開發分

訓練與推論階段，前者重視算力與可編程性，對成本與能耗容忍度相對較高；後者視應用場景決定重點，如邊緣與終端裝置更注重低成本與低功耗，有時只需達到基本推論效能。目前常見AI運算晶片包括CPU、GPU、FPGA與ASIC，各有其效能與彈性上的權衡。

CPU : 除了資料運算外運轉時還需執行資料的存儲與讀取、指令分析、分支跳轉等命令，故處理重複性高的類神經運算效能低且功耗大，雖然搭配如Intel的AVX、ARM的NEON、RISC-V的P擴展(Extension)等單指令流多資料流(SIMD)指令集，可將32/64/128/256/512 bit拆分成8/16 /32 bit，以提高4~64倍的運算效能，不過迄今仍然甚少用於訓練AI模型。
GPU : 原本是用於電腦繪圖的專用晶片，主要功能是處理矩陣計算，擅長浮點數及平行運算，十分適合深度學習需求，但不適用於非大量矩陣計算的AI模型及演算法。早期的深度學習是採用大量的小規模稠密矩陣運算，為其擅長領域，但2020年代後的LLM開始以稀疏矩陣運算為主，使用GPU處理時會遇到大量無意義的運算而增加能耗。
ASIC : 係針對特定應用設計的專用晶片，其技術發展起於1970年代，至1990年代曾盛極一時，然而由於客製化設計門檻高，隨後逐漸被通用型晶片取代。近幾年隨著AI熱潮讓ASIC再次成為焦點，它在執行特定AI運算時能實現更高的運算效能，進而降低功耗與縮小體積，但缺點是晶片研發成本高，所以開發者多半是資源豐厚的大型AI平台廠商。
FPGA : 使用者可以根據自身的需求進行重複編程，且能耗低於CPU和GPU，但缺點是每家廠商各有專屬的硬體程式設計語言而提高使用困難度，加上單元計算能力較弱且售價偏高，所以目前甚少用於訓練AI模型，其低能耗的特點在邊緣與終端AI晶片較具優勢。

訓練晶片競爭分析

由於目前(2025年)各大雲端服務平台(CSP)企業仍持續購置雲端AI晶片以擴充算力資源，使得資料中心建置仍然是2025年AI晶片市場發展重心。現今90%的AI晶片使用GPU與ASIC。在雲端等資料中心的晶片建置，仍是以訓練模型為主，而訓練晶片市場的主導地位當然是以NVIDIA為主的晶片公司，當前主要市售產品的技術資料如表2所示，其中GH200與GB200是H200、B200搭配Grace CPU的版本。

表2、目前Nvidia市售的資料中心用GPU(以Superchip 的尺度)的技術資料

註釋: BW-Bandwidth；Con-Consumption；H100／H200 目前僅有單 GPU 形態，無 Superchip，故表內數字即為單卡峰值

Source. nVIDIA、FiberMail；智璞產業趨勢研究所整理

依NVIDIA官方白皮書與 GTC 24/25 大會所公開內容，NVIDIA GPU 主要由三類專用單元構成，CUDA Core、Tensor Core、RT Core。最常聽到的CUDA Core 負責一般浮點／整數運算與 GPU 計算核心並行排程；Tensor Core 以 4×4–16×16 的微型矩陣乘加 (MMA) 加速深度學習，從 Volta 第一代到 Blackwell 第五代，資料精度已從 FP16 進化至 FP4；RT Core 是NVIDIA的專用硬體單元，則專為光線追蹤的 BVH traversal 與相交測試設計，對即時渲染與 DLSS 取樣器尤為關鍵，主要用於遊戲開發、電影製作和虛擬實境等需要即時渲染的領域。在過去八年幾乎保持了18-24個月推出下一代的架構的演進，從2017年Volta如下：

Volta (2017，第六代)：首度加入 Tensor Core，V100 成為資料中心標配。
Turing (2018，第七代)：新增 RT Core 與 DLSS，推動即時光追。
Ampere (2020，第八代)：第三代 Tensor Core 支援 TF32 與 FP8，SM 微分割提高單晶片利用率。
Hopper (2022，第九代)：第四代 Tensor Core 搭配 Transformer Engine，強化 LLM 訓練／推論效率。
Blackwell (2024，第十代)：導入第五代 Tensor Core，新增 FP4/FP6 精度與微張量動態縮放，單 GPU FP4 算力提升至 20 PFLOPS，官方宣稱在 LLM 推論可較 Hopper 降低成本與能耗 25×，訓練速度最高 4×。

這一系列設計重點顯示 NVIDIA 正從「圖形加速」逐步轉向「以 AI 為核心的資料中心計算」。未來Rubin預期將在 NVLink6、HBM4 與 chiplet 封裝上再推升規模，為 10 兆參數以上的模型做準備。

表3、目前Nvidia資料中心用GPU架構的技術資料

Source : nVIDIA；智璞產業趨勢研究所整理

總結上述內容，NVIDIA以「技術架構」築出三道護城河：

封裝 + HBM 高度整合，把算力貼近記憶體；
NVLink/NVSwitch，形成單機櫃 GPU 網域；
CUDA + TensorRT，量化編譯器鎖住開發生態。

以GB300 NVL72為例（每節點為 Grace CPU + 4 顆 B300 Ultra，總 72 GPU）三道護城河同步加深加寬：首先HBM3e 12-Hi × 32 堆疊，單一Superchip記憶體達1.152 TB，強化第一道護城河；接著，NVLink Gen-5 + NVSwitch-5 把網域擴至 72GPU/櫃、帶寬7.2TB/s，擴大護城河二；最後Blackwell 的第五代 Tensor Core 支援 FP4/FP6 精度，加上 TensorRT-LLM[ LLM專用推論編譯器/量化器 ] 的自動量化功能，單一 GB300 Superchip（4× B300 Ultra）在 FP4 dense 模式下峰值可達 ≈ 60 PFLOPS（15 PFLOPS × 4，官方尚未公布最終 Datasheet，數值為推算）。模型權重從 FP8 縮減一半，使推論成本和能耗再壓低一個數量級，深化護城河三。因此，我們對下一代Rubin NVL144 將以 HBM4、chiplet 封裝及 NVLink 6 / NVSwitch-6 把單櫃規模推至 144 GPU、互連頻寬翻倍，對護城河1、2再次躍升，並以 CUDA Next 與 NIM 微服務強化第三層軟體生態。因此GB300可說是進一步拉大了「記憶體密度 × 互連規模 × 軟體黏著性」的三重進入門檻， Rubin 則把這條曲線延伸到 10 兆參數時代。根據 NVIDIA 的說法，若雲端營運商持續在同一代伺服器框架上升級 GPU／Superchip，可直接放大 TCO 成本槓桿。以7B Llama模型架構為例，在 Hopper FP8 推論約 US$1／萬 token，換成 Blackwell B200 FP4，官方宣稱成本與能耗可降 25×，約 US$0.03／萬 token，升級至 GB300 NVL72（FP4 算力再 +50 %）可進一步壓到約 US$0.02／萬 token，2026 年 Rubin NVL144（FP4 3.6 EFLOPS，為 GB300 的 3.3×）推估可低至 US$0.006／萬 token，較 Hopper 整體降幅逾 99 %。因此我們說在雲端訓練的晶片市場，NVIDIA 將持續維持一個人的武林。

另一家GPU供應商AMD，Instinct MI是它的資料中心用AI晶片產品代號， 2020年起陸續推出MI100、200、300系列產品，MI200系列與MI300系列的MI300X、MI300A是分別對標Nvidia的A100、H100與GH200，預計2025、2026年發布MI350X、MI400X。雖然 AMD 在 TOP500 超算與部分雲端客戶已有布局，但截至 2025 年第一季，資料中心 GPU 市佔仍低於 10%，正試圖透過更大容量的 HBM、與 OpenAI 社群整合的 ROCm 生態，來瓜分 NVIDIA GPGPU的壟斷市場。