AI晶片專題｜一個人的雲端之AI 訓練晶片趨勢解析(下)

Published On: 2025/07/01|Categories: 科技(Technology)|

Author: Mr. Lin Weizhi, Executive Vice President, Ji-Pu Industrial Trend Research Institute

Chip Types

Since its development in the 1950s, AI technology has gone through the stages of symbolic logic, expert systems, machine learning, etc. In 2012, AlexNet won the ImageNet championship with its deep learning model, which opened up a new era of AI. Later, RNN, GAN and other architectures appeared one after another, and the Transformer developed by Google even became the basis of today's Large Language Model (LLM). These models are generally characterized by a large number of neurons, weights and layers, a high degree of complexity, and a core of Multiply-Accumulate-Collective (MAC) algorithms. Model training starts from the initial weights, and then back-corrects hundreds of millions of weights through inference, requiring thousands to tens of thousands of iterations before convergence. The huge demand for data computation has given rise to AI-specific hardware, called neural network processors (NPUs), to accelerate computation.

訓練與推論階段，前者重視算力與可編程性，對成本與能耗容忍度相對較高；後者視應用場景決定重點，如邊緣與終端裝置更注重低成本與低功耗，有時只需達到基本推論效能。目前常見AI運算晶片包括CPU、GPU、FPGA與ASIC，各有其效能與彈性上的權衡。

CPU : 除了資料運算外運轉時還需執行資料的存儲與讀取、指令分析、分支跳轉等命令，故處理重複性高的類神經運算效能低且功耗大，雖然搭配如Intel的AVX、ARM的NEON、RISC-V的P擴展(Extension)等單指令流多資料流(SIMD)指令集，可將32/64/128/256/512 bit拆分成8/16 /32 bit，以提高4~64倍的運算效能，不過迄今仍然甚少用於訓練AI模型。
GPU : 原本是用於電腦繪圖的專用晶片，主要功能是處理矩陣計算，擅長浮點數及平行運算，十分適合深度學習需求，但不適用於非大量矩陣計算的AI模型及演算法。早期的深度學習是採用大量的小規模稠密矩陣運算，為其擅長領域，但2020年代後的LLM開始以稀疏矩陣運算為主，使用GPU處理時會遇到大量無意義的運算而增加能耗。
ASIC : 係針對特定應用設計的專用晶片，其技術發展起於1970年代，至1990年代曾盛極一時，然而由於客製化設計門檻高，隨後逐漸被通用型晶片取代。近幾年隨著AI熱潮讓ASIC再次成為焦點，它在執行特定AI運算時能實現更高的運算效能，進而降低功耗與縮小體積，但缺點是晶片研發成本高，所以開發者多半是資源豐厚的大型AI平台廠商。
FPGA : 使用者可以根據自身的需求進行重複編程，且能耗低於CPU和GPU，但缺點是每家廠商各有專屬的硬體程式設計語言而提高使用困難度，加上單元計算能力較弱且售價偏高，所以目前甚少用於訓練AI模型，其低能耗的特點在邊緣與終端AI晶片較具優勢。

訓練晶片競爭分析

由於目前(2025年)各大雲端服務平台(CSP)企業仍持續購置雲端AI晶片以擴充算力資源，使得資料中心建置仍然是2025年AI晶片市場發展重心。現今90%的AI晶片使用GPU與ASIC。在雲端等資料中心的晶片建置，仍是以訓練模型為主，而訓練晶片市場的主導地位當然是以NVIDIA為主的晶片公司，當前主要市售產品的技術資料如表2所示，其中GH200與GB200是H200、B200搭配Grace CPU的版本。

表2、目前Nvidia市售的資料中心用GPU(以Superchip 的尺度)的技術資料

註釋: BW-Bandwidth；Con-Consumption；H100／H200 目前僅有單 GPU 形態，無 Superchip，故表內數字即為單卡峰值

Source. nVIDIA、FiberMail；智璞產業趨勢研究所整理

依NVIDIA官方白皮書與 GTC 24/25 大會所公開內容，NVIDIA GPU 主要由三類專用單元構成，CUDA Core、Tensor Core、RT Core。最常聽到的CUDA Core 負責一般浮點／整數運算與 GPU 計算核心並行排程；Tensor Core 以 4×4–16×16 的微型矩陣乘加 (MMA) 加速深度學習，從 Volta 第一代到 Blackwell 第五代，資料精度已從 FP16 進化至 FP4；RT Core 是NVIDIA的專用硬體單元，則專為光線追蹤的 BVH traversal 與相交測試設計，對即時渲染與 DLSS 取樣器尤為關鍵，主要用於遊戲開發、電影製作和虛擬實境等需要即時渲染的領域。在過去八年幾乎保持了18-24個月推出下一代的架構的演進，從2017年Volta如下：

Volta (2017，第六代)：首度加入 Tensor Core，V100 成為資料中心標配。
Turing (2018，第七代)：新增 RT Core 與 DLSS，推動即時光追。
Ampere (2020，第八代)：第三代 Tensor Core 支援 TF32 與 FP8，SM 微分割提高單晶片利用率。
Hopper (2022，第九代)：第四代 Tensor Core 搭配 Transformer Engine，強化 LLM 訓練／推論效率。
Blackwell (2024，第十代)：導入第五代 Tensor Core，新增 FP4/FP6 精度與微張量動態縮放，單 GPU FP4 算力提升至 20 PFLOPS，官方宣稱在 LLM 推論可較 Hopper 降低成本與能耗 25×，訓練速度最高 4×。

這一系列設計重點顯示 NVIDIA 正從「圖形加速」逐步轉向「以 AI 為核心的資料中心計算」。未來Rubin預期將在 NVLink6、HBM4 與 chiplet 封裝上再推升規模，為 10 兆參數以上的模型做準備。

表3、目前Nvidia資料中心用GPU架構的技術資料

Source : nVIDIA；智璞產業趨勢研究所整理

總結上述內容，NVIDIA以「技術架構」築出三道護城河：

封裝 + HBM 高度整合，把算力貼近記憶體；
NVLink/NVSwitch，形成單機櫃 GPU 網域；
CUDA + TensorRT，量化編譯器鎖住開發生態。

以GB300 NVL72為例（每節點為 Grace CPU + 4 顆 B300 Ultra，總 72 GPU）三道護城河同步加深加寬：首先HBM3e 12-Hi × 32 堆疊，單一Superchip記憶體達1.152 TB，強化第一道護城河；接著，NVLink Gen-5 + NVSwitch-5 把網域擴至 72GPU/櫃、帶寬7.2TB/s，擴大護城河二；最後Blackwell 的第五代 Tensor Core 支援 FP4/FP6 精度，加上 TensorRT-LLM[ LLM專用推論編譯器/量化器 ] 的自動量化功能，單一 GB300 Superchip（4× B300 Ultra）在 FP4 dense 模式下峰值可達 ≈ 60 PFLOPS（15 PFLOPS × 4，官方尚未公布最終 Datasheet，數值為推算）。模型權重從 FP8 縮減一半，使推論成本和能耗再壓低一個數量級，深化護城河三。因此，我們對下一代Rubin NVL144 將以 HBM4、chiplet 封裝及 NVLink 6 / NVSwitch-6 把單櫃規模推至 144 GPU、互連頻寬翻倍，對護城河1、2再次躍升，並以 CUDA Next 與 NIM 微服務強化第三層軟體生態。因此GB300可說是進一步拉大了「記憶體密度 × 互連規模 × 軟體黏著性」的三重進入門檻， Rubin 則把這條曲線延伸到 10 兆參數時代。根據 NVIDIA 的說法，若雲端營運商持續在同一代伺服器框架上升級 GPU／Superchip，可直接放大 TCO 成本槓桿。以7B Llama模型架構為例，在 Hopper FP8 推論約 US$1／萬 token，換成 Blackwell B200 FP4，官方宣稱成本與能耗可降 25×，約 US$0.03／萬 token，升級至 GB300 NVL72（FP4 算力再 +50 %）可進一步壓到約 US$0.02／萬 token，2026 年 Rubin NVL144（FP4 3.6 EFLOPS，為 GB300 的 3.3×）推估可低至 US$0.006／萬 token，較 Hopper 整體降幅逾 99 %。因此我們說在雲端訓練的晶片市場，NVIDIA 將持續維持一個人的武林。

另一家GPU供應商AMD，Instinct MI是它的資料中心用AI晶片產品代號， 2020年起陸續推出MI100、200、300系列產品，MI200系列與MI300系列的MI300X、MI300A是分別對標Nvidia的A100、H100與GH200，預計2025、2026年發布MI350X、MI400X。雖然 AMD 在 TOP500 超算與部分雲端客戶已有布局，但截至 2025 年第一季，資料中心 GPU 市佔仍低於 10%，正試圖透過更大容量的 HBM、與 OpenAI 社群整合的 ROCm 生態，來瓜分 NVIDIA GPGPU的壟斷市場。