AI晶片專題｜百家爭鳴的邊緣之AI推論晶片趨勢解析(下)

Published On: 2025/07/30|Categories: 科技(Technology)|

Author: Mr. Lin Weizhi, Executive Vice President, Ji-Pu Industrial Trend Research Institute

At the end of 2023, Microsoft will launch its first in-house AI gas pedal, Maia 100, to create a "home-grown computing power" moat for Azure Cloud. Maia 100 is based on the TSMC N5 + CoWoS-S process, integrates 64 GB of HBM2e, has a total bandwidth of 1.8 TB/s and is equipped with ~500 MB of multi-layer on-chip SRAM. It is also equipped with approximately 500 MB of multi-layer on-chip SRAM, which is sufficient to temporarily store most of the KV-cache and reduce the latency of transportation with HBM. The tensor core supports FP32, BF16, FP8, and Microsoft's custom MX 4-bit format; the chip has a TDP of 700 W, and cloud inference is often run at about 500 W, allowing dynamic switching between training and inference. Maia 100 has a Superscalar vector processor and asynchronous DMA (Direct Memory Access) controller, which can prefetch memory or network data in the background to completely overlap computation and transmission. The multi-layer mesh NOC separates prefill and decode traffic through hardware scheduling, which can be utilized to meet the demand for high QPS and low latency at the end of the line.

並支援 12×400 GbE RoCE 網路。軟體方面，微軟將 ONNX Runtime (ORT)、Olive 最佳化器與 DeepSpeed‑MII 組成標準流程：開發者仍以 PyTorch 撰寫模型，ORT 在建構階段插入 FP8／INT4 量化與張量折疊 pass；Olive 依佇列長度動態調整 batch size 以守住 P99 延遲；DeepSpeed‑MII 整合 POD‑Attention，可在同一卡內重疊 Prefill 與 Decode。POD‑Attention 於 GPU 實驗（A100/H100）對 Llama‑70B 平均吞吐提升 28%、尾端延遲降低 59%，顯示 Maia 100 亦具備類似潛力。雲端產品線採「自研 + 開放晶片」雙軌策略：Copilot、Bing Chat 等內部服務優先部署 Maia 100 Pod；企業客戶則可在 Azure 租用 ND‑MI300X v5 (AMD MI300X) 或 ND‑GB200 v6 (NVIDIA Grace‑Blackwell) 實例，在性能與成本之間靈活選擇。路線圖顯示，下一代 Braga（Maia 200）已順延至 2026 年量產，將擴大 KV‑SRAM 並強化 MX 4‑bit 計算，並傳與 Marvell 合作高速 I/O 與封裝 IP；後續 Maia 300 瞄準 200 B 以上大型模型推論的能效極限。透過自研加速器、跨供應商 GPU/NPU 混搭與 POD‑Attention 軟體堆疊，微軟在成本與延遲之間提供更彈性且具競爭力的 Azure 推論選項，並以「硬體多樣性 + 軟體整合」建立獨具優勢的算力護城河。

訓練晶片的霸主，nVIDIA，在推論的部分從一開始就絲毫沒有想退讓的意味。目前觀察他們主要策略是基於原在訓練GPU上的市佔與效能優勢，努力搶下推論市場的主導權。自2022年 Hopper H100 問世以來，nVIDIA 就用「訓練＋推論雙主力、一代壓一代」的節奏霸佔雲端算力。就官網資料顯示，在MLPerf Inference v3.0、v4.0、v5.0的標準化基準測試中，資料中心、邊緣所有子項裡面有92 %以上是最佳成績；另外執行長與財務長在電話會議中公開指出「推論營收已經占近半且增速最高」，不難看出他們在推論晶片市場的野心。針對上面的兩大挑戰，在晶片方面第 5 代 NVLink 1.8 TB/s、NVLink Switch System 130 TB/s（NVL72），即使 batch size ≤ 8 也能跑滿 GPU，讓吞吐與延遲達到更好的平衡；GB200 內建 Smart Router讓Prefill 流量導向計算型 GPU、Decode 導向記憶體型 GPU，讓這兩種運算有效分類。在軟體方面nVIDIA Dynamo 針對「吞吐 / 延遲」和「Prefill / Decode」兩大挑戰做了設計。在官網顯示的資料中，Blackwell伺服器能把 DeepSeek-R1 等 LLM 吞吐量提高30倍並有明顯減少最末端的延遲，算是在「軟體層能優化的部分」做到了極致來搭配硬體。面對各家ASIC在推論市場的強烈經爭，黃仁勳在2025的GTC大會上用一句話說明nVIDIA競爭的策略意圖：”You want a programmable architecture that is homogeneously fungible.”(你想要一個同質且可替代的可程式化架構)。依我的理解翻成白話文是：我們不會為推論再造一套新硬體，而是讓同一張 GPU透過低位元資料格式與軟體排程，資源隨需切換，讓他們既跑訓練又跑推論。黃仁勳提到的Programmable代表著GPU 跑什麼由軟體決定，不像 ASIC 一出廠就鎖功能；Homogeneously fungible代表著不管算訓練還是推論，晶片都是同一規格、同一驅動，像「同面額硬幣」可隨時挪去補位。也就是說，nVIDIA是要讓每張 GPU 像是「通用算力貨幣」，不分訓練或推論的國度都可以做消費的動作般，讓GPU可投過軟體程式化，透過低位元(讓小批次也能吃滿算力、功耗更低)、MIG(Multi-Instance GPU，把一張卡切成 7～20 個獨立分區)、NVLink(用1.8 TB/s 網狀互連，在Prefill 與 Decode 拆分後，KV-cache 微秒等級傳輸) 與 Dynamo自動調批次、量化、路由把空閒算力即刻變現，最大化資產利用率，也鎖住生態並同時吃到兩邊市場。目前現實的情況是，四大雲（AWS、Azure、GCP、Oracle）均已公告 2025 上線 B100／GB200 實例，形成事實標準；CUDA＋NVLink 生態黏性極高，這也是nVIDIA的優勢。但還是有不少限制，如高功耗（B200約700 W）、高售價；若資料中心配電吃緊，需和其他低功率方案混搭，如H200等。

根據上面的分析，綜合整理上面五家AI企業(目前)代表晶片，如下表2。

表2、四大CSP與nVIDIA之代表晶片比較

Source:各家官網、智璞產產業趨勢研究所整理

過去的非常火熱的產品或服務，有需求決定規格(Demand‑pull)當然也有規格引導需求(Technology‑push)，至於AI晶片市場會是哪一種這裡先不討論。以下四種終端市場偏好來做情境分析：

若以極致效能為最終驗證點，超大模型訓練與超低延遲推論仍高度集中在 B200／GB200 叢集。以FP4 Tensor Core + NVLink 5 + Dynamo 作為驅動關鍵，讓四大CSP的黏著度無法下降，最後nVIDIA將訓練晶片的獨佔優勢延續到推論晶片戰場上。
可能因為反壟斷、供應鏈波動(晶片來源單一)風險上升，CSP走向開放互連分封制，讓ODM可以提供白牌 NVLink／UALink 交換機。UALink 200 成熟，各家晶片可與 NVLink某程度互通。Google TPU 跳出「只在 Google Cloud Platform自產自用」的籬笆，且已具備超大頻寬、低延遲互連。配合UALink 1.0 量產、NVLink Switch 不再「單一選擇」時，TPU 可能搖身變成「最成熟、能直接插進開放機櫃的非 NVIDIA 加速卡」，天然成為最大受益者之一。且對比nVIDIA晶片的成本╱能效優勢明顯，Google TPU有機會嶄露頭角，成為意外的贏家。
能耗法規、電價上升，導致SaaS瞄準更低的$/token，低瓦分流的情況被大肆強調。這時候AWS Inferentia、Meta MTIA會變成主流。
各家晶片都有一定的應用市場，終端皆有一定的客戶採用，算力混搭調度成為主流，雲平台用軟體把不同晶片自動配對達最佳負載，這時候Microsoft Azure 與 nVIDIA可能會成為大贏家。

正由目前AI推論晶片市場處於百家爭鳴的態勢，除了上面五大玩家之外，不得不提博通(Broadcom)、邁威爾(Marvell)還有台灣的聯發科(MediaTek)這三家我們也非常期待未來發展的公司。他們佈局AI相關IP許久，極力扮演「算力外掛」的角色，憑藉客製化設計服務與高速互連 IP，補足市場對低功耗、多樣化推論方案的缺口，來瞄準這龐大市場商機。

博通(Broadcom)早已是 Google TPU v1‑v6 與 Microsoft Maia 100 的主要 ASIC 代工夥伴，前後端 IP 版圖涵蓋 112G╱224G SerDes、AI 交換晶片與 NVLink Switch。加入 UALink Promoter Group 後，預期可把現成交換機＋SerDes 技術封裝成 UALink‑ready IP，進一步承攬 Google TPU、JetStream(推論搜尋引擎)等下一波推論 ASIC 專案，續穩「雲端客製晶片一哥」地位。
邁威爾(Marvell) AI 客製 ASIC 已成為單一最大成長引擎(2024會計年度約占(1/10)；且超過四分之一營收綁定 AWS／Microsoft 的推論與訓練晶片 NRE 與 IP 權利金。公司為 Microsoft Maia 200 提供設計服務流程，並長期向 AWS Trainium／Inferentia 供應 SerDes PHY IP(Physical Layer)。憑藉 112G╱224G PAM4 SerDes 與 CXL 控制器 IP，有望在 2025 H2 隨 Maia 200 上線後拿下 Maia 300／AWS 新世代 ASIC 訂單，持續佔有一席之地。
聯發科(MediaTek)在近兩年積極佈局「雲-邊協同 AI ASIC」，今年在nVIDIA GTC大會後共同宣布 NVLink Fusion bridge ASIC，主攻“GPU /NPU”混合叢集，並有傳聞正在設計3 nm Arm-based AI Server SoC，應以低功率高整合，可與 nVIDIA GPU 或 UALink POD 協同，目標 2025 H2 Sampling。目前看來下一個成長動能為取決於 3 nm Tapout進度和 nVIDIA 合作的綜效。

在這超大規模玩家各自研發GPU/ASIC 自研的前提下，我認為Broadcom、Marvell、MediaTek 的機會不是再造另一顆旗艦 GPU或ASIC來單挑，而是提供「算力不錯、功耗彈性、相容開放互連、可快速量產」的客製推論晶片與高速 I/O  IP。讓使用他們的客戶，像可插拔的算力模組，幫助雲端或邊緣機房在配電、成本與生態鎖定三難題之間找到折衷，成為推論算力多元化與成本下探不可或缺的外掛角色。