七月_AI晶片專題|百家爭鳴的邊緣之AI推論晶片趨勢解析(下)

發佈於: 2025/07/30|分類: 科技(Technology)|

作者:智璞產業趨勢研究所執行副總 林偉智

Microsoft 微軟在 2023 年底推出首款自研 AI 加速器 Maia 100,為 Azure 雲端築起「自產算力」護城河。Maia 100 採用 TSMC N5 + CoWoS‑S 製程,整合 64 GB HBM2e、總頻寬 1.8 TB/s,並配置約 500 MB 多層片上 SRAM,足以暫存大部分 KV‑cache,降低與 HBM 之間的搬運延遲。張量核心支援 FP32、BF16、FP8 及微軟自訂 MX 4‑bit 格式;晶片 TDP 700 W,雲端推論常以約 500 W 運行,可於訓練與推論間動態切換。Maia 100 具超純量(Superscalar)向量處理器與非同步 DMA (Direct Memory Access)控制器,可在背景預取記憶體或網路資料,使運算與傳輸完全重疊;多層 Mesh NOC 透過硬體排程分離大矩陣 (Prefill) 與小矩陣 (Decode) 流量,對應高 QPS、低 末端 延遲需求,

並支援 12×400 GbE RoCE 網路。軟體方面,微軟將 ONNX Runtime (ORT)、Olive 最佳化器與 DeepSpeed‑MII 組成標準流程:開發者仍以 PyTorch 撰寫模型,ORT 在建構階段插入 FP8/INT4 量化與張量折疊 pass;Olive 依佇列長度動態調整 batch size 以守住 P99 延遲;DeepSpeed‑MII 整合 POD‑Attention,可在同一卡內重疊 Prefill 與 Decode。POD‑Attention 於 GPU 實驗(A100/H100)對 Llama‑70B 平均吞吐提升 28%、尾端延遲降低 59%,顯示 Maia 100 亦具備類似潛力。雲端產品線採「自研 + 開放晶片」雙軌策略:Copilot、Bing Chat 等內部服務優先部署 Maia 100 Pod;企業客戶則可在 Azure 租用 ND‑MI300X v5 (AMD MI300X) 或 ND‑GB200 v6 (NVIDIA Grace‑Blackwell) 實例,在性能與成本之間靈活選擇。路線圖顯示,下一代 Braga(Maia 200) 已順延至 2026 年量產,將擴大 KV‑SRAM 並強化 MX 4‑bit 計算,並傳與 Marvell 合作高速 I/O 與封裝 IP;後續 Maia 300 瞄準 200 B 以上大型模型推論的能效極限。透過自研加速器、跨供應商 GPU/NPU 混搭與 POD‑Attention 軟體堆疊,微軟在成本與延遲之間提供更彈性且具競爭力的 Azure 推論選項,並以「硬體多樣性 + 軟體整合」建立獨具優勢的算力護城河。

訓練晶片的霸主,nVIDIA,在推論的部分從一開始就絲毫沒有想退讓的意味。目前觀察他們主要策略是基於原在訓練GPU上的市佔與效能優勢,努力搶下推論市場的主導權。自2022年 Hopper H100 問世以來,nVIDIA 就用「訓練+推論雙主力、一代壓一代」的節奏霸佔雲端算力。就官網資料顯示,在MLPerf Inference v3.0、v4.0、v5.0的標準化基準測試中,資料中心、邊緣所有子項裡面有92 %以上是最佳成績;另外執行長與財務長在電話會議中公開指出「推論營收已經占近半且增速最高」,不難看出他們在推論晶片市場的野心。針對上面的兩大挑戰,在晶片方面第 5 代 NVLink 1.8 TB/s、NVLink Switch System 130 TB/s(NVL72),即使 batch size ≤ 8 也能跑滿 GPU,讓吞吐與延遲達到更好的平衡;GB200 內建 Smart Router讓Prefill 流量導向計算型 GPU、Decode 導向記憶體型 GPU,讓這兩種運算有效分類。在軟體方面nVIDIA Dynamo 針對「吞吐 / 延遲」和「Prefill / Decode」兩大挑戰做了設計。在官網顯示的資料中,Blackwell伺服器能把 DeepSeek-R1 等 LLM 吞吐量提高30倍並有明顯減少最末端的延遲,算是在「軟體層能優化的部分」做到了極致來搭配硬體。面對各家ASIC在推論市場的強烈經爭,黃仁勳在2025的GTC大會上用一句話說明nVIDIA競爭的策略意圖:”You want a programmable architecture that is homogeneously fungible.”(你想要一個同質且可替代的可程式化架構)。依我的理解翻成白話文是:我們不會為推論再造一套新硬體,而是讓同一張 GPU透過低位元資料格式與軟體排程,資源隨需切換,讓他們既跑訓練又跑推論。黃仁勳提到的Programmable代表著GPU 跑什麼由軟體決定,不像 ASIC 一出廠就鎖功能;Homogeneously fungible代表著不管算訓練還是推論,晶片都是同一規格、同一驅動,像「同面額硬幣」可隨時挪去補位。也就是說,nVIDIA是要讓每張 GPU 像是「通用算力貨幣」,不分訓練或推論的國度都可以做消費的動作般,讓GPU可投過軟體程式化,透過低位元(讓小批次也能吃滿算力、功耗更低)、MIG(Multi-Instance GPU,把一張卡切成 7~20 個獨立分區)、NVLink(用1.8 TB/s 網狀互連,在Prefill 與 Decode 拆分後,KV-cache 微秒等級傳輸) 與 Dynamo自動調批次、量化、路由把空閒算力即刻變現,最大化資產利用率,也鎖住生態並同時吃到兩邊市場。目前現實的情況是,四大雲(AWS、Azure、GCP、Oracle)均已公告 2025 上線 B100/GB200 實例,形成事實標準;CUDA+NVLink 生態黏性極高,這也是nVIDIA的優勢。但還是有不少限制,如高功耗(B200約700 W)、高售價;若資料中心配電吃緊,需和其他低功率方案混搭,如H200等。

 

根據上面的分析,綜合整理上面五家AI企業(目前)代表晶片,如下表2。

表2、四大CSP與nVIDIA之代表晶片比較

 Source:各家官網、智璞產產業趨勢研究所整理

過去的非常火熱的產品或服務,有需求決定規格(Demand‑pull)當然也有規格引導需求(Technology‑push),至於AI晶片市場會是哪一種這裡先不討論。以下四種終端市場偏好來做情境分析:

  1. 若以極致效能為最終驗證點,超大模型訓練與超低延遲推論仍高度集中在 B200/GB200 叢集。以FP4 Tensor Core + NVLink 5 + Dynamo 作為驅動關鍵,讓四大CSP的黏著度無法下降,最後nVIDIA將訓練晶片的獨佔優勢延續到推論晶片戰場上。
  2. 可能因為反壟斷、供應鏈波動(晶片來源單一)風險上升,CSP走向開放互連分封制,讓ODM可以提供白牌 NVLink/UALink 交換機。UALink 200 成熟,各家晶片可與 NVLink某程度互通。Google TPU 跳出「只在 Google Cloud Platform自產自用」的籬笆,且已具備超大頻寬、低延遲互連。配合UALink 1.0 量產、NVLink Switch 不再「單一選擇」時,TPU 可能搖身變成「最成熟、能直接插進開放機櫃的非 NVIDIA 加速卡」,天然成為最大受益者之一。且對比nVIDIA晶片的成本╱能效優勢明顯,Google TPU有機會嶄露頭角,成為意外的贏家。
  3. 能耗法規、電價上升,導致SaaS瞄準更低的$/token,低瓦分流的情況被大肆強調。這時候AWS Inferentia、Meta MTIA會變成主流。
  4. 各家晶片都有一定的應用市場,終端皆有一定的客戶採用,算力混搭調度成為主流,雲平台用軟體把不同晶片自動配對達最佳負載,這時候Microsoft Azure 與 nVIDIA可能會成為大贏家。

 

正由目前AI推論晶片市場處於百家爭鳴的態勢,除了上面五大玩家之外,不得不提博通(Broadcom)、邁威爾(Marvell)還有台灣的聯發科(MediaTek)這三家我們也非常期待未來發展的公司。他們佈局AI相關IP許久,極力扮演「算力外掛」的角色,憑藉客製化設計服務與高速互連 IP,補足市場對低功耗、多樣化推論方案的缺口,來瞄準這龐大市場商機。

  • 博通(Broadcom)早已是 Google TPU v1‑v6 與 Microsoft Maia 100 的主要 ASIC 代工夥伴,前後端 IP 版圖涵蓋 112G╱224G SerDes、AI 交換晶片與 NVLink Switch。加入 UALink Promoter Group 後,預期可把現成交換機+SerDes 技術封裝成 UALink‑ready IP,進一步承攬 Google TPU、JetStream(推論搜尋引擎)等下一波推論 ASIC 專案,續穩「雲端客製晶片一哥」地位。
  • 邁威爾(Marvell) AI 客製 ASIC 已成為單一最大成長引擎(2024會計年度約占(1/10);且超過四分之一營收綁定 AWS/Microsoft 的推論與訓練晶片 NRE 與 IP 權利金。公司為 Microsoft Maia 200 提供設計服務流程,並長期向 AWS Trainium/Inferentia 供應 SerDes PHY IP(Physical Layer)。憑藉 112G╱224G PAM4 SerDes 與 CXL 控制器 IP,有望在 2025 H2 隨 Maia 200 上線後拿下 Maia 300/AWS 新世代 ASIC 訂單,持續佔有一席之地。
  • 聯發科(MediaTek)在近兩年積極佈局「雲-邊協同 AI ASIC」,今年在nVIDIA GTC大會後共同宣布 NVLink Fusion bridge ASIC,主攻“GPU /NPU”混合叢集,並有傳聞正在設計3 nm Arm-based AI Server SoC,應以低功率高整合,可與 nVIDIA GPU 或 UALink POD 協同,目標 2025 H2 Sampling。目前看來下一個成長動能為取決於 3 nm Tapout進度和 nVIDIA 合作的綜效。

在這超大規模玩家各自研發GPU/ASIC 自研的前提下,我認為Broadcom、Marvell、MediaTek 的機會不是再造另一顆旗艦 GPU或ASIC來單挑,而是提供 「算力不錯、功耗彈性、相容開放互連、可快速量產」 的客製推論晶片與高速 I/O  IP。讓使用他們的客戶,像可插拔的算力模組,幫助雲端或邊緣機房在配電、成本與生態鎖定三難題之間找到折衷,成為推論算力多元化與成本下探不可或缺的外掛角色。

七月_AI晶片專題|百家爭鳴的邊緣之AI推論晶片趨勢解析(上)
新聞評析|台灣暫時性關稅20% 對科技產業影響解析
—欲索取更多資訊,請點聯繫我們
現在就立刻分享文章