AI晶片專題｜百家爭鳴的邊緣之AI推論晶片趨勢解析(下)

發佈於: 2025/07/30|分類: 科技(Technology)|

作者：智璞產業趨勢研究所執行副總林偉智

Microsoft 微軟在 2023 年底推出首款自研 AI 加速器 Maia 100，為 Azure 雲端築起「自產算力」護城河。Maia 100 採用 TSMC N5 + CoWoS‑S 製程，整合 64 GB HBM2e、總頻寬 1.8 TB/s，並配置約 500 MB 多層片上 SRAM，足以暫存大部分 KV‑cache，降低與 HBM 之間的搬運延遲。張量核心支援 FP32、BF16、FP8 及微軟自訂 MX 4‑bit 格式；晶片 TDP 700 W，雲端推論常以約 500 W 運行，可於訓練與推論間動態切換。Maia 100 具超純量(Superscalar)向量處理器與非同步 DMA (Direct Memory Access)控制器，可在背景預取記憶體或網路資料，使運算與傳輸完全重疊；多層 Mesh NOC 透過硬體排程分離大矩陣 (Prefill) 與小矩陣 (Decode) 流量，對應高 QPS、低 末端 延遲需求，

並支援 12×400 GbE RoCE 網路。軟體方面，微軟將 ONNX Runtime (ORT)、Olive 最佳化器與 DeepSpeed‑MII 組成標準流程：開發者仍以 PyTorch 撰寫模型，ORT 在建構階段插入 FP8／INT4 量化與張量折疊 pass；Olive 依佇列長度動態調整 batch size 以守住 P99 延遲；DeepSpeed‑MII 整合 POD‑Attention，可在同一卡內重疊 Prefill 與 Decode。POD‑Attention 於 GPU 實驗（A100/H100）對 Llama‑70B 平均吞吐提升 28%、尾端延遲降低 59%，顯示 Maia 100 亦具備類似潛力。雲端產品線採「自研 + 開放晶片」雙軌策略：Copilot、Bing Chat 等內部服務優先部署 Maia 100 Pod；企業客戶則可在 Azure 租用 ND‑MI300X v5 (AMD MI300X) 或 ND‑GB200 v6 (NVIDIA Grace‑Blackwell) 實例，在性能與成本之間靈活選擇。路線圖顯示，下一代 Braga（Maia 200）已順延至 2026 年量產，將擴大 KV‑SRAM 並強化 MX 4‑bit 計算，並傳與 Marvell 合作高速 I/O 與封裝 IP；後續 Maia 300 瞄準 200 B 以上大型模型推論的能效極限。透過自研加速器、跨供應商 GPU/NPU 混搭與 POD‑Attention 軟體堆疊，微軟在成本與延遲之間提供更彈性且具競爭力的 Azure 推論選項，並以「硬體多樣性 + 軟體整合」建立獨具優勢的算力護城河。

訓練晶片的霸主，nVIDIA，在推論的部分從一開始就絲毫沒有想退讓的意味。目前觀察他們主要策略是基於原在訓練GPU上的市佔與效能優勢，努力搶下推論市場的主導權。自2022年 Hopper H100 問世以來，nVIDIA 就用「訓練＋推論雙主力、一代壓一代」的節奏霸佔雲端算力。就官網資料顯示，在MLPerf Inference v3.0、v4.0、v5.0的標準化基準測試中，資料中心、邊緣所有子項裡面有92 %以上是最佳成績；另外執行長與財務長在電話會議中公開指出「推論營收已經占近半且增速最高」，不難看出他們在推論晶片市場的野心。針對上面的兩大挑戰，在晶片方面第 5 代 NVLink 1.8 TB/s、NVLink Switch System 130 TB/s（NVL72），即使 batch size ≤ 8 也能跑滿 GPU，讓吞吐與延遲達到更好的平衡；GB200 內建 Smart Router讓Prefill 流量導向計算型 GPU、Decode 導向記憶體型 GPU，讓這兩種運算有效分類。在軟體方面nVIDIA Dynamo 針對「吞吐 / 延遲」和「Prefill / Decode」兩大挑戰做了設計。在官網顯示的資料中，Blackwell伺服器能把 DeepSeek-R1 等 LLM 吞吐量提高30倍並有明顯減少最末端的延遲，算是在「軟體層能優化的部分」做到了極致來搭配硬體。面對各家ASIC在推論市場的強烈經爭，黃仁勳在2025的GTC大會上用一句話說明nVIDIA競爭的策略意圖：”You want a programmable architecture that is homogeneously fungible.”(你想要一個同質且可替代的可程式化架構)。依我的理解翻成白話文是：我們不會為推論再造一套新硬體，而是讓同一張 GPU透過低位元資料格式與軟體排程，資源隨需切換，讓他們既跑訓練又跑推論。黃仁勳提到的Programmable代表著GPU 跑什麼由軟體決定，不像 ASIC 一出廠就鎖功能；Homogeneously fungible代表著不管算訓練還是推論，晶片都是同一規格、同一驅動，像「同面額硬幣」可隨時挪去補位。也就是說，nVIDIA是要讓每張 GPU 像是「通用算力貨幣」，不分訓練或推論的國度都可以做消費的動作般，讓GPU可投過軟體程式化，透過低位元(讓小批次也能吃滿算力、功耗更低)、MIG(Multi-Instance GPU，把一張卡切成 7～20 個獨立分區)、NVLink(用1.8 TB/s 網狀互連，在Prefill 與 Decode 拆分後，KV-cache 微秒等級傳輸) 與 Dynamo自動調批次、量化、路由把空閒算力即刻變現，最大化資產利用率，也鎖住生態並同時吃到兩邊市場。目前現實的情況是，四大雲（AWS、Azure、GCP、Oracle）均已公告 2025 上線 B100／GB200 實例，形成事實標準；CUDA＋NVLink 生態黏性極高，這也是nVIDIA的優勢。但還是有不少限制，如高功耗（B200約700 W）、高售價；若資料中心配電吃緊，需和其他低功率方案混搭，如H200等。

根據上面的分析，綜合整理上面五家AI企業(目前)代表晶片，如下表2。

表2、四大CSP與nVIDIA之代表晶片比較

Source:各家官網、智璞產產業趨勢研究所整理

過去的非常火熱的產品或服務，有需求決定規格(Demand‑pull)當然也有規格引導需求(Technology‑push)，至於AI晶片市場會是哪一種這裡先不討論。以下四種終端市場偏好來做情境分析：

若以極致效能為最終驗證點，超大模型訓練與超低延遲推論仍高度集中在 B200／GB200 叢集。以FP4 Tensor Core + NVLink 5 + Dynamo 作為驅動關鍵，讓四大CSP的黏著度無法下降，最後nVIDIA將訓練晶片的獨佔優勢延續到推論晶片戰場上。
可能因為反壟斷、供應鏈波動(晶片來源單一)風險上升，CSP走向開放互連分封制，讓ODM可以提供白牌 NVLink／UALink 交換機。UALink 200 成熟，各家晶片可與 NVLink某程度互通。Google TPU 跳出「只在 Google Cloud Platform自產自用」的籬笆，且已具備超大頻寬、低延遲互連。配合UALink 1.0 量產、NVLink Switch 不再「單一選擇」時，TPU 可能搖身變成「最成熟、能直接插進開放機櫃的非 NVIDIA 加速卡」，天然成為最大受益者之一。且對比nVIDIA晶片的成本╱能效優勢明顯，Google TPU有機會嶄露頭角，成為意外的贏家。
能耗法規、電價上升，導致SaaS瞄準更低的$/token，低瓦分流的情況被大肆強調。這時候AWS Inferentia、Meta MTIA會變成主流。
各家晶片都有一定的應用市場，終端皆有一定的客戶採用，算力混搭調度成為主流，雲平台用軟體把不同晶片自動配對達最佳負載，這時候Microsoft Azure 與 nVIDIA可能會成為大贏家。

正由目前AI推論晶片市場處於百家爭鳴的態勢，除了上面五大玩家之外，不得不提博通(Broadcom)、邁威爾(Marvell)還有台灣的聯發科(MediaTek)這三家我們也非常期待未來發展的公司。他們佈局AI相關IP許久，極力扮演「算力外掛」的角色，憑藉客製化設計服務與高速互連 IP，補足市場對低功耗、多樣化推論方案的缺口，來瞄準這龐大市場商機。

博通(Broadcom)早已是 Google TPU v1‑v6 與 Microsoft Maia 100 的主要 ASIC 代工夥伴，前後端 IP 版圖涵蓋 112G╱224G SerDes、AI 交換晶片與 NVLink Switch。加入 UALink Promoter Group 後，預期可把現成交換機＋SerDes 技術封裝成 UALink‑ready IP，進一步承攬 Google TPU、JetStream(推論搜尋引擎)等下一波推論 ASIC 專案，續穩「雲端客製晶片一哥」地位。
邁威爾(Marvell) AI 客製 ASIC 已成為單一最大成長引擎(2024會計年度約占(1/10)；且超過四分之一營收綁定 AWS／Microsoft 的推論與訓練晶片 NRE 與 IP 權利金。公司為 Microsoft Maia 200 提供設計服務流程，並長期向 AWS Trainium／Inferentia 供應 SerDes PHY IP(Physical Layer)。憑藉 112G╱224G PAM4 SerDes 與 CXL 控制器 IP，有望在 2025 H2 隨 Maia 200 上線後拿下 Maia 300／AWS 新世代 ASIC 訂單，持續佔有一席之地。
聯發科(MediaTek)在近兩年積極佈局「雲-邊協同 AI ASIC」，今年在nVIDIA GTC大會後共同宣布 NVLink Fusion bridge ASIC，主攻“GPU /NPU”混合叢集，並有傳聞正在設計3 nm Arm-based AI Server SoC，應以低功率高整合，可與 nVIDIA GPU 或 UALink POD 協同，目標 2025 H2 Sampling。目前看來下一個成長動能為取決於 3 nm Tapout進度和 nVIDIA 合作的綜效。

在這超大規模玩家各自研發GPU/ASIC 自研的前提下，我認為Broadcom、Marvell、MediaTek 的機會不是再造另一顆旗艦 GPU或ASIC來單挑，而是提供「算力不錯、功耗彈性、相容開放互連、可快速量產」的客製推論晶片與高速 I/O  IP。讓使用他們的客戶，像可插拔的算力模組，幫助雲端或邊緣機房在配電、成本與生態鎖定三難題之間找到折衷，成為推論算力多元化與成本下探不可或缺的外掛角色。