GAI 專題｜從運算架構發展，剖析Intel、AMD與NVIDIA的市場競局（中）

發佈於: 2023/07/17|分類: 科技(Technology)|

簡單回顧三大晶片商在主力產品線的營收表現後，接下來就其在CPU、GPU乃至於其他運算架構之運算產品技術競爭局勢進行研析與探討。綜觀三家業者近期的發展歷史，它們皆針對非CPU與GPU架構的半導體公司進行收購，舉例來說，過去最為有名的，莫過於Intel收購FPGA大廠Altera，以及近年AMD剛完成收購Xilinx等，此外，NVIDIA也完成了對Mellanox的收購，進一步強化了對於DPU與網路傳輸技術等解決方案的戰力，提升了自家伺服器系統方案的完整度。不論是從筆電亦或是伺服器應用，大體上皆不脫CPU與GPU等解決方案的討論，而在伺服器領域，近期更有FPGA與DPU等解決方案的導入，嘗試為CPU分憂解勞，嘗試用Off Loading的方式，讓CPU更可以專心聚焦核心運算的工作，藉此讓整體系統的效能發揮達到極大化。

（一）CPU競局剖析

單從CPU的視角來看，過往不論是伺服器或是PC領域幾乎是由x86架構獨佔鰲頭。在智慧型手機效能不斷提升下，Arm架構逐漸崛起，Arm的CPU IP致力於能源效率最佳化的方向發展。儘管過去Arm陣營也開始往伺服器與PC領域也有不少著墨，但整體來說，成績始終差強人意。然而，隨著Apple與NVIDIA各自以Arm架構切入PC與伺服器領域後，情況顯然開始了有了改變。以近期來說，最需要探討的，莫過於NVIDIA所發布的Grace CPU產品。Grace CPU採用Arm的Neoverse V2 CPU設計，以單一裸晶方式整合72核CPU的作法並提供雙裸晶封裝，裸晶之間以NVIDIA自家的NV-Link C2C技術加以連結，NVIDIA稱之為Grace CPU Superchip，此概念還需搭配LPDDR5X（容量最大為960GB），其整體模組功耗為500W。就NVIDIA在2022年所發布之官方消息，Grace CPU以及Grace Hopper兩大產品線已經被華碩、富士康互聯網、技嘉、雲達、美超微與緯穎科技等所採用，相關伺服器系統在2023年上半年陸續推出，由此可見，Arm陣營在NVIDIA的協助之下，已經在伺服器生態系統中逐漸站穩，並有了一席之地。另外一家Arm陣營的代表則是Ampere，該公司雖然是創立沒多久，但耕耘伺服器與CSP市場已有多年時間，在2023年發布新一代伺服器產品線AmpereOne。從該公司所提供的資料來看，AmpereOne採用Arm的v8.6指令集所開發的自有客製化核心，其核心數量最多達196核，採用台積電5nm製程，其TDP為350W，在這當中，亦不難看出該公司的技術實力亦不遜於AMD與Intel等大廠。

圖1. Ampere伺服器處理器發展歷程

Source：Ampere Computing；智璞產業趨勢研究所整理 2023/07

但另一方面，x86陣營的態度並未落入被動的姿態，AMD在六月份中旬，就伺服器市場的第四代EPYC處理器系列推出兩款全新產品線，其一就是AMD EPYC 97X4系列產品線，採用Zen 4c核心，核心數量最多達128核，其TDP最高僅有360W。另一系列是EPYC 9004系列，採用Zen 4核心，核心數量最多達96核，同時也搭載AMD的3D V-Cache技術，其TDP最高為400W。不過，AMD的第四代EPYC處理器的作法，大抵上也是與NVIDIA的Grace CPU Superchip雷同，都是採用多裸晶的方式再以先進封裝的方式加以整合，其CPU是採用台積電的5nm製程，控制I/O與記憶體控制等功能的部份，則是採用台積電的6nm，之後再以MCM（Multi-Chip Module）的作法加以整合。

至於Intel的第四代Xeon Scalable 處理器則是市場所熟知的Sapphire Rapids，採用自家製程Intel 7，其發布的時間為2023年第一季，進入到六月也有更新相關的產品線，綜整來看，Sapphire Rapids最多核心數量達到60核，其TDP也僅有350W。事實上，Intel歷代Xeon Scalable處理器依其運算負載與實際需求等，大致上可以分為Platinum、Gold與Silver等版本，其主要的分野在於能夠支援的Socket（插座）數量。Platinum最多可達八個、Gold版本為四個，Silver則為兩個，前面所提及的CPU數量為60核的版本，即為Platinum的8490H。不過，綜觀來看，第四代Xeon Scalable 處理器的主要特色在於能夠支援PCIe Gen5並同時兼容CXL技術，記憶體版本則是可以支援到DDR5（4,800 MT/s 1DIMM per Channel or 4,400 MT/s 2DIMMSs per Channel），其他AVX-512指令集、支援深度學習推論與模型訓練的AMX指令集等加速運算單元皆一應俱全。平均效能方面，相較於前一代提升約1.53倍，PyTorch運算性能相較於前代則大幅提升達十倍，而針對虛擬化無線接取網路，在相同的功耗，第四代相較於前一代，能夠提供高達兩倍的網路處理容量，平均電力效率則高達2.9倍。而在功耗方面，第四代的TDP範圍為250W到350W，第三代則為150W至270W，可以想見第四代在TDP有著一定程度的提升，但若再進一步觀察第二代的版本，有出現過高達400W的處理器，這其實也意味著Intel在性能與功耗之間的拿捏，嘗試取得一個最佳的平衡。

（二）GPU競局剖析

眾所皆知，Intel在GPU領域也是處於高度積極的態勢，但不論是在個人電腦亦或是在伺服器上。與市場上處於絕對領先地位的NVIDIA以及切入時間較早的AMD都有著不小的距離。NVIDIA在GPU市場上有著超過八成的市占率，究其原因，在於NVIDIA長年苦心經營CUDA（Compute Unified Device Architecture，統一計算架構），以完整的軟硬體方案，在個人電腦與伺服器市場打下相當厚實的基礎，近年更有車用與嵌入式應用也逐漸發光發熱，使得NVIDIA透過自家的GPU方案，幾近是跳脫出傳統的個人電腦領域的侷限，往所謂的元宇宙發展。隨著NVIDIA決定進入AI與Machine Learning領域後，觀察NVIDIA近年來在CUDA架構的發展，到了Volta架構正式導入Tensor Core設計，可以進一步提升AI的Model Training與Inference的運算工作之處理效率。而到了Turing架構則是正式加入以光影追蹤技術為主的RT Core（Ray Tracing），可以讓圖像光影呈現更加栩栩如生，隨後不論是Ampere、Hopper乃至於Ada Lovelace，Tensor Core與RT Core都會升級其版本，讓各代GPU架構在AI與圖像運算能力可以有更多的突破。以AI的Model Training來說，NVIDIA的主力產品就是近期話題性頗高的H100，以及2022年九月所發布的L40。而AMD的GPU在AI與光影追蹤領域的發展腳步則略落後於NVIDIA，因應NVIDIA的作法，AMD在GPU的設計上採取兩種不同的發展路徑，針對遊戲運算領域，以RDNA（Radeon DNA）架構為主，持續優化遊戲體驗，更於第二代RDNA架構道導入光影追蹤技術嘗試追上NVIDIA的腳步。而針對AI運算領域，則是祭出CDNA架構，並進一步導入Instinct GPU產品線，其產品名稱以MI100做為起始產品，並應用於資料中心與伺服器領域。而近期AMD於六月份在舊金山發布了更多關於MI300系列的產品規格細節，以MI300X為例，該產品便是鎖定H100所打造，進而搶佔近期十分火紅的生成式AI與AI伺服器市場。至於Intel近期也重新推出獨立GPU產品，嘗試分食NVIDIA與AMD的市佔，不過以現況來看，市佔率仍有相當大的努力空間。在NVIDIA已經佔有相當比重的份額，加上AMD在該市場的市佔雖然不高，但緊追NVIDIA的腳步仍未停下的情況下，Intel短期內在獨立GPU市場的發展應不至於會有太大的突破。

（三）FPGA競局剖析

Intel收購Altera以及AMD收購Xilinx，這兩件收購案所帶來的成效一直是產業界所討論的重點之一，兩件收購案的時間落差有著不小的距離。以Intel收購Altera所帶來的成效來看，由於近年的營收表現並不如預料般的出色，甚至有衰退的情況出現，而對於AMD來說，儘管完成收購Xilinx的蜜月期剛結束，但單以AMD的Embedded部門的營收表現仍舊可以繳出出色的成績單，在2023年期間，至少可以推測Xilinx的FPGA產品應能維持一定的成長動能，藉此抵消Client營收積弱不振所帶來的衝擊。不過，雖然Intel的FPGA產品線在營收表現不盡理想，但產品線的開發上，仍持續導入Intel自有的先進製程，現階段Intel的最高階產品Agilex系列主要是採用Intel的10nm SuperFin與Intel 7製程，並搭配Arm不同的Cortex-A CPU與PCIe世代的組合，形成完整的產品布局。其中Agilex 7 FPGA產品也導入CXL與PCIe Gen5技術藉此在協助Intel的伺服器CPU進行記憶體資源調度與其他負載工作的分擔。而Agilex 9 FPGA產品線則聚焦於無線射頻領域應用，日前也獲得美國國防部採用，這不難看出Intel的FPGA產品線仍有相當的技術實力。

圖2. Intel Agilex系列產品基本介紹及其相關應用場景

Source：Intel；智璞產業趨勢研究所整理 2023/07

*備註：Agilex 3相關規格與應用領域仍未公布

而AMD旗下的FPGA產品則以Versal系列做為主力，採用台積電的7nm製程，並採用Arm的雙核Cortex-A72 CPU設計，搭配不同矽IP的組合，來因應不同應用領域，現階段除了AI RF系列仍未有進一步的規格細節外，其餘五大系列產品皆有對應的應用領域。

圖3. AMD Versal FPGA產品線與應用領域對照圖

Source：AMD；智璞產業趨勢研究所整理 2023/07

眾所皆知，FPGA的應用範圍相對廣泛，且製程的先進程度可以採用略慢於CPU與GPU等產品，以現階段而言，Intel與AMD的FPGA產品線所導入的製程亦未落後太多，但以兩家業者的策略來看，基本上都是讓FPGA扮演配角的角色，盡可能協助CPU，分擔不同負載的運算工作，藉此讓整體系統的各項表現達到最佳化。也因此，單以伺服器場景來說，FPGA大多會以加速卡形式扮演其配角，若能通過各大OEM業者的認證許可，便能發揮其功能，不論是在5G訊號的處理、影像編解碼、AI的即時推論工作，皆是FPGA可以發揮的地方。