七月_GAI 專題|從運算架構發展,剖析Intel、AMD與NVIDIA的市場競局(中)
簡單回顧三大晶片商在主力產品線的營收表現後,接下來就其在CPU、GPU乃至於其他運算架構之運算產品技術競爭局勢進行研析與探討。綜觀三家業者近期的發展歷史,它們皆針對非CPU與GPU架構的半導體公司進行收購,舉例來說,過去最為有名的,莫過於Intel收購FPGA大廠Altera,以及近年AMD剛完成收購Xilinx等,此外,NVIDIA也完成了對Mellanox的收購,進一步強化了對於DPU與網路傳輸技術等解決方案的戰力,提升了自家伺服器系統方案的完整度。不論是從筆電亦或是伺服器應用,大體上皆不脫CPU與GPU等解決方案的討論,而在伺服器領域,近期更有FPGA與DPU等解決方案的導入,嘗試為CPU分憂解勞,嘗試用Off Loading的方式,讓CPU更可以專心聚焦核心運算的工作,藉此讓整體系統的效能發揮達到極大化。
(一)CPU競局剖析
單從CPU的視角來看,過往不論是伺服器或是PC領域幾乎是由x86架構獨佔鰲頭。在智慧型手機效能不斷提升下,Arm架構逐漸崛起,Arm的CPU IP致力於能源效率最佳化的方向發展。儘管過去Arm陣營也開始往伺服器與PC領域也有不少著墨,但整體來說,成績始終差強人意。然而,隨著Apple與NVIDIA各自以Arm架構切入PC與伺服器領域後,情況顯然開始了有了改變。以近期來說,最需要探討的,莫過於NVIDIA所發布的Grace CPU產品。Grace CPU採用Arm的Neoverse V2 CPU設計,以單一裸晶方式整合72核CPU的作法並提供雙裸晶封裝,裸晶之間以NVIDIA自家的NV-Link C2C技術加以連結,NVIDIA稱之為Grace CPU Superchip,此概念還需搭配LPDDR5X(容量最大為960GB),其整體模組功耗為500W。就NVIDIA在2022年所發布之官方消息,Grace CPU以及Grace Hopper兩大產品線已經被華碩、富士康互聯網、技嘉、雲達、美超微與緯穎科技等所採用,相關伺服器系統在2023年上半年陸續推出,由此可見,Arm陣營在NVIDIA的協助之下,已經在伺服器生態系統中逐漸站穩,並有了一席之地。另外一家Arm陣營的代表則是Ampere,該公司雖然是創立沒多久,但耕耘伺服器與CSP市場已有多年時間,在2023年發布新一代伺服器產品線AmpereOne。從該公司所提供的資料來看,AmpereOne採用Arm的v8.6指令集所開發的自有客製化核心,其核心數量最多達196核,採用台積電5nm製程,其TDP為350W,在這當中,亦不難看出該公司的技術實力亦不遜於AMD與Intel等大廠。
圖1. Ampere伺服器處理器發展歷程

Source:Ampere Computing;智璞產業趨勢研究所整理 2023/07
但另一方面,x86陣營的態度並未落入被動的姿態,AMD在六月份中旬,就伺服器市場的第四代EPYC處理器系列推出兩款全新產品線,其一就是AMD EPYC 97X4系列產品線,採用Zen 4c核心,核心數量最多達128核,其TDP最高僅有360W。另一系列是EPYC 9004系列,採用Zen 4核心,核心數量最多達96核,同時也搭載AMD的3D V-Cache技術,其TDP最高為400W。不過,AMD的第四代EPYC處理器的作法,大抵上也是與NVIDIA的Grace CPU Superchip雷同,都是採用多裸晶的方式再以先進封裝的方式加以整合,其CPU是採用台積電的5nm製程,控制I/O與記憶體控制等功能的部份,則是採用台積電的6nm,之後再以MCM(Multi-Chip Module)的作法加以整合。
至於Intel的第四代Xeon Scalable 處理器則是市場所熟知的Sapphire Rapids,採用自家製程Intel 7,其發布的時間為2023年第一季,進入到六月也有更新相關的產品線,綜整來看,Sapphire Rapids最多核心數量達到60核,其TDP也僅有350W。事實上,Intel歷代Xeon Scalable處理器依其運算負載與實際需求等,大致上可以分為Platinum、Gold與Silver等版本,其主要的分野在於能夠支援的Socket(插座)數量。Platinum最多可達八個、Gold版本為四個,Silver則為兩個,前面所提及的CPU數量為60核的版本,即為Platinum的8490H。不過,綜觀來看,第四代Xeon Scalable 處理器的主要特色在於能夠支援PCIe Gen5並同時兼容CXL技術,記憶體版本則是可以支援到DDR5(4,800 MT/s 1DIMM per Channel or 4,400 MT/s 2DIMMSs per Channel),其他AVX-512指令集、支援深度學習推論與模型訓練的AMX指令集等加速運算單元皆一應俱全。平均效能方面,相較於前一代提升約1.53倍,PyTorch運算性能相較於前代則大幅提升達十倍,而針對虛擬化無線接取網路,在相同的功耗,第四代相較於前一代,能夠提供高達兩倍的網路處理容量,平均電力效率則高達2.9倍。而在功耗方面,第四代的TDP範圍為250W到350W,第三代則為150W至270W,可以想見第四代在TDP有著一定程度的提升,但若再進一步觀察第二代的版本,有出現過高達400W的處理器,這其實也意味著Intel在性能與功耗之間的拿捏,嘗試取得一個最佳的平衡。
(二)GPU競局剖析
眾所皆知,Intel在GPU領域也是處於高度積極的態勢,但不論是在個人電腦亦或是在伺服器上。與市場上處於絕對領先地位的NVIDIA以及切入時間較早的AMD都有著不小的距離。NVIDIA在GPU市場上有著超過八成的市占率,究其原因,在於NVIDIA長年苦心經營CUDA(Compute Unified Device Architecture,統一計算架構),以完整的軟硬體方案,在個人電腦與伺服器市場打下相當厚實的基礎,近年更有車用與嵌入式應用也逐漸發光發熱,使得NVIDIA透過自家的GPU方案,幾近是跳脫出傳統的個人電腦領域的侷限,往所謂的元宇宙發展。隨著NVIDIA決定進入AI與Machine Learning領域後,觀察NVIDIA近年來在CUDA架構的發展,到了Volta架構正式導入Tensor Core設計,可以進一步提升AI的Model Training與Inference的運算工作之處理效率。而到了Turing架構則是正式加入以光影追蹤技術為主的RT Core(Ray Tracing),可以讓圖像光影呈現更加栩栩如生,隨後不論是Ampere、Hopper乃至於Ada Lovelace,Tensor Core與RT Core都會升級其版本,讓各代GPU架構在AI與圖像運算能力可以有更多的突破。以AI的Model Training來說,NVIDIA的主力產品就是近期話題性頗高的H100,以及2022年九月所發布的L40。而AMD的GPU在AI與光影追蹤領域的發展腳步則略落後於NVIDIA,因應NVIDIA的作法,AMD在GPU的設計上採取兩種不同的發展路徑,針對遊戲運算領域,以RDNA(Radeon DNA)架構為主,持續優化遊戲體驗,更於第二代RDNA架構道導入光影追蹤技術嘗試追上NVIDIA的腳步。而針對AI運算領域,則是祭出CDNA架構,並進一步導入Instinct GPU產品線,其產品名稱以MI100做為起始產品,並應用於資料中心與伺服器領域。而近期AMD於六月份在舊金山發布了更多關於MI300系列的產品規格細節,以MI300X為例,該產品便是鎖定H100所打造,進而搶佔近期十分火紅的生成式AI與AI伺服器市場。至於Intel近期也重新推出獨立GPU產品,嘗試分食NVIDIA與AMD的市佔,不過以現況來看,市佔率仍有相當大的努力空間。在NVIDIA已經佔有相當比重的份額,加上AMD在該市場的市佔雖然不高,但緊追NVIDIA的腳步仍未停下的情況下,Intel短期內在獨立GPU市場的發展應不至於會有太大的突破。
(三)FPGA競局剖析
Intel收購Altera以及AMD收購Xilinx,這兩件收購案所帶來的成效一直是產業界所討論的重點之一,兩件收購案的時間落差有著不小的距離。以Intel收購Altera所帶來的成效來看,由於近年的營收表現並不如預料般的出色,甚至有衰退的情況出現,而對於AMD來說,儘管完成收購Xilinx的蜜月期剛結束,但單以AMD的Embedded部門的營收表現仍舊可以繳出出色的成績單,在2023年期間,至少可以推測Xilinx的FPGA產品應能維持一定的成長動能,藉此抵消Client營收積弱不振所帶來的衝擊。不過,雖然Intel的FPGA產品線在營收表現不盡理想,但產品線的開發上,仍持續導入Intel自有的先進製程,現階段Intel的最高階產品Agilex系列主要是採用Intel的10nm SuperFin與Intel 7製程,並搭配Arm不同的Cortex-A CPU與PCIe世代的組合,形成完整的產品布局。其中Agilex 7 FPGA產品也導入CXL與PCIe Gen5技術藉此在協助Intel的伺服器CPU進行記憶體資源調度與其他負載工作的分擔。而Agilex 9 FPGA產品線則聚焦於無線射頻領域應用,日前也獲得美國國防部採用,這不難看出Intel的FPGA產品線仍有相當的技術實力。
圖2. Intel Agilex系列產品基本介紹及其相關應用場景

Source:Intel;智璞產業趨勢研究所整理 2023/07
*備註:Agilex 3相關規格與應用領域仍未公布
而AMD旗下的FPGA產品則以Versal系列做為主力,採用台積電的7nm製程,並採用Arm的雙核Cortex-A72 CPU設計,搭配不同矽IP的組合,來因應不同應用領域,現階段除了AI RF系列仍未有進一步的規格細節外,其餘五大系列產品皆有對應的應用領域。
圖3. AMD Versal FPGA產品線與應用領域對照圖

Source:AMD;智璞產業趨勢研究所整理 2023/07
眾所皆知,FPGA的應用範圍相對廣泛,且製程的先進程度可以採用略慢於CPU與GPU等產品,以現階段而言,Intel與AMD的FPGA產品線所導入的製程亦未落後太多,但以兩家業者的策略來看,基本上都是讓FPGA扮演配角的角色,盡可能協助CPU,分擔不同負載的運算工作,藉此讓整體系統的各項表現達到最佳化。也因此,單以伺服器場景來說,FPGA大多會以加速卡形式扮演其配角,若能通過各大OEM業者的認證許可,便能發揮其功能,不論是在5G訊號的處理、影像編解碼、AI的即時推論工作,皆是FPGA可以發揮的地方。






