February_AI Optical Communication|Structural bottleneck of CPO optical interconnection technology in AI mega-scale computing architecture

Published On: 2026/02/13|Categories: 科技(Technology)|

Author: Mr. Lin Weizhi, Executive Vice President, Ji-Pu Industrial Trend Research Institute

 

As the training scale of generative AI and large-scale language models continues to expand, data centers are rapidly moving to the 100,000 or even million gas pedal node level. As cluster scale breaks through traditional design assumptions, the system bottleneck no longer comes from the power of a single chip, but from the efficiency of data exchange between nodes and the overall energy structure. The power consumption, heat density and stability of the interconnect system directly determine the economic value and sustainability of the overall computing platform. Against this backdrop, the power and space pressures of traditional plug-and-play pluggable optics are gradually surfacing, and therefore, optoelectronic packaging (CPO) has been recognized as one of the most cost-effective solutions for the interconnect.

下一階段 AI 基礎架構的重要技術選項。然而,本篇報告從產業部署與系統工程角度審視當前瓶頸,其問題並非 CPO 是否能在實驗室中達成更高傳輸速率,而是其是否能在超大規模運算環境中穩定運作、可維修、可量產,並具備長期經濟合理性。

 

在功耗層面,光互連雖可有效降低長距離傳輸損耗,卻無法消除電光轉換本身的能量消耗。資料在進出晶片時仍須透過高速 SerDes(序列器/解序列器)、調變器與雷射完成訊號轉換。當單顆交換晶片功率已逼近 800W 至 1000W 等級,若再將數百瓦等級的光電轉換電路集中於同一封裝區域,且SerDes通道總數量由數十條提升至上千條甚至上萬條時,即使單位能耗壓低至數 pJ/bit,累積功耗仍會快速放大,形成新的系統級熱源。功耗集中效應使高密度封裝環境更容易出現局部熱點,影響調變器偏壓穩定性、雷射波長控制與封裝材料長期機械應力。此外,高速 SerDes 在極限頻寬條件下運作,必須依賴複雜的均衡與校正機制,這些輔助電路本身亦消耗可觀功率,使實際系統能耗往往高於理論規格。當資料中心規模擴張至數萬顆以上加速器時,互連功耗已不再是邊際成本,而是直接影響電力配置與散熱架構的核心變數。在功耗成為主要約束條件的前提下,過去透過提高雷射輸出功率來擴大光功率預算與弭平損耗的作法,已難以視為可持續方案,因為其同時放大熱負載與壽命風險。

在可靠度層面,CPO面臨的挑戰更具結構性。相較於可插拔式光模組將光電轉換功能與交換晶片分離,CPO 將雷射、調變器、矽光波導與接收器直接整合於封裝或中介層上,使光路、電路與散熱場高度耦合。這種設計在提升頻寬密度與降低 I/O 路徑損耗的同時,也使熱場分佈、材料應力與光學對位誤差彼此交互影響。以雷射為例,溫度的微幅上升便可能造成波長漂移,進而影響調變效率與誤碼率;當 GPU 計算負載快速變化導致封裝內的溫度分佈也會跟著改變,此時熱梯度亦會引發光學參數隨時間產生慢性偏移。這類問題多屬漸進式劣化,往往在長時間運行後才集中顯現,而非即時失效。更複雜的是,目前雷射架構策略尚未形成產業共識。封裝內雷射(on-package laser)可縮短光路並降低光纖佈線複雜度,但雷射直接處於高熱密度環境,熱耦合與壽命退化風險顯著提升;外部耦合雷射(external laser source, ELS)則可集中管理熱源並提升維修彈性,卻增加光功率分配、冗餘設計與耦合損耗的系統複雜度。兩種路徑在可靠度模型、熱管理策略與失效模式上差異明顯,使產業難以快速累積一致的壽命數據與驗證標準,可靠度成熟曲線因此被拉長。

在系統層級上,CPO 的失效影響範圍遠大於傳統模組。單一雷射或驅動電路異常,可能牽動多條光路甚至整個光引擎(photonic engine),而由於光電元件深度整合於封裝內,往往無法單獨更換,只能整板維修或停機處理。當此架構部署於數萬乃至數十萬 GPU 的叢集中時,即便單顆元件的 平均故障間隔時間(MTBF)足夠優異,當部署規模擴大至數萬甚至數十萬顆時,系統層級的整體失效率將隨元件數量線性放大。此外,大尺寸光電封裝依賴跨晶粒拼接與精密對位,熱循環與材料膨脹係數差異可能導致耦合效率衰退與插入損耗上升。由於光互連對波長與相位精度高度敏感,微小偏移即可能造成效能下降或誤碼率提高。另外,可靠度風險亦體現在測試與驗證難度上。CPO 必須同步驗證光學性能、電性與熱穩定性,而許多關鍵參數僅能在封裝完成後測得,使量產前的篩選難度大幅提高。目前產業仍缺乏足夠長期場域運行資料與成熟失效率模型,使可靠度評估存在不確定性。對於依賴長時間穩定運作的 AI 平台而言,這種不確定性不僅影響系統可用率,更直接牽動營運風險與投資回報。

 

最後,從產業化進程觀察,即便下一代 AI 平台預計於 2026 年底量產、2027 年逐步放量,CPO 仍處於商業成熟度尚未完整的階段。其供應鏈橫跨雷射、矽光子、先進封裝與系統整合等不同體系,品質控管方法與可靠度標準尚未完全統一,使工程體系呈現高度客製化與專案導向特性。CPO 的核心價值不僅在於頻寬密度與單位能耗改善,更在於是否能建立可量產、可維修與可標準化的完整工程框架。真正的產業問題並非「能否做出 CPO」,而是「能否在百萬鏈路規模下穩定運行」。同時,在「光進銅退」的市場故事氛圍下,現實卻呈現更為複雜的情況。採用光學方案的廠商面臨成本上升與工程整合風險,卻被市場大力看好;而持續優化銅互連的架構在特定距離與功耗條件下,短時效能優勢難被取代。因此,未來一至兩年內,產業關鍵並非光與銅的全面替代,而是在不同拓撲與距離條件下取得最佳平衡[以目前(2026年初)產業情況觀察,CSP導入CPO的速度可能稍微有所減緩,2026年還是以800G插拔式為主軸]。光與銅並非零和競爭,而是依場景分工的工程選擇。在 AI 超大規模運算時代,光通訊的真正考驗不僅是性能突破,更是一場關於可靠度、成本結構與工程成熟度的長期競賽;唯有當技術可行、經濟可行與營運可行三者同時收斂,CPO 才可能真正跨越從示範導入走向全面主流的關鍵門檻。

January CES _2026 Feature|CES 2026 is not about new product announcements, it's about Jen-Hsun Huang setting the anchor for the next decade of AI openness.
March_AI Optical Communication|From Copper to Optical AI Data Center Architecture Analysis
-For more information, please clickContact Us-
Share the article now!