二月_AI光通訊專題|AI 超大規模運算架構下,CPO 光互連技術的結構性瓶頸
作者:智璞產業趨勢研究所執行副總 林偉智
隨著生成式 AI 與大型語言模型的訓練規模持續擴張,資料中心正快速邁向十萬乃至百萬加速器節點等級的運算形態。當叢集規模突破傳統設計假設,系統瓶頸已不再僅來自單顆晶片算力,而是節點間資料交換效率與整體能耗結構。互連系統的功耗、熱密度與穩定性,開始直接決定整體運算平台的經濟價值與可持續性。在此背景下,傳統插拔式 pluggable optics 所帶來的功耗與空間壓力逐漸浮現,因此光電共通封裝(CPO)被視為
在功耗層面,光互連雖可有效降低長距離傳輸損耗,卻無法消除電光轉換本身的能量消耗。資料在進出晶片時仍須透過高速 SerDes(序列器/解序列器)、調變器與雷射完成訊號轉換。當單顆交換晶片功率已逼近 800W 至 1000W 等級,若再將數百瓦等級的光電轉換電路集中於同一封裝區域,且SerDes通道總數量由數十條提升至上千條甚至上萬條時,即使單位能耗壓低至數 pJ/bit,累積功耗仍會快速放大,形成新的系統級熱源。功耗集中效應使高密度封裝環境更容易出現局部熱點,影響調變器偏壓穩定性、雷射波長控制與封裝材料長期機械應力。此外,高速 SerDes 在極限頻寬條件下運作,必須依賴複雜的均衡與校正機制,這些輔助電路本身亦消耗可觀功率,使實際系統能耗往往高於理論規格。當資料中心規模擴張至數萬顆以上加速器時,互連功耗已不再是邊際成本,而是直接影響電力配置與散熱架構的核心變數。在功耗成為主要約束條件的前提下,過去透過提高雷射輸出功率來擴大光功率預算與弭平損耗的作法,已難以視為可持續方案,因為其同時放大熱負載與壽命風險。
在可靠度層面,CPO面臨的挑戰更具結構性。相較於可插拔式光模組將光電轉換功能與交換晶片分離,CPO 將雷射、調變器、矽光波導與接收器直接整合於封裝或中介層上,使光路、電路與散熱場高度耦合。這種設計在提升頻寬密度與降低 I/O 路徑損耗的同時,也使熱場分佈、材料應力與光學對位誤差彼此交互影響。以雷射為例,溫度的微幅上升便可能造成波長漂移,進而影響調變效率與誤碼率;當 GPU 計算負載快速變化導致封裝內的溫度分佈也會跟著改變,此時熱梯度亦會引發光學參數隨時間產生慢性偏移。這類問題多屬漸進式劣化,往往在長時間運行後才集中顯現,而非即時失效。更複雜的是,目前雷射架構策略尚未形成產業共識。封裝內雷射(on-package laser)可縮短光路並降低光纖佈線複雜度,但雷射直接處於高熱密度環境,熱耦合與壽命退化風險顯著提升;外部耦合雷射(external laser source, ELS)則可集中管理熱源並提升維修彈性,卻增加光功率分配、冗餘設計與耦合損耗的系統複雜度。兩種路徑在可靠度模型、熱管理策略與失效模式上差異明顯,使產業難以快速累積一致的壽命數據與驗證標準,可靠度成熟曲線因此被拉長。
在系統層級上,CPO 的失效影響範圍遠大於傳統模組。單一雷射或驅動電路異常,可能牽動多條光路甚至整個光引擎(photonic engine),而由於光電元件深度整合於封裝內,往往無法單獨更換,只能整板維修或停機處理。當此架構部署於數萬乃至數十萬 GPU 的叢集中時,即便單顆元件的 平均故障間隔時間(MTBF)足夠優異,當部署規模擴大至數萬甚至數十萬顆時,系統層級的整體失效率將隨元件數量線性放大。此外,大尺寸光電封裝依賴跨晶粒拼接與精密對位,熱循環與材料膨脹係數差異可能導致耦合效率衰退與插入損耗上升。由於光互連對波長與相位精度高度敏感,微小偏移即可能造成效能下降或誤碼率提高。另外,可靠度風險亦體現在測試與驗證難度上。CPO 必須同步驗證光學性能、電性與熱穩定性,而許多關鍵參數僅能在封裝完成後測得,使量產前的篩選難度大幅提高。目前產業仍缺乏足夠長期場域運行資料與成熟失效率模型,使可靠度評估存在不確定性。對於依賴長時間穩定運作的 AI 平台而言,這種不確定性不僅影響系統可用率,更直接牽動營運風險與投資回報。
最後,從產業化進程觀察,即便下一代 AI 平台預計於 2026 年底量產、2027 年逐步放量,CPO 仍處於商業成熟度尚未完整的階段。其供應鏈橫跨雷射、矽光子、先進封裝與系統整合等不同體系,品質控管方法與可靠度標準尚未完全統一,使工程體系呈現高度客製化與專案導向特性。CPO 的核心價值不僅在於頻寬密度與單位能耗改善,更在於是否能建立可量產、可維修與可標準化的完整工程框架。真正的產業問題並非「能否做出 CPO」,而是「能否在百萬鏈路規模下穩定運行」。同時,在「光進銅退」的市場故事氛圍下,現實卻呈現更為複雜的情況。採用光學方案的廠商面臨成本上升與工程整合風險,卻被市場大力看好;而持續優化銅互連的架構在特定距離與功耗條件下,短時效能優勢難被取代。因此,未來一至兩年內,產業關鍵並非光與銅的全面替代,而是在不同拓撲與距離條件下取得最佳平衡[以目前(2026年初)產業情況觀察,CSP導入CPO的速度可能稍微有所減緩,2026年還是以800G插拔式為主軸]。光與銅並非零和競爭,而是依場景分工的工程選擇。在 AI 超大規模運算時代,光通訊的真正考驗不僅是性能突破,更是一場關於可靠度、成本結構與工程成熟度的長期競賽;唯有當技術可行、經濟可行與營運可行三者同時收斂,CPO 才可能真正跨越從示範導入走向全面主流的關鍵門檻。






