April_AI Optical Communication|Optical Circuit Switching OCS (Optical Circuit Switching) Opportunities and Physical Limits in Scale-across
Author: Mr. Lin Weizhi, Executive Vice President, Ji-Pu Industrial Trend Research Institute
When observing the evolution of AI data center networks, one thing is becoming increasingly clear: the industry is moving from the problem of "insufficient bandwidth" to the problem of "topology and physical limitations". As AI clusters move from scale-up in a single data center to scale-across data centers, the network architecture that used to rely on OEO (optical-electrical-optical) switching begins to experience structural stress. Latency is no longer determined by the number of switching nodes, but is gradually dominated by the distance and topology across data centers; bandwidth is no longer solved by just stacking more switches, as power consumption and SerDes evolution speeds have begun to lag behind AI computational power growth. As with previous research on OCS, I think it's not a coincidence that optical circuit switching (OCS) is being revisited, but rather an inevitability; the core value of OCS is that it offers a different way of thinking than packet switching: instead of letting the traffic compete for a spot in the network, it gives it a direct and definitive path. When GPU to GPU
延續去年的研究,如果從光拓樸的角度來看,這類全光交換架構的本質,其實是將網路拆解成三個彼此正交的資源維度:空間、波長與路徑。
- SDM(Spatial Division Multiplexing)負責空間的切分,讓不同 cluster 可以在多芯光纖或多空間通道中各自運行,避免光纖數量隨規模成長而失控;
- WDM(Wavelength Division Multiplexing)則在單一光纖內切分頻寬,使不同資料流對應到不同波長並行傳輸;
- 而 OCS(Optical Circuit Switching)則負責建立端到端的光路,決定哪些節點之間需要被直接連接。
這三者共同構成一種「先切資源、再連路徑」的網路模型:流量不再共享一個充滿競爭的交換平面,而是被預先映射到特定的空間與波長,再透過 OCS 組合成專屬的光路,如下圖一。這種轉變,等於把網路問題從「壅塞與排隊管理」,轉換成「資源配置與路徑規劃」。
Figure 1

Source. AI製圖;智璞產業趨勢研究所
然而進一步往下看時就會發現這條路並沒有想像中那麼「必要」。首先遇到的問題是光訊號本身的物理限制。當光訊號在不同群組之間多次切換時,會經過多個光學元件與放大器,使雜訊逐步累積並放大。這種劣化並非線性,而是在經過一定次數後迅速惡化,最終影響訊號可辨識性。因此系統在設計上必須限制光路徑的切換次數,實際可用的連接方式遠少於理論上的 full-mesh[全互連,每一個節點都可以直接連到所有其他節點],更接近一種受約束的近似拓樸。再往下看,功率預算與光放大器的能力,也會很快浮現為瓶頸。當距離拉長,或是路徑經過更多元件時,光訊號的衰減必須靠 EDFA 等設備補償,但這些設備本身帶來成本、功耗與維運複雜度。當系統從實驗室走向資料中心規模時,這些問題不再只是工程細節,而會直接影響整體架構是否可落地。這也讓我想到,OCS 並不是一個「更簡單」的網路,而可能只是把複雜度從電光層轉移到光層的架構。
另一個更深一層的問題,是延遲與距離的關係。即便使用光直連,訊號傳播的物理時間仍然存在,RDMA(遠端存處) 延遲會隨距離線性增加,進而導致網路裡同時在跑的資料變多了。這會讓網路在某些時刻承受更大的壓力,甚至提高壅塞與資料損失之風險。為了解決這個問題,一種常見的做法是將每一個重要流量對應到專屬的波長,避免競爭。但這其實等於用資源去換穩定性:你不再需要處理塞車與干擾,但你需要更多波長、更多光模組、甚至更多光纖。因此目前的研究認為:OCS 的價值並不在於取代既有的 OEO 架構,而是在特定條件下,提供一種更有效率的「旁路」。它適合用在那些流量模式穩定、需求可預測、且對延遲極為敏感的場景,例如跨兩個資料中心之間的 GPU 訓練流量。但一旦進入多租戶、動態變化、或需要高度彈性的網路環境,packet switching 仍然是不可或缺的。這也意味著,未來的 AI 網路不會走向全光化,而是走向一種混合架構:部分流量走 OCS,追求確定性與低延遲;其餘大部分流量仍然依賴 OEO,提供彈性與通用性。
從產業的角度來看,我認為真正的機會並不在於單一技術突破,而是在於整個系統需求的結構性擴張。當我們選擇用「一條流量對應一個波長」來換取穩定性時,實際上是在放大對光資源的需求,包括波長數量、光模組密度、以及光纖容量。同時,為了支撐這些光路徑,WSS(Wavelength Selective Switch, 波長選擇開關)相干光模組、光放大器等元件的重要性也會同步上升。更關鍵的是,控制平面與調度系統必須能夠理解並管理這些光資源,否則再好的光層能力也無法被有效利用。總結來說,我會把 OCS 視為 AI 網路演進中的一個重要拼圖,而不是終局答案。它解決了部分問題,但同時引入新的限制與成本。真正的趨勢,是整個網路從單一技術主導,走向多層次協同的架構。在這個過程中,光通訊的角色會越來越核心,但它的價值,不在於「取代一切」,而在於「讓整個系統能夠繼續擴張」。






