AI模型專題｜大語言模型的運作、極限與突破(下)

Published On: 2025/03/21|Categories: 科技(Technology)|

Author: Mr. Lin Weizhi, Executive Vice President, Ji-Pu Industrial Trend Research Institute

OpenAI's O-series models, DeepSeek R1/R1 zero, and xAI's recently launched Grok 3 are all equipped with reasoning capabilities, but according to KOLs and related papers on the Internet, we can still speculate on their core technologies and design concepts:

Adding Reinforcement Learning to the original Pretraining process in LLM.
In the final Inference Model (Inference Model) also added Reinforcement Learning (Reinforcement Learning) and Monte Carlo Tree Search (MCTS), etc., mainly to enhance or improve the test computing resources (Test-Time Compute).

In terms of end-inference users, the core mechanism of O3 is modeled in the

可以理解的標記（Token）內進行自然語言程式搜尋和執行。出現需求時，模型會在可能的思維鏈（Chain-of-Thought）裡進行搜尋，這些思維鏈（CoT）會將問題拆成許多完成任務所需的步驟。每一個步驟用「提議者（Proposer）」引導進行，搭配「驗證者（Verifier）」的機制與蒙特卡洛樹搜尋（MCTS）來找答案。

另外一個模型可以擴展（Scaling）的原因為測試計算資源（Test-Time Compute）的進步。過去模型擴展的策略主要集中在增大參數量（如 GPT-3、GPT-4的參數持續增加），但後來發現這不但會導致「成本過度膨脹」，且「在固定的計算資源下，若給出更大的參數，也會導致模型推論鈍化」。有新的研究（如O1）認為在固定的預算下，若適當增加測試計算資源（Test-Time Compute），如蒙特卡洛樹搜尋（MCTS）或動態計算，可能會比單純增加模型參數更加有效，且讓大語言模型（LLM）在回答問題時更加靈活、準確。如圖三，AlphaGo Zero未加入Test-Time Compute前的表現較差（灰色長條圖），但在加入MCTS後的表現得到大幅的成長（藍色長條圖）。

圖三、AlphaGo Zero在適當增加測試計算資源後的表現

資料來源：KIMI

AGI並非侷限於某個特定領域，而是可以靈活應用於任何場景，若可以在模型中引入RL使其具備自主訓練及推理能力（Reasoning），就能更接近AGI。不過目前的計算成本高昂，傳聞O3（高算力版）在計算一題Arc-AGI題目時，成本高達3400美元，也因此突顯出了測試計算資源（Test-Time Compute）之重要性。從目前論文來看，強化學習（RL）具備可擴展性（Scaling），不只可以運用在訓練模型，也可以優化推理過程。

之所以AI 發展不會放緩，正是因為 AGI（通用人工智慧）尚未實現，而當前的研究主要聚焦於三大方向：

大語言模型（LLM）——透過文本與語言理解世界，其學習方式依賴Token-by-Token 的統計數據來建立語意關聯。
強化學習（RL）——讓AI主動探索環境，自主學習物理世界的規律，而非僅依賴已有數據。
自監督學習（JEPA, Joint Embedding Predictive Architecture）——這一概念尚未有具體模型落地，但被視為可能的未來發展路徑。

目前AGI 的實現仍仰賴更強大的計算資源，而RL的擴展（Scaling）才剛剛開始。這也意味著訓練專用的 GPU、NPU、TPU 等 AI 晶片需求將持續攀升，為產業發展帶來更大的技術挑戰與機遇。

從ChatGPT O1到O3的推出只相差短短三個月，其中推理能力卻已有顯著提升，這不僅展現出測試計算資源（Test-Time Compute）、蒙特卡洛樹搜尋（MCTS）等技術方法的持續擴展（Scaling），也帶動更多客製化AI服務的出現。順著此趨勢發展下，將迎來更高的OPEX（營運支出）及針對ASIC、模型與AI晶片的強化需求，加速推動整體生態系的升級。然而，科研仍在持續演進，技術仍在持續突破。根據相關論文研究（如圖四），具有較強結構約束的學習方法（如MCTS、監督式學習等）雖能穩定提升模型表現，但最終將會趨於飽和，且較無法向上突破。而結構較少的學習方式雖然在初期的表現受限，但在計算資源足夠時，將展現出更顯著的性能提升。科技發展日新月異，結構化的資料型態未必是AI模型強化的唯一解方，未來的發展方向或許將依賴更靈活、多元的學習架構，以實現真正的智能進化。

圖四、不同結構學習方法與性能表現的影響