AI模型專題｜大語言模型的運作、極限與突破(下)

發佈於: 2025/03/21|分類: 科技(Technology)|

作者：智璞產業趨勢研究所執行副總林偉智

而目前OpenAI的O系列模型、DeepSeek R1/R1 zero，及近期xAI推出的Grok 3皆具備推理能力（Reasoning），不過根據網路上的KOL及相關論文分析，仍可推測其核心技術與設計理念：

將原本大語言模型（LLM）中的預訓練（Pretraining）流程加上強化學習（Reinforcement Learning）
在最終的推理模型（Inference Model）中一樣加入強化學習（Reinforcement Learning）及蒙地卡羅樹搜尋法（MCTS）等，主要為增強或改善測試計算資源（Test-Time Compute）

以終端推論使用者來看，O3的核心機制是在模型

可以理解的標記（Token）內進行自然語言程式搜尋和執行。出現需求時，模型會在可能的思維鏈（Chain-of-Thought）裡進行搜尋，這些思維鏈（CoT）會將問題拆成許多完成任務所需的步驟。每一個步驟用「提議者（Proposer）」引導進行，搭配「驗證者（Verifier）」的機制與蒙特卡洛樹搜尋（MCTS）來找答案。

另外一個模型可以擴展（Scaling）的原因為測試計算資源（Test-Time Compute）的進步。過去模型擴展的策略主要集中在增大參數量（如 GPT-3、GPT-4的參數持續增加），但後來發現這不但會導致「成本過度膨脹」，且「在固定的計算資源下，若給出更大的參數，也會導致模型推論鈍化」。有新的研究（如O1）認為在固定的預算下，若適當增加測試計算資源（Test-Time Compute），如蒙特卡洛樹搜尋（MCTS）或動態計算，可能會比單純增加模型參數更加有效，且讓大語言模型（LLM）在回答問題時更加靈活、準確。如圖三，AlphaGo Zero未加入Test-Time Compute前的表現較差（灰色長條圖），但在加入MCTS後的表現得到大幅的成長（藍色長條圖）。

圖三、AlphaGo Zero在適當增加測試計算資源後的表現

資料來源：KIMI

AGI並非侷限於某個特定領域，而是可以靈活應用於任何場景，若可以在模型中引入RL使其具備自主訓練及推理能力（Reasoning），就能更接近AGI。不過目前的計算成本高昂，傳聞O3（高算力版）在計算一題Arc-AGI題目時，成本高達3400美元，也因此突顯出了測試計算資源（Test-Time Compute）之重要性。從目前論文來看，強化學習（RL）具備可擴展性（Scaling），不只可以運用在訓練模型，也可以優化推理過程。

之所以AI 發展不會放緩，正是因為 AGI（通用人工智慧）尚未實現，而當前的研究主要聚焦於三大方向：

大語言模型（LLM）——透過文本與語言理解世界，其學習方式依賴Token-by-Token 的統計數據來建立語意關聯。
強化學習（RL）——讓AI主動探索環境，自主學習物理世界的規律，而非僅依賴已有數據。
自監督學習（JEPA, Joint Embedding Predictive Architecture）——這一概念尚未有具體模型落地，但被視為可能的未來發展路徑。

目前AGI 的實現仍仰賴更強大的計算資源，而RL的擴展（Scaling）才剛剛開始。這也意味著訓練專用的 GPU、NPU、TPU 等 AI 晶片需求將持續攀升，為產業發展帶來更大的技術挑戰與機遇。

從ChatGPT O1到O3的推出只相差短短三個月，其中推理能力卻已有顯著提升，這不僅展現出測試計算資源（Test-Time Compute）、蒙特卡洛樹搜尋（MCTS）等技術方法的持續擴展（Scaling），也帶動更多客製化AI服務的出現。順著此趨勢發展下，將迎來更高的OPEX（營運支出）及針對ASIC、模型與AI晶片的強化需求，加速推動整體生態系的升級。然而，科研仍在持續演進，技術仍在持續突破。根據相關論文研究（如圖四），具有較強結構約束的學習方法（如MCTS、監督式學習等）雖能穩定提升模型表現，但最終將會趨於飽和，且較無法向上突破。而結構較少的學習方式雖然在初期的表現受限，但在計算資源足夠時，將展現出更顯著的性能提升。科技發展日新月異，結構化的資料型態未必是AI模型強化的唯一解方，未來的發展方向或許將依賴更靈活、多元的學習架構，以實現真正的智能進化。

圖四、不同結構學習方法與性能表現的影響