三月_AI模型專題|大語言模型的運作、極限與突破(下)
而目前OpenAI的O系列模型、DeepSeek R1/R1 zero,及近期xAI推出的Grok 3皆具備推理能力(Reasoning),不過根據網路上的KOL及相關論文分析,仍可推測其核心技術與設計理念:
- 將原本大語言模型(LLM)中的預訓練(Pretraining)流程加上強化學習(Reinforcement Learning)
- 在最終的推理模型(Inference Model)中一樣加入強化學習(Reinforcement Learning)及蒙地卡羅樹搜尋法(MCTS)等,主要為增強或改善測試計算資源(Test-Time Compute)
以終端推論使用者來看,O3的核心機制是在模型
更多詳細內容,請註冊會員或登入會員登入.