四月_ChatGPT探討｜ChatGPT的技術發展與優勢剖析

發佈於: 2023/04/03|分類: 科技(Technology)|

ChatGPT於2022年11月由OpenAI推出的人工智慧聊天機器人程式。OpenAI是2015年由Elon Musk與Samuel H. Altman共同創立的非營利性人工智慧公司，總部位於舊金山市，其成立宗旨在於將解決人類在科技上遇到的困境與問題作為未來人工智慧研究創造基礎。該公司由世界各地頂尖研究人員與學者組成，透過機器學習與學術研究開發人工智慧技術，為全球社會創造價值也幫助人類對自然環境更加充分的理解。2018年Elon Musk考量Tesla的自駕技術發展與OpenAI可能衍生利益衝突而退出董事會，之後Altman一肩扛起公司營運。因無法負擔長期訓練模型的高額費用，2019年OpenAI轉向有限營利模式，重組後不久即獲Microsoft投資10億美元以取得部分AI技術商業化的優先權，並促成雙方合作為Azure雲端平台服務開發人工智慧技術。當ChatGPT爆紅後，2023年Microsoft再注資數十億美元，並將旗下搜尋引擎Bing和瀏覽器Edge導入ChatGPT的語言模組，藉此搶占龐大的搜尋市場商機。此舉讓Google深感威脅，創辦人Sergey Brin與Larry Page還為此回鍋督導人工智慧技術研發。目前OpenAI主要開發的人工智慧技術包括：

機器學習：自動化學習和應用新知識以改善人工智慧表現。
深度學習：可開發更深入和多樣化的應用，更有效理解並模擬人工智慧的行為。
自然語言處理：更加深入理解和模擬人類的言語行為。
自主式行為：理解、模擬並建立人類之行為模式。

GPT的全名是生成型預訓練變換模型(Generative Pre-Trained Transformer)，顧名思義即透過變換器(Transformer)為基礎、使用預訓練技術得到通用文本模型。目前OpenAI已經公佈的模型有文本預訓練之GPT-1~3及圖像預訓練之iGPT，GPT -1~3的比較如表2所列。GPT-1是透過由左向右生成式的構建預訓練任務，然後得到一個通用的預訓練模型，這個模型和基於變換器的雙向編碼器表示(BERT)技術一樣都可用做下游任務的微調，它在9個自然語言處理任務上達到當時最先進模型的效果，但因為處理資料量都比較小，所以開發出GPT-2模型。GPT-2並未大幅更動模型結構，只是使用更多參數的模型和訓練資料，它的開發理念是讓所有的有監督學習都是無監督語言模型的一個子集合。GPT-2在誕生之初引發不少轟動，它生成的新聞能夠達到以假亂真的效果，故被稱為「人工智慧界最危險的武器」，所以許多入口網站禁止使用GPT-2生成的假新聞。後續的發展出GT-3模型大幅提高參數量與訓練資料量，使用的上下文學習(In-context Learning)模式可透過少量的資料尋找一個合適的初始化範圍，讓該模型能夠在有限的資料集上快速擬合，並獲得不錯的效果。它除了能完成常見的自然語言處理任務外，也可用於編寫SQL，JavaScript等程式碼。2023年3月14日推出GPT-4模型，相較前一代產品的最大差異在於多模態和內容生成。使用者在先前的GPT模型只能輸入文字，GPT-4可以識別圖片內容並給出答案，而且最多可以輸出25000個單詞，同時給出答案錯誤更少，涉及到倫理和敏感問題時回答也更符合常理。

表2、三種GPT模型的重要參數比較

資料來源 : OpenAI

因為訓練得到的模型不是非常可控，回饋到生成模型中之訓練資料分佈便是影響生成內容品質最重要的因素。有時候開發者希望模型並不僅僅只受訓練資料的影響，而且還是人為可控以保證生成資料的有用性、真實性和無害性。於是OpenAI使用人類反饋強化學習(RLHF)技術改進GPT-3模型，稱為InstructGPT。其方法是根據用戶向應用程式開發介面(API)提交的提示，由標記員向模型提供示範行為並對輸出進行排名來進行微調。InstructGPT可以更好地遵循人類指示，有害內容輸出也大幅降低。它雖然僅具有13億個參數，遠低於GPT-3模型，但研究人員使用自然語言處理效能評估方法來衡量其能力而發現兩者差不多。

ChatGPT是由GPT-3延伸出的GPT-3.5模型所製作，也是使人類反饋強化學習來訓練該模型，其訓練程序分成三步驟，如圖2所示。首先根據採集的資料集對GPT-3進行有監督的微調(SFT)，其次是收集人工標注的對比資料來訓練獎勵模型(RM)，最後是使用獎勵模型作為強化學習的優化目標，利用近端策略優化(PPO)演算法微調模型。ChatGPT與InstructGPT的資料收集方法略有不同，並加入強化學習近端策略優化，可以理解成在人腦思維的基礎上加入人類回饋系統，因此成文效果更真實、編碼能力更強而模型的無害性有些許提升。ChatGPT的技術優勢是採用自注意力機制，能夠更好理解語境並在產生文本時考慮到先前的對話內容，除了可快速產生高品質的文本外，還不需要任何額外的訓練就能在多種不同的領域中使用，並可進行如情感分析、關係推斷和情境建模等多種對話任務。而其技術仍有侷限性需要突破，包括:(1).ChatGPT輸出文本時效性受到OpenAI的模型資料庫更新頻率、資料來源影響，故可能出現不符現況之狀況。(2).ChatGPT只能基於現有資料輸出文本資訊，若資料庫欠缺特定領域資訊則生成的文本勢必不夠專業。(3).OpenAI訓練ChatGPT時通常使用大量經過人工或自動的過濾來排除生成不合適內容的文本，然而隨著模型的公開使用，有可能會出現某些不合適的資料被用於生成結果而導致準確性下降。

圖2、GPT-3.5與InstructGPT模型的訓練程序