四月_ChatGPT探討|ChatGPT帶動的商機與商業模式討論
目前OpenAI的營運模式是透過應用程式介面向用戶收取服務費,包括自然語言處理的ChatGPT模型、創建和編輯原始圖像的DALL·E模型、自動語音辨識的Whisper模型。該公司按照不同人工智慧模型和需求進行收費,生成的人工智慧圖像與語言文字各按照解析度、字元定價,此種商業模式稱為人工智慧生成內容(AIGC),是透過機器學習模型創造出全新內容,如文字、圖案、音訊、音樂、視訊、程式碼、各種設計、行銷廣告、3D模型等,應用場景橫跨運營、客戶體驗、產品與服務創新,涉及的領域多為知識性或創造性工作。
網際網路內容生產方式經歷專業生成內容(PGC)、用戶生成内容(UGC)與人工智慧生成內容等三階段。Web1.0時代的網際網路內容大都是專業人員製作的高品質文字和視訊,Web2.0時代則開始讓用戶可以自由上傳內容,預期Web3.0時代內容將逐漸改由人工智慧自動化生產,並有助於元宇宙發展,因為它所需的大量數位原生內容需要借助人工智慧完成創作。人工智慧生成內容技術發展歷程大致可分為三個階段,說明如下 :
- 1950到1990年代的早期萌芽期:受限於科技水平,該技術僅限於實驗用途。1957年Lejaren Hiller和Leonard Isaacson完成史上第一部由電腦創作的音樂作品”依利亞克組曲(Illiac Suite)”。1966年Joseph Weizenbaum和Kenneth Colbv共同開發了世界第一個聊天機器人”Eliza”,它透過分析輸入文字內容而將特定字句重組變成全新組合。1980年代IBM開發出語音控制打字機”Tangora”,能夠處理兩萬個單字。
- 1990到2010年代的技術發展期:該技術從實驗用途轉向商業化發展。雖然深度學習、圖形處理單元、張量處理器和訓練資料規模都取得重大突破,但受到演算法發展限制,其應用效果還有待提升。2007 年紐約大學人工智慧研究員Ross Goodwin完成世界上第一部由人工智慧創作的小說”1 The Road”。2012年Micorsoft展示全自動同聲傳譯系統,透過深度神經網路(DNN)技術,可以自動將英文演講者的內容通過語音辨識、語言翻譯、語音合成等技術生成中文語音。
- 2010年代起至今的快速成長期:由於深度學習顯著進步,讓該技術取得突破性進展,2022年後相關演算法出現爆炸性發展而使其技術逐漸商業化,主要集中在人工智慧生成圖像領域,如OpenAI的DALL·E、Meta的Make-A-Scene、Google的Imagen與Parti等模型。
目前人工智慧生成內容技術可行的商業模式包括:(1).生成文字,如郵件、廣告文案等,目前大多數AI生成文字類項目都使用OpenAI的GPT-3模型。(2).繪製圖片,主要是結合多模態神經語言模型CLIP和圖像去噪擴散模型Diffusion,僅提供一些關鍵詞描述就可以自動生成圖片。(3).底層技術模型開發,目前以OpenAI和StableAl為該領域的領導廠商。接下來可能的熱門發展方向是用人工智慧生成視訊和動畫,目前Meta、Google等指標大廠正開發相關解決方案。
當生成式人工智慧技術日趨成熟後,預估其商機主要受惠是硬體的AI晶片商、軟體的AI演算法開發商與應用端的人工智慧生成內容服務商。該技術運作主要倚賴巨量資料運算,所以算力較算法重要。
ChatGPT採用自然語言處理技術開發的人工智慧模型,目前國內已有多家新創公司開發相關應用服務,如竹間智能科技、犀動智能科技、萬達人工智慧科技、網資科技、韜睿軟體、華碩AI研發中心,其中犀動智能科技已獲得OpenAI技術授權。該公司研發技術分成雲端語意解析、物聯網架構、數據加值分析等三類。雲端語意解析是在專業領域下提供親切如真人般的對話體驗。它的運作機制是首先進行自動語音識別,透過環境聲音降噪、回聲消除、聲學特徵提取等程序實現多國語言識別能力及交互體驗。接著進行自然語意理解,將文字的語意轉化成機器理解的內容。最後是進行語音合成技術,可以自然的真人發音及流暢的語速向使用者對話,支援多種語言和方言,能為應用服務打造個性對話。它的技術架構包含多意圖理解、專門領域知識圖、對話管理系統。[註解:多意圖理解是通過大量的文本語意及深度神經網絡技術,從對話中識別並跟進多個動作項或意圖,最終讓機器人可以按順序和邏輯方式執行任務,盡力滿足隱藏在對話內的商業場景需求。專門領域知識圖讓語音系統具備高度彈性的推理及思維能力,能有效深入各類專門領域以有效擴大對話範圍。對話管理系統是針對自然語言之意圖提供完整的對話流程與邏輯架構,可在語義不清時可快速提供語音反問以快速了解使用者的詢問意圖,降低判斷語音需求的錯誤。]
所採用的物聯網架構是以事件驅動體系架構(Event-driven Architecture)為主並搭配無線網路以進行數據自動流程管控,進而達成系統可擴與彈性。它的技術架構包括HydraLink、Elfin Control Agent與移動智慧路由(MIRF)架構,HydraLink是作為Modbus/TCP之代理主機間的介面,可支援工業領域通信協定接口,具有高效及穩定的控制單元傳輸設備特性。Elfin Control Agent是用於設備控制的代理人模型,可將語意內容轉換為信號以作為接入用戶執行所需的信息。移動智能路由框架可簡化無線設備的路由應用程序的編碼,加快應用程式開發過程並縮短自定義開發時間。數據加值分析是透過各項數據分析模式,找出關鍵指標以描繪出用戶輪廓,進而進行市場營銷、體驗優化、設備營運、管理監控。它的技術架構包括情感分析SDK、推薦系統,情感分析SDK是透過分析語意中的情緒,了解顧客對於產品或公司的整體觀感,藉此調整企業營運方向,並在服務中捕捉顧客對於產品的體驗觀感,協助企業了解顧客對於產品的評價。而推薦系統是透過蒐集並分析語意中的資訊以描繪出顧客輪廓並找出潛在需求,進而提供客製化的服務或是產品。目前犀動智能科技的營收主要來自於旅宿業應用方案,他們2019年推出的智慧語音管家服務,是透過智慧音箱協助飯店業者解決各式房務需求,並聲稱能協助經營層從大量數據挖掘商機。除了協助提供智慧語音管家服務、為業者節省服務人力外,也能透過雲端數據化後台助業者發現潛在問題及制定商業策略。目前已獲得國內多家四、五星級飯店採用,並積極拓展日本、馬來西亞、新加坡、泰國等亞洲市場。
另外還有其他商業模式或應用,如2023年推出以GPT-3語言模型發展出的Vocol AI語音協作平台,它除了可以將中文、英文、日文等語音檔案立即辨識而轉為文字,再由機器學習模型寫成摘要。還可針對不同講者、段落或是時間,整理出全文或是摘要,同時具備即時分享功能,提供多人協作模式。該平台鎖定在企業用戶、個人工作者。目前已經可以協助企業將會議做成摘要或是完整的會議紀錄,還可以運用在線上銷售判斷,從與客戶對談來判斷成交機率。在GPT模型持續發展下,我們將更加期待有更多顛覆習慣與傳統思維的應用推出。






