五月_台灣AIGC研析|從ChatGPT看台灣生成式AI(AIGC)軟體與服務產業發展(上)

發佈於: 2023/05/03|分類: 科技(Technology)|

在前面幾篇的文章,我們探討了ChatGPT(Generative Pre-trained Transformer)所引發的AI應用趨勢以及可能的商業模式討論等。接著,我們討論在ChatGPT引爆全球話題後,台灣在生成式AI(AIGC)軟體與服務產業的發展情況。

自2022年十一月由OPEN AI推出後至今,引來無數討論,諸如後續商機發展、工作取代、道德與資安問題等,其面向可謂相當全面且廣泛。以商機而言,ChatGPT的運作核心仍然是不脫AI模型訓練與推論能力的展現,也因此對於相關的硬體乃至於半導體商機已有相當多的討論,像是台灣早已是全球伺服器代工大國,在面對生成式AI應用需求暴漲的情況下,長期來看,伺服器需求勢必水漲船高。與此同時,全球AI晶片的設計與製造,台灣半導體產業也扮演舉足輕重的角色,如晶圓代工龍頭台積電與設計服務大廠創意電子與智原科技等,皆能在這波生成式AI浪潮下,佔有一席之地。不過,儘管台灣在硬體製程與半導體在生成式AI領域早已卡位,但在軟體應用領域亦有不錯表現,本篇報告重點將聚焦國內幾家重要的生成式AI軟體與應用業者在市場上的發展現況。

 

生成式AI與NLP基本概觀

在進入台灣軟體與應用服務業者的討論前,關於生成式AI與NLP(自然語言處理)系統等做簡要的概述與介紹。概括而言,生成式AI是眾多AI的一種類型,透過機器學習模型研究歷史數據的模式,進而生成文本、圖像、影片、音訊甚至是簡單的程式碼等各種內容。市調機構Gartner將生成式AI列為《2022年度重要戰略技術趨勢》的首位,並預測到2025年,生成式AI將占所有資料的10%,ChatGPT即為生成式AI的一種形式。

而生成式AI之所以會如此火紅,其背後的助力就是NLP系統,在概念上可分成兩大類,一是NLU(自然語言理解),另一個則是NLG(自然語言生成),前者自然是利用訓練出來的模式來理解文字內容,事先蒐集並設計相關詞庫,再透過分析文句中相關詞句出現的次數來進一步理解該段文句。其中更包含了正負面的情緒用字,做為該模型的基礎之一,以採用該模型的裝置得以理解此段文字的真正意涵。NLG則是接續NLU,因應NLU的內容判斷,進一步衍生出相應的文字內容,其背後也需要基本的邏輯、數據以及各國當地的文句結構來支撐。而將NLU與NLG加以結合,就成為Transformer,Transformer 被視為遷移式學習的一種,其概念是將學會 A 任務的模型套用至 B 任務的資料上繼續學習的技術。過往的 NLP 執行步驟會將理解與生成拆分成兩階段。若想完成NLG,業者一般會將先設計好前段的NLU模型,再將NLU所產生的結果投入至NLG的模型中,而遷移式學習則是將整段過程揉合在一起的框架。也因此,當ChatGPT暴紅之後,市場亦有許多憂心人士認為,這樣的學習模型若是放任不管,對於人類未來發展反而會帶來極為不利的影響。

台灣生成式AI軟體與應用服務主要業者

以下就針對國內幾家重點軟體與服務業者,如竹間智能科技、萬達人工智慧科技、網資科技、韜睿軟體與華碩 AI 研發中心(AICS)等就產品策略與發展現況等,進行討論。

(一)竹間智能科技

竹間智能科技成立於2015年,由由前微軟(亞洲)互聯網工程院副院長簡仁賢所創辦,利用自然語言處理、深度學習、知識工程、文本處理等人工智能技術為基礎,研發具有情感識別能力的對話機器人,其主力解決方案之一就是NLP自然語言理解平台,該公司亦自2018年開始至2020年,連續三年入選Gartner Hype Cycle for ICT自然語言技術板塊代表企業。2018年12月亦完成3000萬美金B輪融資。竹間智能科技所擁有的NLP技術能夠處理大量的非結構化數據,自動建構出相應的知識圖譜,以提供長文字的自然語言處理功能及應用解決方案。此外,該公司也具備NLU技術能力,具備27個自然語言的理解能力,以支撐各種場景與應用平台。以應用場景來說,竹間所提供的解決方案最容易被應用在客服領域上,結合顧客所提供的語音資訊與面部表情,同時解析顧客的情緒狀態與文字內容,藉此產生合適的反應策略以打造合適的內容給顧客。

 

(二)萬達人工智慧科技

萬達人工智慧科技成立於2017年,旨在探索和開發 AI解決方案,並提供客製化的 AI應用開發和技術服務。其業務範圍包括影像辨識、聲音辨識、NLP 、大數據分析等多個領域。該公司的NLP技術的主要應用情境之一就是虛擬實境(VR)或是混合實境(MR)等,但萬達的NLP技術也必須與其他的解決方案搭配,萬達本身具備創新獨有的網路協作平台,能即時傳輸和接收混合實境的相關內容。運用此種方式便能將不同使用者連結至同一個數位環境,並讓他們在多重實境中享受互動交流以及沉浸式體驗。在過去,若想取得混合實境(MR)技術並使用它的各種功能時,時常會受限於使用者的數位裝置之能力。但只要透過萬達的混合實境直播平台,不僅能讓使用者體驗虛實融合的沉浸感受,還能讓他們和喜愛的虛擬角色做最即時的互動。

基於這樣的基礎下,利用萬達的NLP技術能更精確了解使用者的表達,加強了跨媒介的口語交流。透過自動語音、文字識別以及我們獨創的深度學習演算法,使用者能夠和他們喜愛的虛擬角色溝通交流。萬達本身就已經打造了語音大數據和深度學習方法,除了能夠合成各種語言的人工合成語音,還能藉由結合音素的方式,賦予語音更自然和真實的質感,進一步讓合成語音能夠傳達感受、情緒、好奇心、性情和共鳴。正因為此項技術,所以也能讓每個虛擬角色都能夠擁有屬於他們自己獨特的聲音。目前萬達透過NLP與語音合成技術,虛擬角色也可以實時合成充滿情感的聲音來回應用戶。 該技術已獲得兩項人工智能應用的國際專利,另外三項專利正在申請中。該公司亦在2021年,加入了NVIDIA Inception計劃。NVIDIA Inception是一個針對7000多家在做人工智慧、資料科學和高效能運算新創公司的加速平台,這個平台提供了重要的市場進入支援、專業知識和技術。

 

(三)網資科技

網資科技的成立時間則為2019年,其NLP技術則是應用在關鍵語句分析。舉例來說,應用在法說會逐字稿,即可根據逐字稿內容,判讀分析師的情緒,比方說迂迴、遲疑的口氣,將結構化的內容(如組織人員的背景)結合非結構化的內容(如人員之間的言語互動),即可偵測可能造成市場變動的風險因子,當預期震盪超過一定比例時提出警示,進而做到市場風險控管預警。但網資科技的AI訓練技術,雖節省領域專家時間,卻也比傳統方案耗費更多運算資源。所幸在得到國網中心TWCC臺灣AI雲的運算資源後,網資科技的新穎性方案得到夢寐以求的運算力。

網資科技的新方案在獲得國網中心協助後,進入國內的醫療應用場景,也大幅縮短許多作業時間,傳統的AI應用方案上,醫師標註病灶位置的數量至少有上千例,約需耗盡數週時間才能完成標註,反觀網資科技的AI新穎性方案,醫師僅需要花1天的時間確認100個病例,再透過AI的學習即可完成,這大幅減輕醫師負擔。甚至連38萬句的法說會逐字稿,在AI學習下,也僅需10天即可完成分析。而眾所皆知,許多垂直應用如醫療領域,特別重視資安防護等級,關於此點,國網中心已通過資安認證的保證,同時在服務及技術設計,都以研發人員的需求為出發點,所以對於網資科技這類新創業者在對應各類應用場景上,國網中心的奧援對於網資科技帶來不少益處。

 

(四)韜睿軟體

韜睿軟體的成立時間亦於2019年,組成來自於業界菁英,致力於AI、電腦視覺(Computer Vision)、文字辨識(OCR)、NLP、NLU、對話機器人(ChatBot)與辦公室自動化應用期許以人工智慧等技術解決重複性問題,釋放企業人力從事更有效率的工作,透過AI電腦視覺與自然語言處理,將企業內過往需要人工登打作業的表單,可以快速進行文字辨識(OCR)作業,進行紙本數位化並提取重要內文進行文字分析與處理。

韜睿軟體的NLP技術亦可進一步分為幾種解決方案:中文斷詞演算法、對話機器人、文件內實體命名技術與文件自動分類技術等。

A. 中文斷詞演算法

中文斷詞演算法主要是基於Google ALBERT,可大幅提升演算法效能,降低模型大小,且可以進行多任務應用如Pos(Part of Speech Tagging)正體中文詞性標註、NER(Name Entity Recognition)對於詞句中的人名、地名、組織名…等進行辨識。該演算法基於Google ALBERT,可大幅提升演算法效能,降低模型大小,且可以進行多任務應用如Pos(Part of Speech Tagging)正體中文詞性標註、NER(Name Entity Recognition)對於詞句中的人名、地名、組織名等進行辨識。以應用場域來說,涵蓋的類別相當多元,如知識圖譜、情感分析、虛擬助理、對話機器人、關鍵詞擷取、推薦系統、文章分類、文件/文字可視化分析、法遵科技/監理科技、法律科技與資安威脅情報分析等。

B. 對話機器人

韜睿軟體的對話機器人同樣是基於NLP技術所衍生而來,其中也包括了前面所提到的中文斷詞演算法。不過更進一步的說,其技術主體還是NLU為主軸,更著重於使用者意圖的了解,然後給予適當的回應。如過往透過真人客服系統,需要24小時輪班,然後會有在線等待問題,透過對話機器人技術,可以代替真人客服先做第一線問題的回覆,提升服務效率與品質。此技術亦可以應用於企業內部的HelpDesk中,透過對話機器人理解問題,進而回應,如企業內的請假時數查詢、電腦無法上網怎麼辦或是可以給我一張今日產線報表?都可以透過對話機器人技術完成。

C.文件內實體命名(NER)

文件內實體命名(NER)又可稱為專有名詞識別、命名實體,用來識別文字內具有意義的文字,如人名、地名、專有名詞、機構名等,也包含對詞性的標注(Part of Speech tag;POS-tag),好讓機器可以理解文章內容。
與過往採用的Rule Based不同的是,Rule Based需要知道規則,但文章中或是大量網路爬文下來的資訊無法透過Rule Based窮舉,且通常這些資訊都是非結構化的文件,這時就可以利用AI與NLP技術進行實體命名取出關鍵字句。

在金融業可以分析黑名單嫌疑人在RegTech應用、而客服部分依據客戶留言進行情緒分析,協助客服人員進行客戶關懷,以及法律業的LegalTech應用協助律師與法官分析法律文件。

D. 文件自動分類技術

該技術可提供圖片類型的的資料進行分類歸檔,或是透過自然語言處理NLP,挖掘非結構化文件資料,理解文件內容,再透過Machine Learning技術訓練,將可自動分類作業,或是依據文件內容進行貼標註解作業。也因此,在應用情境上,如常見看到的網路爬蟲、挖掘網路聲量數據,進行政治人物、演藝人員的聲量分析、在金融業可以分析黑名單嫌疑人在法遵科技(監理科技;RegTech)應用、而客服部分依據客戶留言進行情緒分析,協助客服人員進行客戶關懷。
以企業而言,內部的大量文件可以透過自動化的方式進行文件內容判斷或擷取摘要,進行標籤與歸檔作業,並可應用在法律業進行LegalTech(法律科技;LawTech)應用。

 

(五)華碩AI研發中心(AICS

華碩AI研發中心成立於2019年一月,其主要核心業務為AI 雲端軟體服務 (SaaS) 為核心,運用自然語言處理、電腦視覺、深度學習、大數據分析,加速醫療資料有效運用並提升醫院營運效能,進而促進精準醫療與精準健康,希望為台灣打造下一個世界級領導產業。.

談及語音辨識技術的錯字率 (Word Error Rate, WER) 排名,Google 可以說是市場的常勝軍,但若以公開的英文資料集 LibriSpeech 來說,華碩AI研發中心基本上可以與Google 並駕齊驅的。另一個更值得留意的是,華碩AI研發中心推出了ICD-10 智能編碼服務。它主要透過 NLP (自然語言處理) 的 AI 模型,閱讀並理解醫院中過去大量的傳統非結構化文字病歷,並整合數值型紀錄等異質資料,從中學習與 ICD-10 編碼之間的對應關係,於實際應用時,則會根據病歷與相關資訊給予推薦編碼,讓醫師和疾病分類師只須從推薦列表中輕鬆點選最合適者即可完成 ICD-10 的編碼。此外,這項服務也提供病歷書寫小幫手的功能,包括錯字檢查、更正推薦、以及打字時推薦字詞透過選取直接輸入,協助提升病歷撰寫的正確性與效率。

 

(六)台智雲

台智雲的全名為台灣智慧雲端服務股份有限公司,成立於2021年,主要是運用臺灣 AI雲TWCC平台服務,推出亞洲第一台服務產業的商用高效運算 AIHPC 超級電腦,以打造AI數位經濟生態系為目標,協助產業快速取得高效益、低門檻的 AI 智慧應用及雲架構解決方案,如提供市場數位研發所需之 AIHPC雲端運算資源,偕同合作夥伴開展 AI on 5G、混合雲、數據資料和區塊鏈等多樣化產業解決方案。

而隨著生成式AI如ChatGPT的興起,台智雲挾其TWCC的算力奧援,推出AI 2.0大算力顧問服務,能為客戶提供一站式服務、專家服務與大型語言模型(LLM)開發服務,加速客戶的解決方案開發速度。一般來說,克服大型語言服務會有幾個門檻,像是客戶本身需要熟悉分布式訓練架構、需要有高算力資源、能夠理解fin-tuning、Prompt tuning等相關技術,以及需要高效能系能AIHPC的環境建置等,這些在台智雲以及TWCC的協助都可以克服。

 

(七)叡揚資訊

叡揚資訊成立於1987年,在台灣可說是歷史頗為悠久的資訊軟體業者,約莫在2013年投入AI領域,持續創新並精進研發技術,累積了許多珍貴經驗證實過的實戰成果,整合AI技術與工作流程,大體上,其研發歷程主要是先從基礎的NLP,如命名實體識別 (Named Entity Recognition,NER)、 關鍵字擷取 (Keyword Extraction) 等技術開始,2018年投入Chatbot領域, 至今,叡揚在NLP、機器學習 (Machine Learning, ML)、深度學習 (Deep Learning)、NLU等領域儲備了豐沛的技術能量和實務經驗。目前叡揚資訊的解決方案已經導入台北市政府的民眾申訴的自動分派系統,以減少不必要的分派人力支出。

另外,叡揚在人工智慧領域已發展出技術詞萃取、自動分類、文件相似度、推薦系統、以文找文、以圖找圖和Chatbot 等成果,例如在公文自動分文上已達到90% 以上的準確率。另外像是以文找文以專利、計畫、論文的落地應用場域即為科技部的「專題研究計畫申請書比對系統」,讓每年約收到2 萬件專題研究計畫,透過AI 技術加值防止抄襲與一稿多投等情況。2020年也推出對話服務平台iota C.ai及企業即時通iota IM,正發進軍Chatbot與企業IM(即時通訊)市場。

四月_ChatGPT探討|ChatGPT帶動的商機與商業模式討論
五月_台灣AIGC研析|從ChatGPT看台灣生成式AI(AIGC)軟體與服務產業發展(下)
—欲索取更多資訊,請點聯繫我們
現在就立刻分享文章