五月_Sora 專題｜OpenAl Sora技術與優勢剖析(下)

發佈於: 2024/05/31|分類: 科技(Technology)|

雖然Sora展現出許多非凡的影片生成能力，但目前仍有些弱點如無法完全模擬複雜場景的物理現象、理解特定因果關係、處理空間細節及準確描述隨時間變化的事件，這可能的原因包括模型在訓練資料中缺乏足夠的這類物理事件的範例、模型無法充分學習和理解這些複雜物理過程的基礎原理、可能在理解和預測物件狀態變化的動態過程方面存有局限性。

它常見如在生成長時間影片時可能會產生不連貫的情節、視頻中可能無緣無故出現物件等問題，前者可能是模型難以在長時間內保持上下文的一致性，後者表示模型對時空連續性的理解上還有待提高。因此目前Sora還無法撼動影視產業，因為每次生成的內容多少有所差異，不可能將120部1分鐘影片串成電影，目前OpenAI還沒有公開發布Sora的原因之一，目前該模型僅提供攻擊模擬團隊（red team）和少數藝術家、設計師及電影製作人使用。未來若開放後對於眾多短影音平台的製作者來說，將是顛覆性的新工具，即使是普通民眾也能利用AI技術生成高品質的短片。

生成式AI不啻是自個人電腦、網際網路誕生以來最具顛覆性的技術創新，根據市場研究機構Omdia預估全球生成式AI市場規模將從2023年的62 億美元成長至2028年的585億美元，年平均複合成長率達56%。所有生成式AI技術中以創造高品質的影像難度最高，預期主要應用於電玩、教育、傳媒、娛樂、電商等行業，相關應用案例如表1所列，Omdia預估其最大商機將在一般大眾最感興趣的娛樂、電玩產業。

表1、影片生成式AI相關行業應用案例

資料來源 : 智璞產業趨勢研究所整理

Sora的出現可謂是影片生成式AI最重大的技術進展，成為建構世界模型的發展基石。然而要能生成長達1分鐘逼真影片的難度非常高，投資機構 Factorial Funds撰文預估Sora是以200億個參數進行訓練，如圖3所示它的推理計算量遠高於GPT-4、LLama 2等自然語言大模型，故該文估計在最大處理量時需要使用72萬顆Nvidia H100 GPU，以每顆價格3.5萬美元計算其建置成本至少252億美元。隨著越來越多廠商投入生成式AI領域而導致技術競爭日益激烈，資金豐厚的指標大廠都持續擴大算力資源以開發性能更強大的生成式AI模型，帶動AI處理器晶片需求暴增，成為當前半導體產業發展的重要驅動力。另外要生成長達1分鐘逼真影片，勢必會有資料傳輸的硬需求。其資料流量可能將在未來數年內呈現指數型成長，在交換器規格持續往400G、800G甚至1.6T等高速系統遷徙的此刻，對於光通訊元件的需求亦水漲船高，為光通訊族群的成長性帶來想像空間。若以一個較「直覺」的推論，Sora上線後所可能帶來的資料流量需求，不僅在於高解析度影片的「觀賞」需求，而是影音工作者使用Sora提升工作流程時，更需把影片下載至地端(client)，在編輯、做出最終產品後再上傳至雲端平台供一般消費者觀賞使用，一來一往間，更進一步拉高了對於資料傳輸的需求。目前業界共識的解決方案是矽光子+共同封裝光學(CPO)，我們在2023年的10月專題有做過相關技術的介紹，我們將在下一期的報告對市場/技術現況做更新。

圖3、各模型每單位輸出的推理計算量比較