五月_Sora 專題|OpenAl Sora技術與優勢剖析(上)

發佈於: 2024/05/31|分類: 科技(Technology)|

2024年2月15日OpenAI宣布推出能產生長達1分鐘流暢且逼真影片的Sora,為影片生成式AI技術發展開創新里程碑。根據該公司報告指出Sora以時空區塊(Spacetime Patches)和Diffusion Transformer為核心技術,利用Diffusion的生成能力和Transformers的自注意力機制,透過預測乾淨區塊的方式生成影片內容,再以Transformers處理時空區塊。

如圖2所示,Sora的影片生成係由Visual Encoder、Diffusion Transformer、Transformer Decoder等三個步驟構成,首先將原始影片壓縮為低維潛在空間,再分解成時空區塊以利Transformer處理,接著利用Diffusion Transformer混合架構將時空區塊融合文本條件化,先後經過加噪和去噪程序達到可解碼狀態。最後將去噪後的低維潛在表示映射回圖元空間,運用類似CLIP的智慧條件設置機制以創造出具有特定風格或主題的影片。OpenAI認為以往將影片修剪為標準尺寸的方式會減損生成品質,經過區塊化後的Sora無需裁剪資料就能夠對不同解析度、持續時間和長寬比的原始影片資料進行訓練,既能確保生成高品質影片又顯著提升模型性能,並節省訓練與推理的算力成本。

圖2、Sora 運作模式示意圖

資料來源 : OpenAI

Sora具備的技術特點詳述如下 :

  • 原始尺寸上訓練和生成影片 : 一般影像生成工具的訓練方法通常會調整視覺資料的大小或寬高比以適應統一標準,Sora利用Diffusion Transformer混合架構而能在視覺資料的原始尺寸上進行訓練,使其能生成各種尺寸的影片。
  • 統一視覺資料 : 為了有效處理輸入的多樣化視覺資料,Sora透過將原始影片壓縮到較低維度的潛在空間再分解為時空區塊以統一資料格式。區塊為Sora的基本單元,它遵循GPT4訓練模式處理一系列區塊並進行預測。
  • 視訊壓縮網路 : Sora利用VAE編碼器建置影片壓縮網路以降低輸入資料的維度,透過潛在Diffusion訓練壓縮網路及解碼器,藉此高效率壓縮大量圖塊以便於管理海量資料。
  • 潛在時空區塊 : 為了處理來自不同影片類型的潛在區塊數量,Sora借鏡Google的NaViT架構中Patch n’Pack的方法,允許從不同影片中提取多個區塊再包裹在單一序列中以達到可變解析度並保持一定寬高比。

Sora相較於其他AI生成影片工具的優勢包括 :

  • 60秒超長視頻 : 如Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video等絕大部分AI生成影片工具僅能產生6秒以下作品,Sora直接將時長提升到10倍,大幅領先其他業者。
  • 自由尺寸影片生成 : Sora能夠生成從橫屏到豎屏等各種尺寸的影片,可滿足不同平台和觀看體驗的需求,這比先前限定長寬比的影片生成工具提供更高的靈活度,使創作更加自由。
  • 前後擴展視頻能力 : 不同於以往只能向前擴展的限制,Sora可以向前或向後擴展,甚至可創建無限連續循環的影片,大大豐富其敘事結構和創意表達。
  • 多視頻無縫連接 : Sora可以將兩個完全不同影片融合成毫無違和感的新影像,例如無人機穿越變成蝴蝶飛行,這種獨特功能提供無限的創意發想空間。
  • 真實物理世界模擬 : Sora展現出生成高度擬真物理世界影片的能力,不僅體現技術的進步,也為創作者提供更逼真的創意表現工具。
  • 時間一致性與動作模擬 : Sora能夠在生成的視頻中保持時間一致性,即使在面對複雜的動作和場景變換時也能確保人物與物體之連貫性。此外,它還能模擬如留下咬痕之簡單動作的影響,進一步增強影片的真實感。
  • 逼真的鏡頭運動 : Runway、Pika等生成工具需要使用額外的參數以實現鏡頭運動,Sora可以直接列理解文本中有關鏡頭運動之提示,能在影片中使用多種鏡頭運動。
  • 連貫一致的影片內容 : Sora 生成的影片能隨時增加人物及場景元素,且仍可保持原有的狀態而不會扭曲變形,所以前後連貫性非常好。即使元素被遮擋或者短暫離開畫面依舊能在後續準確呈現物件的相關特徵。

 

由於Sora具備上述諸多優勢,預計將對影視製作帶來四項變革 :

  • 提升創作效率: 傳統影視製作通常需要投入大量的人力和金錢,Sora的出現將大大提高影視內容的生成效率以降低製作成本,讓更多人參與視頻創作。
  • 創意更為多樣: Sora的靈活性和創造力為影視創作帶來更多可能性,創作者可以藉此探索更加豐富多樣的創意表達方式,擴大視頻內容的創作領域。
  • 滿足客制需求:依據用戶輸入的描述或草圖,Sora能夠生成符合其想要或要求的影視內容,為個人使用者、企業品牌等提供定制化的影片製作服務。
  • 增進創業機會與新的商機: Sora為創業者提供新商機,可基於其技術開發相關的影片創作工具、平台或服務以滿足市場需求,發掘影視行業的新商業模式和商機。
五月_Sora 專題|視覺生成式AI技術與應用發展概況解析(下)
五月_Sora 專題|OpenAl Sora技術與優勢剖析(下)
—欲索取更多資訊,請點聯繫我們
現在就立刻分享文章