AI影片工具百花齊放 文科生時代來臨

AI影片工具百花齊放 文科生時代來臨

文 / 謝璦竹 圖片提供 / 沈品勳
AI圖片生成 / 江玉涵

AI製作影片的時代來臨了!從腳本撰寫、演員演出,到製作動畫、特效與剪輯,AI都可以代勞,未來人人都可以極低的成本製作影片、甚至電影。關注AI影片發展的業內人士說,得利最大的將是文科生。

舉例來說,或許你在臉書(Facebook)上也曾被推播,看到下面這支短影片廣告:一列行進中的交通工具,正要穿越隧道,影片中的配樂很寧靜,螢幕上的文字叫我們專注隧道的盡頭,慢慢呼吸…。

不只短影音,就連電影也開始嘗試用AI製作。去(2024)年,威尼斯影展就邀請義大利數位諮詢業者Reply主辦國際AI電影節(Reply AI Film Festival),在59國逾千部作品中,中國大陸青年女導演童畫製作的動畫《致親愛的自己》脫穎而出,獲得首屆威尼斯AI生成短片第一名。

241社會與環境:AI影片工具百花齊放

去(2024)年威尼斯國際AI電影節首獎作品「致親愛的自己」。(圖片來源:網路截圖)

AI電影時代將到來

繼OpenAI的文字轉影片工具Sora問市後,在中國大陸,AI影片工具可靈Kling AI、海螺等也備受矚目。

「AI的發展太快了,隨時都有新產品、新工具!」利用AI科技進行半導體前端量測的奈視科技技術長張開昊說。以文生影片來說,除了Open AI(Chat GPT所屬公司)的Sora,DeepSeek的幻方量化也有Janus Pro,騰訊科技則有混元Video等。

利用大語言模型(LLM)的生成式AI,之所以呈現百花齊放的盛況,張開昊說,包括DeepSeek在內的許多生成式AI,是利用臉書已初步預訓練的Llama,或阿里巴巴的通義千問Qwen等開源模型,來進行微調,因此節省不少算力,而DeepSeek本身也採用開源模型,將加速後續AI發展。

AI是怎樣做到文生圖、文生影片的呢?文生圖的原理,主要是透過Diffusion(擴散)模型生成圖片。早期AI生圖是用Gan(對抗式)模型找出最佳解,也就是輸入一張圖,然後給予人工鑑別,經過反覆修正後,AI習得最佳解。

而擴散模型的訓練過程是輸入一張圖,接著依照馬可夫鏈的過程,以高斯分布的方式,往圖片上加入隨機的噪點,直到整張圖片變成一團雜訊。透過不斷將完整圖片「擴散」成雜訊的訓練過程,最後AI會習得自行生成圖片的能力。舉例來說,看到兩點一線,就會視作是人類的眼睛和嘴巴。

從圖片變成影片,則要進一步用Diffusion transformer(擴散轉換器)。如果直接將許多圖片作為影格連結成影片,會顯得不流暢。正如Chat GPT利用文字接龍來找關聯性,理解的基本單位是token(類似單辭的文字語意),在Sora中則是用patch(包含時間的4D立體拼圖)作為單位,可簡單理解為用圖片接龍。

和Chat GPT一樣,Sora也是模擬人類認知處理過程,即提取特徵,編碼(形成意義),然後組合成長期記憶。張開昊解釋,AI首先會將影像切成等大的許多區塊後,進行編碼、壓縮,產生patch,轉換器就可以透過矩陣計算這些patch間的關聯性,生成影片,舉例來說,組合成海浪的流動方向。



訂閱數位電子雜誌  暢讀精彩全文 

  √禪天下官網雜誌全閱讀
√每月新增3-5篇文章可「線上聽禪」
√每月簡訊通知當期電子雜誌連結
 

  會員登入   前往訂閱 


 

收藏本篇文章
Please login to bookmarkClose

No account yet? Register

分享給更多朋友:

您的電子郵件地址不會被公開*