文 / 謝璦竹 圖片提供 / 沈品勳
AI圖片生成 / 江玉涵
AI製作影片的時代來臨了!從腳本撰寫、演員演出,到製作動畫、特效與剪輯,AI都可以代勞,未來人人都可以極低的成本製作影片、甚至電影。關注AI影片發展的業內人士說,得利最大的將是文科生。
舉例來說,或許你在臉書(Facebook)上也曾被推播,看到下面這支短影片廣告:一列行進中的交通工具,正要穿越隧道,影片中的配樂很寧靜,螢幕上的文字叫我們專注隧道的盡頭,慢慢呼吸…。
不只短影音,就連電影也開始嘗試用AI製作。去(2024)年,威尼斯影展就邀請義大利數位諮詢業者Reply主辦國際AI電影節(Reply AI Film Festival),在59國逾千部作品中,中國大陸青年女導演童畫製作的動畫《致親愛的自己》脫穎而出,獲得首屆威尼斯AI生成短片第一名。
AI電影時代將到來
繼OpenAI的文字轉影片工具Sora問市後,在中國大陸,AI影片工具可靈Kling AI、海螺等也備受矚目。
「AI的發展太快了,隨時都有新產品、新工具!」利用AI科技進行半導體前端量測的奈視科技技術長張開昊說。以文生影片來說,除了Open AI(Chat GPT所屬公司)的Sora,DeepSeek的幻方量化也有Janus Pro,騰訊科技則有混元Video等。
利用大語言模型(LLM)的生成式AI,之所以呈現百花齊放的盛況,張開昊說,包括DeepSeek在內的許多生成式AI,是利用臉書已初步預訓練的Llama,或阿里巴巴的通義千問Qwen等開源模型,來進行微調,因此節省不少算力,而DeepSeek本身也採用開源模型,將加速後續AI發展。
AI是怎樣做到文生圖、文生影片的呢?文生圖的原理,主要是透過Diffusion(擴散)模型生成圖片。早期AI生圖是用Gan(對抗式)模型找出最佳解,也就是輸入一張圖,然後給予人工鑑別,經過反覆修正後,AI習得最佳解。
而擴散模型的訓練過程是輸入一張圖,接著依照馬可夫鏈的過程,以高斯分布的方式,往圖片上加入隨機的噪點,直到整張圖片變成一團雜訊。透過不斷將完整圖片「擴散」成雜訊的訓練過程,最後AI會習得自行生成圖片的能力。舉例來說,看到兩點一線,就會視作是人類的眼睛和嘴巴。
從圖片變成影片,則要進一步用Diffusion transformer(擴散轉換器)。如果直接將許多圖片作為影格連結成影片,會顯得不流暢。正如Chat GPT利用文字接龍來找關聯性,理解的基本單位是token(類似單辭的文字語意),在Sora中則是用patch(包含時間的4D立體拼圖)作為單位,可簡單理解為用圖片接龍。
和Chat GPT一樣,Sora也是模擬人類認知處理過程,即提取特徵,編碼(形成意義),然後組合成長期記憶。張開昊解釋,AI首先會將影像切成等大的許多區塊後,進行編碼、壓縮,產生patch,轉換器就可以透過矩陣計算這些patch間的關聯性,生成影片,舉例來說,組合成海浪的流動方向。
AI工具使用人性化,不少都有免費額度,我們一般人該如何善用AI製作影片呢?
人人都可以製作AI影片
健康AI業者Lydia ai公司新事業發展部協理沈品勳有約6年的AI從業經驗,本身也常利用AI工具製作短影音,他從腳本撰寫到最後的剪接製作,為本刊示範。他說,過去,文科生薪資成長較不理想,AI工具時代對他們是大好消息。
「文科生有了AI工具,工作表現就能大大加分,甚至製作的產品成為平台,有好的商業模式就可以變現。」他說。
在他製作的《一分鐘了解市場開發》宣傳短影片中,貓咪菜鳥業務員阿明是社會新鮮人,經常被客戶拒絕,營收的壓力很大,常常自我懷疑人生。某天他夢見大貓仙人,仙人向他透露做好市場開發的訣竅,除了客戶與市場分析、產品介紹與談判技巧外,還需要鍛鍊強大的心智,才能實現。
阿明經過仙人指點能力大增,連心儀已久的女同事都用崇拜的眼神看著他。他一直想要再見仙人一面,依稀記得,仙人叫他要前往一個地方…。
第一、腳本生成
沈品勳說明,製作影片可分為腳本、影像、音頻與特效4大部分。腳本又包括腳本撰寫、人物造型及台詞設計3部分。他推薦Chat GPT與Claude AI這兩款工具。前者相較下腦洞大開,比較天馬行空,後者則能提供更多專業方面的細節,例如法律戰的劇本。右頁是兩個工具的指令與生成的部分內容。
第二、影像生成
接著是創作角色造型。他推薦Leonardo AI,優點是繪圖精美,風格一致性高,但缺點是該工具目前只能用英文輸入指令,這部分他建議可以先用Chat GPT進行翻譯。
另外,他也推薦如Google Lab的ImageFX,尤其如果是創造真正的人角色,幾乎可以有照片的感觸。唯一的缺點是最近該工具被要求才能使用,如果執行從未註冊,可能要等待之後的方案。
第三、音頻生成
接著是把人物造型套入,轉出成影片,這時他選擇的是Runway,據了解,連《媽的多重宇宙》都曾使用該工具。
為影片配音及配樂,他推薦微軟Azure的Speech Studio,需先登入Azure註冊訂用,優點是免費額度超高,還有繁體字與簡體字兩種不同版本的中文口音。配樂可利用Google的MusicFX自動編曲,只要輸入想要的曲風作為指令,省卻購買音樂版權的麻煩。
第四、特效與剪輯
最後是剪輯與加入字幕、特效等。他推薦使用剪映,可以自動生成字幕。將影片、聲優與音樂都輸入後,可以一鍵生成影片。其中可能會用到一些需付費的模板,可自由選擇要不要使用。
AI影片如此便利,不肖分子也大量運用深偽技術行騙,不管是臉還是聲音,都真假莫辨。沈品勳也提供一些常用的簡易分辨技巧。舉例來說,手部是最容易分辨的地方,AI影片的手往往會出現扭曲、甚至多一根手指的情形(見下圖)。


































