2025-04-01 0

文 / 謝璦竹　圖片提供 / 沈品勳
AI圖片生成 / 江玉涵

AI製作影片的時代來臨了！從腳本撰寫、演員演出，到製作動畫、特效與剪輯，AI都可以代勞，未來人人都可以極低的成本製作影片、甚至電影。關注AI影片發展的業內人士說，得利最大的將是文科生。

舉例來說，或許你在臉書（Facebook）上也曾被推播，看到下面這支短影片廣告：一列行進中的交通工具，正要穿越隧道，影片中的配樂很寧靜，螢幕上的文字叫我們專注隧道的盡頭，慢慢呼吸…。

不只短影音，就連電影也開始嘗試用AI製作。去（2024）年，威尼斯影展就邀請義大利數位諮詢業者Reply主辦國際AI電影節（Reply AI Film Festival），在59國逾千部作品中，中國大陸青年女導演童畫製作的動畫《致親愛的自己》脫穎而出，獲得首屆威尼斯AI生成短片第一名。

去（2024）年威尼斯國際AI電影節首獎作品「致親愛的自己」。（圖片來源：網路截圖）

AI電影時代將到來

繼OpenAI的文字轉影片工具Sora問市後，在中國大陸，AI影片工具可靈Kling AI、海螺等也備受矚目。

「AI的發展太快了，隨時都有新產品、新工具！」利用AI科技進行半導體前端量測的奈視科技技術長張開昊說。以文生影片來說，除了Open AI（Chat GPT所屬公司）的Sora，DeepSeek的幻方量化也有Janus Pro，騰訊科技則有混元Video等。

利用大語言模型（LLM）的生成式AI，之所以呈現百花齊放的盛況，張開昊說，包括DeepSeek在內的許多生成式AI，是利用臉書已初步預訓練的Llama，或阿里巴巴的通義千問Qwen等開源模型，來進行微調，因此節省不少算力，而DeepSeek本身也採用開源模型，將加速後續AI發展。

AI是怎樣做到文生圖、文生影片的呢？文生圖的原理，主要是透過Diffusion（擴散）模型生成圖片。早期AI生圖是用Gan（對抗式）模型找出最佳解，也就是輸入一張圖，然後給予人工鑑別，經過反覆修正後，AI習得最佳解。

而擴散模型的訓練過程是輸入一張圖，接著依照馬可夫鏈的過程，以高斯分布的方式，往圖片上加入隨機的噪點，直到整張圖片變成一團雜訊。透過不斷將完整圖片「擴散」成雜訊的訓練過程，最後AI會習得自行生成圖片的能力。舉例來說，看到兩點一線，就會視作是人類的眼睛和嘴巴。

從圖片變成影片，則要進一步用Diffusion transformer（擴散轉換器）。如果直接將許多圖片作為影格連結成影片，會顯得不流暢。正如Chat GPT利用文字接龍來找關聯性，理解的基本單位是token（類似單辭的文字語意），在Sora中則是用patch（包含時間的4D立體拼圖）作為單位，可簡單理解為用圖片接龍。

和Chat GPT一樣，Sora也是模擬人類認知處理過程，即提取特徵，編碼（形成意義），然後組合成長期記憶。張開昊解釋，AI首先會將影像切成等大的許多區塊後，進行編碼、壓縮，產生patch，轉換器就可以透過矩陣計算這些patch間的關聯性，生成影片，舉例來說，組合成海浪的流動方向。

AI工具使用人性化，不少都有免費額度，我們一般人該如何善用AI製作影片呢？