一、從 “哇塞” 到 “心累”,初期體驗的確很震撼
SEO小平抱著 “當數字導演” 的期待點開 Sora 2,第一支隨機生成的視頻就讓我驚掉下巴:OpenAI的山姆奧特曼的中文普通話對話和口型嚴絲合縫,窗外雨聲混著杯碟碰撞聲,細節逼真到能看見玻璃上的水霧。那時候我覺得,這 AI 視頻簡直是魔法。

人物在視頻從頭到尾的人臉一致性,行走,運動的邏輯性都是很合理的。這個是值得表揚的。
但是,整個視頻要表達的意圖,就差點意思了。
直到我想復刻腦海里的場景 ——“一個工廠的外貿業務員從工廠大門往辦公室走,鏡頭要跟隨這個外貿業務員一起運鏡到公司前臺,前臺有xxxx公司的公司形象墻..... ”。 這是我們外貿工廠通常的公司介紹的拍攝手法,結果試了6個視頻,越搞越離譜。心累。
刪掉視頻時指尖都帶著火氣:明明描述得很清楚,怎么就成了 “四不像”?
通常這種情況我們認為是“AI幻覺” ,問題在于我們的提示詞不夠精細,我都有豆包AI和Gemini 還有ChatGPT 三種AI工具寫了系統的提示詞了,提示詞非常詳細,為了10秒鐘的視頻,每次提示詞的上下文長度都是1500字到2009字的系統提示詞。
結果還不行,生成的視頻和預想的相差甚遠,根本不敢拿來發布。

二、AI 的 “盲盒體質”,藏著技術的無奈
浪費了兩天時間小小的總結一下,才發現問題不在 AI “笨”,而在我不懂它的 “邏輯”。
和生產圖片的AI工具一樣,Sora 2 的核心技術是潛在擴散模型,本質是從隨機噪點里 “猜” 出符合指令的畫面。就像讓畫師閉著眼畫肖像,沒明確要求時,隨便畫張五官端正的臉都算成功;可一旦指定 “丹鳳眼、白衣飄飄、回眸一笑的嬌羞女子”,任何細節偏差都會讓人失望。
更關鍵的是,為了降低計算成本,AI 會在 “壓縮空間” 里工作,這必然會丟失細節信息。圖片生成丟點細節或許能忍,但視頻里 “公司的形象墻變透明” “電腦屏幕有詭異的光影”,這些違背現實邏輯的 “幻覺”,恰恰戳破了我們對視頻真實性的高期待。
最后想說:AI 是 “合伙人”,不是 “代筆”
其實和我們使用AI工具寫文章一樣,AI不能一步到位做出成品。但是AI寫的文章的話,文字我們還可以做出部分修改,把我們要的觀點,直接寫入文章之中。視頻AI生成的話,沒辦法修改中間部分,只能重新生成一個新的視頻,挺浪費時間的。所以現階段我還是認為自己來拍攝視頻的話更能準確表達我們的意圖,更節省時間。AI的確是快,而且節省金錢成本,但是總是“天馬行空”生成一堆“意圖表達不準確的視頻”,這樣的視頻根本不能做商業拍攝使用。
現在再看 Sora 2 生成的視頻,我不再期待它 “完美復刻想象”。就像當年攝影師剛出現時,畫家沒覺得被替代 —— 工具永遠是放大創造力的武器,而非創造力本身。
文章為作者獨立觀點,不代表DLZ123立場。如有侵權,請聯系我們。( 版權為作者所有,如需轉載,請聯系作者 )
網站運營至今,離不開小伙伴們的支持。 為了給小伙伴們提供一個互相交流的平臺和資源的對接,特地開通了獨立站交流群。
群里有不少運營大神,不時會分享一些運營技巧,更有一些資源收藏愛好者不時分享一些優質的學習資料。
現在可以掃碼進群,備注【加群】。 ( 群完全免費,不廣告不賣課!)
