Gemini Omni Prompt 教學:Google DeepMind 官方指南教你寫 AI 影片提示詞

Gemini Omni Prompt 教學:Google DeepMind 官方指南教你寫 AI 影片提示詞

AI 影片生成開始進入一個新階段。

以前我們寫 AI 影片 Prompt,很多時候只是描述畫面:

生成一段未來城市的影片。
生成一段機械人在街上行走的影片。
生成一段產品宣傳短片。

這種寫法不是錯,但通常不夠穩定。因為 AI 並不知道你想要甚麼鏡頭、甚麼光線、甚麼節奏、甚麼風格,也不知道畫面中的角色或物件應該如何移動。

Google DeepMind 發布的 Gemini Omni Prompt Guide,正正帶出了一個重要轉變:AI 影片 Prompt 不再只是「描述畫面」,而是開始變成一種「導演式提示詞」。你不只是告訴 AI 畫面有甚麼,而是要告訴它這段影片應該如何被拍出來。


Gemini Omni 是甚麼?

Gemini Omni 是 Google DeepMind 旗下 Gemini 系列中的多模態創作方向,官方定位是 Create anything from anything。在這份 Prompt Guide 入面,Google DeepMind 示範了如何用文字、圖片、影片、聲音、storyboard 等不同輸入,去生成、修改和控制影片內容。

換句話說,Gemini Omni 的重點不只是「由文字生成影片」,而是讓用戶可以透過不同媒體作為參考,逐步建立自己想要的影片結果。

這亦代表未來的 AI 影片創作,可能不再是一次過寫一大段 prompt 然後等待結果,而是更接近一個創作流程:

  1. 先建立基本畫面
  2. 再調整鏡頭
  3. 再修改動作
  4. 再加入文字
  5. 再套用風格
  6. 再用 reference 保持角色、物件或場景一致

這種方式,對內容創作者、老師、品牌行銷、短片製作者,甚至企業培訓內容設計,都會非常重要。


寫 Gemini Omni Prompt 前,要先諗五個元素

Gemini Omni Prompt 五大元素:鏡頭、風格、燈光、場景、動作

Google DeepMind 在官方指南中提到,寫 Gemini Omni Prompt 時,可以混合考慮幾個重要元素,包括 shot framing and motion、style、lighting、location 和 action。簡單來說,你寫得越有方向,對最終輸出就越有控制。

這些元素其實可以理解成一套 AI 影片 Prompt 的基本檢查表。

Prompt 元素實際意思寫 Prompt 時可以問自己
Shot framing and motion鏡頭構圖與移動是 wide shot、medium shot 還是 close-up?鏡頭要慢慢推近、平移,還是突然拉遠?
Style影片風格想要寫實、電影感、動畫風、廣告感,還是紀錄片感?
Lighting燈光光源從哪裡來?是日光、街燈、暖光、冷光,還是舞台光?
Location場景影片發生在城市、室內、森林、太空、課室,還是產品展示場景?
Action動作與互動主體正在做甚麼?角色、物件和環境之間如何互動?

這裡最重要的觀念是:

寫 AI 影片 Prompt 時,不應只問「畫面有甚麼」,而要問「這段影片應該如何被拍出來」。

例如,你不應只寫:

A robot walking in a city.

更好的做法是思考:

  • 鏡頭是近鏡還是遠鏡?
  • 機械人走得快還是慢?
  • 城市是白天還是夜晚?
  • 燈光是自然光還是霓虹燈?
  • 畫面感覺是科幻、可愛、寫實,還是電影感?

這些元素加起來,才會令 AI 更清楚理解你想要的影片方向。


普通 Prompt vs 導演式 Prompt

普通 Prompt vs 導演式 Prompt 對比圖

很多人生成 AI 影片時,最大問題不是 prompt 不夠長,而是 prompt 沒有「拍攝方向」。

例如以下這個 prompt:

Create a video of a robot walking in a city.

這句 prompt 很簡單,但問題是它沒有交代:

  • 用甚麼鏡頭?
  • 在甚麼時間?
  • 城市是甚麼風格?
  • 光線是怎樣?
  • 機械人如何移動?
  • 影片有甚麼情緒?
  • 畫面節奏是快還是慢?

所以 AI 可能會生成一段「表面正確,但不夠精準」的影片。

如果改成導演式 Prompt,可以這樣寫:

Create a cinematic medium shot of a small robot walking through a rainy neon city at night. The camera slowly pushes in as reflections shimmer on the wet street. Use warm streetlight, soft fog, and a slightly melancholic sci-fi atmosphere.

這個 prompt 比較好,原因不是因為它更長,而是它更有方向。

它清楚交代了:

  • cinematic medium shot:電影感中景
  • rainy neon city at night:雨夜霓虹城市
  • camera slowly pushes in:鏡頭慢慢推近
  • reflections shimmer on the wet street:濕地反光
  • warm streetlight and soft fog:暖色街燈和柔和霧氣
  • melancholic sci-fi atmosphere:帶點憂鬱的科幻氛圍

這就是「導演式提示詞」的核心:
不是單純描述物件,而是控制畫面如何被拍攝、如何移動、如何呈現情緒。


不要一次過寫完:用自然語言逐步修改影片

Gemini Omni Prompt Guide 另一個重要重點,是用戶可以透過自然語言逐步修改影片,而不一定要每次重新寫完整 prompt。

Google DeepMind 在頁面中形容 Gemini Omni 可以像 Nano Banana,但用於影片;用戶可以在任何步驟用自然語言建立和微調創作。官方例子包括將蝴蝶改成蜜蜂,再把蜜蜂改成一小群螢火蟲。

這點非常重要。

因為很多人使用 AI 影片工具時,會一開始就把所有要求塞進一段超長 prompt:

我要一段 10 秒影片,主角是小朋友,背景是未來課室,要有 AI 機械人,要有字幕,要有品牌色,要有鏡頭移動,要有溫暖燈光,要有科技感,要適合社交媒體……

這種寫法看似完整,但實際上反而容易令 AI 失焦。

更好的方法是採用分步式 workflow:

  1. 先生成基本畫面
  2. 再修改主體
  3. 再修改背景
  4. 再調整鏡頭角度
  5. 再修改動作
  6. 再加入文字
  7. 最後微調整體風格

例如:

第一步:建立基本畫面

Create a cinematic video of a young student using an AI learning assistant in a modern classroom.

第二步:調整背景

Change the classroom into a warm, futuristic learning space with soft lighting and interactive screens.

第三步:調整鏡頭

Change the camera angle to a slow push-in medium shot focusing on the student’s expression.

第四步:加入文字

Add the text “Learning with AI” at the bottom of the screen with a clean animated style.

這種方式比一次過寫超長 prompt 更容易控制結果。因為你可以逐步保留好的部分,只修改不理想的部分。


Gemini Omni 可以改鏡頭、改動作、改節奏

Gemini Omni Prompt Guide 亦提到,用戶可以透過自然語言改變 camera angle、point of view 和 movement,例如改變鏡頭角度,或者指定鏡頭從近景快速上移到中景,再拉闊畫面。官方亦示範了修改動作與動畫,例如讓建築物燈光跟音樂節奏同步。

這代表 AI 影片 Prompt 不只是控制「畫面有甚麼」,而是可以控制「畫面如何發生」。

你可以要求 AI 調整:

  • 鏡頭角度
  • 鏡頭移動
  • 視角
  • 主體動作
  • 物件互動
  • 動畫節奏
  • 音樂與畫面的同步感

例如:

Change the camera angle to an over-the-shoulder view.

Use one continuous shot with a slow push-in camera movement.

Make the lights turn on in sync with the music.

Change the camera angle to a close-up on the shoes, quickly tilting up to a medium shot, then widening.

這些 prompt 的重點不是增加形容詞,而是給予明確的拍攝指令。

如果你本身有拍片、剪片、做廣告、做社交媒體內容,這個思維會特別有用。因為 AI 影片生成不再只是「隨機出靚畫面」,而是逐漸接近真正的鏡頭設計。


文字生成不只是「放字」,而是配合畫面節奏

對內容創作者來說,AI 影片生成其中一個很實際的問題,就是文字。

很多 AI 生成工具可以生成漂亮畫面,但一到文字、標題、字幕、CTA,就容易出現錯字、亂碼,或者畫面與文字節奏不一致。

Gemini Omni Prompt Guide 特別提到 Text rendering。官方指出,用戶可以選擇文字類型、位置、動畫和曝光方式,而 Gemini Omni 不只是更準確地生成文字,也可以讓文字與視覺同步。

這對短片創作很重要。

因為很多影片不是只有畫面漂亮就足夠,還要做到:

  • 標題清楚
  • 字幕可讀
  • 關鍵字逐步出現
  • 文字動畫有節奏
  • CTA 明確
  • 畫面與文字同步

例如一段社交媒體短片,可以這樣寫:

Show the phrase “AI Video Prompting” word by word, with each word appearing in sync with the beat.

或者:

Display the text “From Prompt to Video” in the center of the screen, then animate each word upward with a clean modern motion graphic style.

這種寫法比單純說「加字幕」更清楚,因為你講明了文字內容、出現方式、位置、節奏和視覺風格。


Gemini Omni 可以運用世界知識,不一定要過度解釋

Gemini Omni Prompt Guide 另一個值得留意的方向,是它強調模型可以運用歷史、科學、文化等世界知識,令輸出看起來更真實、更合理。官方亦提到,相比 Veo 需要更精準的指令,Gemini Omni 可以讓用戶不用那麼 prescriptive,而是直接說出想創造甚麼,再由模型的推理與世界知識補足細節。

這個方向很值得留意。

過去很多人學 AI Prompt,會覺得 prompt 一定要越詳細越好。當然,細節仍然重要,但如果模型本身有更強的世界理解能力,prompt 的重點就不只是「列出所有細節」,而是要講清楚:

  • 你想創造甚麼
  • 這段影片的用途是甚麼
  • 觀眾是誰
  • 風格應該如何
  • 畫面要帶出甚麼感覺
  • 哪些地方必須保持一致

例如,如果你想生成一段教育短片,不一定要逐格描述每個畫面。你可以先給一個清楚的創作目標:

Explain the difference between regular computing and quantum computing using a contemporary flat-media animation style.

然後再逐步要求它調整畫面、文字、節奏和例子。

這種方式更接近「向 AI 說明創作目的」,而不是單純「命令 AI 畫某些東西」。


Reference Anything:用圖片、影片、文字、聲音控制結果

Reference Anything:多模態素材控制 AI 影片

Gemini Omni Prompt Guide 最值得留意的部分之一,是 Reference anything

Google DeepMind 指出,用戶可以 reference 不同類型的媒體,並把 images、videos、text 和 audio 等多種輸入組合成一個 scene。官方亦提到可以 apply new styles、add a storyboard,以及透過 reference 保持角色、物件或環境一致。

這其實是 AI 影片創作非常關鍵的一步。

因為如果只有文字 prompt,AI 每次生成的畫面可能都會有變化。但如果你可以加入 reference,就能更容易控制:

  • 人物是否一致
  • 產品是否一致
  • 品牌視覺是否一致
  • 場景是否一致
  • 動作是否跟原片相似
  • 影片節奏是否配合音樂

實際應用可以包括:

1. 用產品圖生成宣傳影片

你可以上載產品圖,再要求 Gemini Omni 生成一段產品展示短片,例如:

Use the uploaded product image as the main reference. Create a premium lifestyle video showing the product on a modern desk with soft morning light.

2. 用人物圖保持角色一致

如果你要生成品牌角色、教學角色、動畫人物,就可以用 reference 保持外觀一致。

Use the uploaded character image as reference. Keep the character’s facial features, outfit, and overall style consistent throughout the video.

3. 用 storyboard 控制影片起承轉合

如果你已經知道短片每個畫面要講甚麼,可以先做 storyboard,再叫 Gemini Omni 跟住順序生成。

Follow the uploaded storyboard exactly from top left to bottom right. Create the full story in 10 seconds with a cinematic style.

4. 用音樂控制畫面節奏

如果影片要配合音樂或節拍,就可以加入 audio reference。

Make the lighting and motion effects move in sync with the rhythm of the uploaded audio.

5. 用參考影片保留動作,再套用新風格

例如保留原本動作,但改成 anime、claymation、watercolour 或其他視覺風格。官方指南亦示範了將影片 reference 套用不同風格的做法。

這對品牌影片、社交媒體內容、教育短片、產品展示、活動宣傳都非常有用。


一個實用的 Gemini Omni Prompt Template

如果你不知道怎樣開始,可以用以下模板。

這個模板不是要你每次全部填滿,而是幫你檢查自己有沒有交代影片創作最重要的幾個部分。

Create a [style] video of [main subject] in [location].

Shot:
Use a [wide / medium / close-up] shot with [camera movement].

Lighting:
Use [lighting style] to create a [mood] atmosphere.

Action:
The subject is [specific action], while [secondary action or interaction].

Text:
Show the text “[text]” at [position], with [animation style].

Reference:
Use the uploaded [image / video / audio / storyboard] as reference for [character / style / motion / rhythm].

Keep:
Maintain consistency in [character / object / brand / environment].

例如,如果你想生成一段 AI 教育短片,可以這樣寫:

Create a cinematic educational video of a student learning with an AI assistant in a modern classroom.

Shot:
Use a medium shot with a slow push-in camera movement focusing on the student’s expression.

Lighting:
Use warm soft lighting to create an inspiring and friendly atmosphere.

Action:
The student is interacting with a floating AI interface, while simple visual icons appear around the screen.

Text:
Show the text “Learn with AI” at the bottom center, with a clean animated style.

Reference:
Use the uploaded classroom image as reference for the environment and mood.

Keep:
Maintain consistency in the classroom style, lighting, and student character throughout the video.

這種 prompt 的好處是,它不只是描述畫面,而是同時交代了鏡頭、燈光、動作、文字、參考素材和一致性要求。


Gemini Omni Prompt 的真正重點:由描述畫面,變成控制創作流程

Gemini Omni Prompt Guide 帶出的最大啟示,不只是「AI 又可以生成更厲害的影片」。

真正重要的是:AI 影片創作的 prompt 思維正在改變。

以前,我們寫 prompt 很多時候只是描述畫面:

我想要一段某某場景的影片。

但之後,更有效的寫法會是:

我想要一段怎樣拍出來的影片?
鏡頭如何移動?
光線如何營造氣氛?
主體如何行動?
文字如何出現?
哪些 reference 要保持一致?
哪些地方可以逐步修改?

這就是「導演式 Prompt」的核心。

未來懂得使用 AI 影片工具的人,不一定是最會堆砌形容詞的人,而是最懂得拆解創作流程的人。

你要懂得:

  • 設計鏡頭
  • 控制風格
  • 指定動作
  • 使用 reference
  • 保持一致性
  • 分步修改結果
  • 讓文字、畫面和節奏配合

對內容創作者來說,這是一個很大的機會。因為 AI 影片工具不只是幫你生成畫面,而是逐步變成一個可以共同創作、修改和控制的視覺製作夥伴。


小結

如果要用一句話總結 Gemini Omni Prompt Guide,我會這樣說:

AI 影片 Prompt 不再只是「寫你想見到甚麼」,而是要「指導 AI 如何把畫面拍出來」。

所以,下一次你寫 AI 影片 Prompt 時,不妨先問自己五個問題:

  1. 這段影片用甚麼鏡頭?
  2. 畫面是甚麼風格?
  3. 光線和氣氛是怎樣?
  4. 場景在哪裡?
  5. 主體正在做甚麼?

然後再進一步思考:

  • 需要加入文字嗎?
  • 需要用圖片、影片或音樂作 reference 嗎?
  • 需要用 storyboard 控制故事嗎?
  • 需要保持角色、產品或品牌一致嗎?
  • 是否可以分幾步逐步修改,而不是一次過寫完?

當你開始用這種方式寫 prompt,就不是單純「叫 AI 生影片」,而是開始用 AI 做真正的視覺創作。


追蹤以下平台,獲得最新AI資訊:
Facebook: https://www.facebook.com/drjackeiwong/
Instagram: https://www.instagram.com/drjackeiwong/
Threads: https://www.threads.net/@drjackeiwong/
YouTube: https://www.youtube.com/@drjackeiwong/
Website: https://drjackeiwong.com/

Dr. Jackei Wong

擁有超過15年的人工智能研究及教學經驗,我結合學術理論與實際應用,設計專業的AI學習體驗。無論是生成式AI、數據分析,還是日常工作的AI應用,我都會以簡單易懂的方式引導您深入了解,讓您快速上手技術,應對數碼化時代的挑戰。

喜歡請分享