Gemini 3.5 Flash 內建 Computer Use:AI 首次真正動手操作你的瀏覽器、手機同桌面

Gemini 3.5 Flash 內建 Computer Use:AI 首次真正動手操作你的瀏覽器、手機同桌面

Gemini 3.5 Flash 這次最大改動:AI 不再只是「講」,而是「做」

Google 為 Gemini 3.5 Flash 加入原生 Computer Use 能力,意思好直接——這個模型可以自己開瀏覽器、點按鈕、填表、滑動手機介面、甚至操作桌面應用程式。過去要靠外部 agent 框架、要接 Playwright、要自己寫一堆 tool calling 才做到的事,現在被 Google 直接寫入模型本體。

這一版最值得留意的,不是它「識做」,而是它「識做得夠平、夠快」。Flash 系列一向主打低延遲、低成本,這代表 Computer Use 不再是一個 demo,而是可以真正跑在產品裡、大規模呼叫的能力。以下會集中講清楚:今次到底新了什麼、實際做到咩、以及點解值得立即試。

今次更新最值得注意的四個重點

1. Computer Use 從外掛變成模型內建能力

以前要做 AI 自動操作,開發者一般會用 Anthropic 的 Computer Use、或者自己搭 browser agent。今次 Google 直接把「睇畫面 → 決定動作 → 執行點擊 / 輸入 / 滑動」整條 loop 塞入 Gemini 3.5 Flash。模型可以吸收 screenshot、DOM、或者手機畫面,然後直接輸出座標、click、type、scroll 等動作指令。

對開發者而言,最大分別是:唔使再拼湊視覺模型 + 規劃模型 + 執行框架。一次 API call 就可以叫模型「幫我登入呢個網站、抽出訂單資料、填入另一個系統」。

2. 三個環境全打通:瀏覽器、手機、桌面

這是今次最容易被低估的重點。市面上大部分 AI agent 只 focus 瀏覽器自動化,因為 web 環境最容易處理。Gemini 3.5 Flash 的 Computer Use 明確覆蓋三個場景:

  • 瀏覽器:處理登入、表單、後台操作、爬蟲類任務
  • 手機介面:可以睇 Android 畫面、模擬 tap、swipe,做到 app 自動化測試或者代客操作
  • 桌面應用:包括 Excel、設計軟件、內部系統這些沒有 API 的老工具

對做 RPA、做 QA 測試、做內部工具整合的團隊而言,「桌面 + 手機」這兩塊才是真正痛點。以前要用 UiPath、Appium 這類重型工具,現在可以用一個 LLM 收工。

3. Flash 級別的速度與成本,令 agent loop 變得可行

AI agent 最大的實務問題從來不是「做唔做到」,而是「做一次要幾錢、幾耐」。一個 agent 完成一項任務,往往要行幾十步,每步都要模型思考。如果用 Pro / Opus 級模型,成本會爆。

把 Computer Use 放進 Flash 是一個很清楚的訊號:Google 想令長 loop、多步驟、要重複跑的任務變成可負擔。這件事對 startup、對 SaaS 產品內嵌 agent 功能,影響比表面上大。

4. 對 screenshot 與 UI 元素的理解力明顯加強

Computer Use 成敗關鍵在於「睇唔睇得明畫面」。今次 Gemini 3.5 Flash 對介面元素的辨識——例如分得清 modal、dropdown、disabled button、loading state——比上一代明顯進步。這決定了它在真實網站上會唔會亂點、會唔會卡在彈窗、會唔會 loop 死。

具體可以做到什麼?兩個實際場景

場景一:跨系統資料搬運

公司用一個舊 ERP、一個新 CRM,兩邊沒有 API 對接。過往要請人手動抄資料,或者花幾十萬做 integration。用 Gemini 3.5 Flash 的 Computer Use,可以直接叫它「打開 ERP、抽出今日新訂單、開 CRM、逐筆建立客戶記錄」。整件事只需要一段自然語言 prompt 加基本錯誤處理。

場景二:手機 App 自動化測試

QA 團隊要驗證一個 app 在不同場景下的行為,過去要寫 Appium script,維護成本極高。現在可以直接俾自然語言 test case 給模型,例如「打開 app、登入、加商品入購物車、去到結帳頁、截圖」,模型自己執行、自己判斷有無異常。

這是否代表 browser agent 賽道洗牌?

短答:對於「純瀏覽器操作」這條窄賽道,壓力會很大。

Browser Use、Skyvern、甚至一部分 Anthropic Computer Use 的用例,本來就是 wrap 一個模型再加 orchestration。當 Google 把能力寫入 Flash,而且價錢殺到咁盡,第三方 agent 產品要靠純技術差異化會越來越難,得返「行業 workflow」、「合規」、「私有部署」呢幾條護城河。

但要注意一件事:Computer Use 依然唔係魔法。它仍然會在複雜彈窗、captcha、需要長期記憶的多步任務上出錯。任何講「AI 從此取代 RPA」的說法都太早。

值不值得立即試?

如果你符合以下任何一項,值得今個星期就開個測試:

  • 有內部工具或舊系統,一直想自動化但無 API
  • 正在做 browser automation 或 QA 自動化,想減 script 維護成本
  • 產品裡想加「AI 幫用戶完成一整個流程」呢類功能
  • 之前試過 Anthropic Computer Use,覺得慢或者貴

反過來,如果你只係想搞 chatbot、做內容生成、寫 email,Computer Use 對你意義不大,唔使急。

這一版 Gemini 3.5 Flash 的重點好清楚:Google 不是想令 AI 更識傾偈,而是想令 AI 開始有一雙手。真正動手的 AI,會比識講嘢的 AI 對日常工作的衝擊大得多。而 Flash 這個定價層,正正就是讓「有手 AI」由 demo 變成日常的關鍵一步。

追蹤以下平台,獲得最新AI資訊:
Facebook: https://www.facebook.com/drjackeiwong/
Instagram: https://www.instagram.com/drjackeiwong/
Threads: https://www.threads.net/@drjackeiwong/
YouTube: https://www.youtube.com/@drjackeiwong/
Website: https://drjackeiwong.com/

Dr. Jackei Wong

Dr. Jackei Wong|GenAI 企業培訓導師|AI 書籍作者|科技 YouTuber
專注生成式 AI(GenAI)企業培訓、公開課程、講座、工作坊及社交媒體內容合作。
DayGen AI Limited 及 RoboCode Academy 創辦人。
擁有超過 20 年人工智能研究、教學及培訓經驗。
YouTube:youtube.com/@drjackeiwong
網站:drjackeiwong.com
合作邀請歡迎 DM

喜歡請分享