Gemini 3.5 Flash 這次最大改動:AI 不再只是「講」,而是「做」
Google 為 Gemini 3.5 Flash 加入原生 Computer Use 能力,意思好直接——這個模型可以自己開瀏覽器、點按鈕、填表、滑動手機介面、甚至操作桌面應用程式。過去要靠外部 agent 框架、要接 Playwright、要自己寫一堆 tool calling 才做到的事,現在被 Google 直接寫入模型本體。
這一版最值得留意的,不是它「識做」,而是它「識做得夠平、夠快」。Flash 系列一向主打低延遲、低成本,這代表 Computer Use 不再是一個 demo,而是可以真正跑在產品裡、大規模呼叫的能力。以下會集中講清楚:今次到底新了什麼、實際做到咩、以及點解值得立即試。
今次更新最值得注意的四個重點
1. Computer Use 從外掛變成模型內建能力
以前要做 AI 自動操作,開發者一般會用 Anthropic 的 Computer Use、或者自己搭 browser agent。今次 Google 直接把「睇畫面 → 決定動作 → 執行點擊 / 輸入 / 滑動」整條 loop 塞入 Gemini 3.5 Flash。模型可以吸收 screenshot、DOM、或者手機畫面,然後直接輸出座標、click、type、scroll 等動作指令。
對開發者而言,最大分別是:唔使再拼湊視覺模型 + 規劃模型 + 執行框架。一次 API call 就可以叫模型「幫我登入呢個網站、抽出訂單資料、填入另一個系統」。
2. 三個環境全打通:瀏覽器、手機、桌面
這是今次最容易被低估的重點。市面上大部分 AI agent 只 focus 瀏覽器自動化,因為 web 環境最容易處理。Gemini 3.5 Flash 的 Computer Use 明確覆蓋三個場景:
- 瀏覽器:處理登入、表單、後台操作、爬蟲類任務
- 手機介面:可以睇 Android 畫面、模擬 tap、swipe,做到 app 自動化測試或者代客操作
- 桌面應用:包括 Excel、設計軟件、內部系統這些沒有 API 的老工具
對做 RPA、做 QA 測試、做內部工具整合的團隊而言,「桌面 + 手機」這兩塊才是真正痛點。以前要用 UiPath、Appium 這類重型工具,現在可以用一個 LLM 收工。
3. Flash 級別的速度與成本,令 agent loop 變得可行
AI agent 最大的實務問題從來不是「做唔做到」,而是「做一次要幾錢、幾耐」。一個 agent 完成一項任務,往往要行幾十步,每步都要模型思考。如果用 Pro / Opus 級模型,成本會爆。
把 Computer Use 放進 Flash 是一個很清楚的訊號:Google 想令長 loop、多步驟、要重複跑的任務變成可負擔。這件事對 startup、對 SaaS 產品內嵌 agent 功能,影響比表面上大。
4. 對 screenshot 與 UI 元素的理解力明顯加強
Computer Use 成敗關鍵在於「睇唔睇得明畫面」。今次 Gemini 3.5 Flash 對介面元素的辨識——例如分得清 modal、dropdown、disabled button、loading state——比上一代明顯進步。這決定了它在真實網站上會唔會亂點、會唔會卡在彈窗、會唔會 loop 死。
具體可以做到什麼?兩個實際場景
場景一:跨系統資料搬運
公司用一個舊 ERP、一個新 CRM,兩邊沒有 API 對接。過往要請人手動抄資料,或者花幾十萬做 integration。用 Gemini 3.5 Flash 的 Computer Use,可以直接叫它「打開 ERP、抽出今日新訂單、開 CRM、逐筆建立客戶記錄」。整件事只需要一段自然語言 prompt 加基本錯誤處理。
場景二:手機 App 自動化測試
QA 團隊要驗證一個 app 在不同場景下的行為,過去要寫 Appium script,維護成本極高。現在可以直接俾自然語言 test case 給模型,例如「打開 app、登入、加商品入購物車、去到結帳頁、截圖」,模型自己執行、自己判斷有無異常。
這是否代表 browser agent 賽道洗牌?
短答:對於「純瀏覽器操作」這條窄賽道,壓力會很大。
Browser Use、Skyvern、甚至一部分 Anthropic Computer Use 的用例,本來就是 wrap 一個模型再加 orchestration。當 Google 把能力寫入 Flash,而且價錢殺到咁盡,第三方 agent 產品要靠純技術差異化會越來越難,得返「行業 workflow」、「合規」、「私有部署」呢幾條護城河。
但要注意一件事:Computer Use 依然唔係魔法。它仍然會在複雜彈窗、captcha、需要長期記憶的多步任務上出錯。任何講「AI 從此取代 RPA」的說法都太早。
值不值得立即試?
如果你符合以下任何一項,值得今個星期就開個測試:
- 有內部工具或舊系統,一直想自動化但無 API
- 正在做 browser automation 或 QA 自動化,想減 script 維護成本
- 產品裡想加「AI 幫用戶完成一整個流程」呢類功能
- 之前試過 Anthropic Computer Use,覺得慢或者貴
反過來,如果你只係想搞 chatbot、做內容生成、寫 email,Computer Use 對你意義不大,唔使急。
這一版 Gemini 3.5 Flash 的重點好清楚:Google 不是想令 AI 更識傾偈,而是想令 AI 開始有一雙手。真正動手的 AI,會比識講嘢的 AI 對日常工作的衝擊大得多。而 Flash 這個定價層,正正就是讓「有手 AI」由 demo 變成日常的關鍵一步。
追蹤以下平台,獲得最新AI資訊:
Facebook: https://www.facebook.com/drjackeiwong/
Instagram: https://www.instagram.com/drjackeiwong/
Threads: https://www.threads.net/@drjackeiwong/
YouTube: https://www.youtube.com/@drjackeiwong/
Website: https://drjackeiwong.com/