Gemini 3.5 Flash 內建 Computer Use：AI 直接操作瀏覽器、手機、桌面

Gemini 3.5 Flash 內建 Computer Use：AI 首次真正動手操作你的瀏覽器、手機同桌面

Gemini 3.5 Flash 這次最大改動：AI 不再只是「講」，而是「做」

Google 為 Gemini 3.5 Flash 加入原生 Computer Use 能力，意思好直接——這個模型可以自己開瀏覽器、點按鈕、填表、滑動手機介面、甚至操作桌面應用程式。過去要靠外部 agent 框架、要接 Playwright、要自己寫一堆 tool calling 才做到的事，現在被 Google 直接寫入模型本體。

這一版最值得留意的，不是它「識做」，而是它「識做得夠平、夠快」。Flash 系列一向主打低延遲、低成本，這代表 Computer Use 不再是一個 demo，而是可以真正跑在產品裡、大規模呼叫的能力。以下會集中講清楚：今次到底新了什麼、實際做到咩、以及點解值得立即試。

今次更新最值得注意的四個重點

1. Computer Use 從外掛變成模型內建能力

以前要做 AI 自動操作，開發者一般會用 Anthropic 的 Computer Use、或者自己搭 browser agent。今次 Google 直接把「睇畫面 → 決定動作 → 執行點擊 / 輸入 / 滑動」整條 loop 塞入 Gemini 3.5 Flash。模型可以吸收 screenshot、DOM、或者手機畫面，然後直接輸出座標、click、type、scroll 等動作指令。

對開發者而言，最大分別是：唔使再拼湊視覺模型 + 規劃模型 + 執行框架。一次 API call 就可以叫模型「幫我登入呢個網站、抽出訂單資料、填入另一個系統」。

2. 三個環境全打通：瀏覽器、手機、桌面

這是今次最容易被低估的重點。市面上大部分 AI agent 只 focus 瀏覽器自動化，因為 web 環境最容易處理。Gemini 3.5 Flash 的 Computer Use 明確覆蓋三個場景：

瀏覽器：處理登入、表單、後台操作、爬蟲類任務
手機介面：可以睇 Android 畫面、模擬 tap、swipe，做到 app 自動化測試或者代客操作
桌面應用：包括 Excel、設計軟件、內部系統這些沒有 API 的老工具

對做 RPA、做 QA 測試、做內部工具整合的團隊而言，「桌面 + 手機」這兩塊才是真正痛點。以前要用 UiPath、Appium 這類重型工具，現在可以用一個 LLM 收工。

3. Flash 級別的速度與成本，令 agent loop 變得可行

AI agent 最大的實務問題從來不是「做唔做到」，而是「做一次要幾錢、幾耐」。一個 agent 完成一項任務，往往要行幾十步，每步都要模型思考。如果用 Pro / Opus 級模型，成本會爆。

把 Computer Use 放進 Flash 是一個很清楚的訊號：Google 想令長 loop、多步驟、要重複跑的任務變成可負擔。這件事對 startup、對 SaaS 產品內嵌 agent 功能，影響比表面上大。

4. 對 screenshot 與 UI 元素的理解力明顯加強

Computer Use 成敗關鍵在於「睇唔睇得明畫面」。今次 Gemini 3.5 Flash 對介面元素的辨識——例如分得清 modal、dropdown、disabled button、loading state——比上一代明顯進步。這決定了它在真實網站上會唔會亂點、會唔會卡在彈窗、會唔會 loop 死。

具體可以做到什麼？兩個實際場景

場景一：跨系統資料搬運

公司用一個舊 ERP、一個新 CRM，兩邊沒有 API 對接。過往要請人手動抄資料，或者花幾十萬做 integration。用 Gemini 3.5 Flash 的 Computer Use，可以直接叫它「打開 ERP、抽出今日新訂單、開 CRM、逐筆建立客戶記錄」。整件事只需要一段自然語言 prompt 加基本錯誤處理。

場景二：手機 App 自動化測試

QA 團隊要驗證一個 app 在不同場景下的行為，過去要寫 Appium script，維護成本極高。現在可以直接俾自然語言 test case 給模型，例如「打開 app、登入、加商品入購物車、去到結帳頁、截圖」，模型自己執行、自己判斷有無異常。

這是否代表 browser agent 賽道洗牌？

短答：對於「純瀏覽器操作」這條窄賽道，壓力會很大。

Browser Use、Skyvern、甚至一部分 Anthropic Computer Use 的用例，本來就是 wrap 一個模型再加 orchestration。當 Google 把能力寫入 Flash，而且價錢殺到咁盡，第三方 agent 產品要靠純技術差異化會越來越難，得返「行業 workflow」、「合規」、「私有部署」呢幾條護城河。

但要注意一件事：Computer Use 依然唔係魔法。它仍然會在複雜彈窗、captcha、需要長期記憶的多步任務上出錯。任何講「AI 從此取代 RPA」的說法都太早。

值不值得立即試？

如果你符合以下任何一項，值得今個星期就開個測試：

有內部工具或舊系統，一直想自動化但無 API
正在做 browser automation 或 QA 自動化，想減 script 維護成本
產品裡想加「AI 幫用戶完成一整個流程」呢類功能
之前試過 Anthropic Computer Use，覺得慢或者貴

反過來，如果你只係想搞 chatbot、做內容生成、寫 email，Computer Use 對你意義不大，唔使急。

這一版 Gemini 3.5 Flash 的重點好清楚：Google 不是想令 AI 更識傾偈，而是想令 AI 開始有一雙手。真正動手的 AI，會比識講嘢的 AI 對日常工作的衝擊大得多。而 Flash 這個定價層，正正就是讓「有手 AI」由 demo 變成日常的關鍵一步。

追蹤以下平台，獲得最新AI資訊：
Facebook: https://www.facebook.com/drjackeiwong/
Instagram: https://www.instagram.com/drjackeiwong/
Threads: https://www.threads.net/@drjackeiwong/
YouTube: https://www.youtube.com/@drjackeiwong/
Website: https://drjackeiwong.com/

Tags: AI Agent AI 自動化 AndrejKarpathy Computer Use Gemini 3.5 Flash Google AI Google Gemini 瀏覽器自動化

Gemini 3.5 Flash 內建 Computer Use：AI 首次真正動手操作你的瀏覽器、手機同桌面

Gemini 3.5 Flash 這次最大改動：AI 不再只是「講」，而是「做」

今次更新最值得注意的四個重點

1. Computer Use 從外掛變成模型內建能力

2. 三個環境全打通：瀏覽器、手機、桌面

3. Flash 級別的速度與成本，令 agent loop 變得可行

4. 對 screenshot 與 UI 元素的理解力明顯加強

具體可以做到什麼？兩個實際場景

這是否代表 browser agent 賽道洗牌？

值不值得立即試？

Dr. Jackei Wong

Dr. Jackei

專業服務

科技內容

聯絡

Gemini 3.5 Flash 內建 Computer Use：AI 首次真正動手操作你的瀏覽器、手機同桌面

Gemini 3.5 Flash 這次最大改動：AI 不再只是「講」，而是「做」

今次更新最值得注意的四個重點

1. Computer Use 從外掛變成模型內建能力

2. 三個環境全打通：瀏覽器、手機、桌面

3. Flash 級別的速度與成本，令 agent loop 變得可行

4. 對 screenshot 與 UI 元素的理解力明顯加強

具體可以做到什麼？兩個實際場景

這是否代表 browser agent 賽道洗牌？

值不值得立即試？

Dr. Jackei Wong

繼續學習

Canvas 啟動：重新定義寫作與編碼的 AI 合作新時代

DeepSeek的突破與堅守：中國AI創新之路的旗手

OpenAI推出月費兩萬美元的博士級AI助手 引發科技界熱烈討論

OpenAI推出月費兩萬美元的博士級AI助手引發科技界熱烈討論