Uber 傳出因 AI 代碼助手(例如 Claude Code)在開發流程中被高頻率使用,導致 2026 年度 AI 預算提前耗盡,正在重新評估資源分配。最值得先留意的不是「AI 太貴所以要少用」,而是:代碼助手已從補完工具,進化成能長時間跑任務的「背景代理」,它把工程成本從人力工時,轉成可被無限放大的用量計費。我的判斷是——這會是接下來一年大型研發組織最常遇到的成本失速點:不是模型變貴,而是使用方式變了。 ## 成本失控的真正原因:代碼助手不再只寫幾行,而是在「替你跑整段流程」 過去我們把 AI 代碼助手想成 IDE 裡的自動補全:你打一段、它補一段,用量跟打字速度差不多。 但 2026 的代碼助手已經更像「可並行工作的工程代理」: – **能在後台運作**:你照常開會、寫文件,它同時在背景跑測試、改前端、重構模組。 –...
Anthropic 推出 Claude for Creative Work,把 Claude 從「聊天式靈感來源」推向「跨創作工具的工作夥伴」,一次整合 Adobe、Blender、Ableton 等八大工具。最值得先看的是:它不是多一個模板或濾鏡,而是試圖讓你用同一段對話,連續驅動不同軟體的下一步。我的判斷是:這次更新的價值不在產出更像人的文字,而在讓創作流程更像一條可重複執行的指令鏈。 如果你近期也在關注「AI 代理」往工具整合走的方向,會發現這條路正在成形:例如 OpenAI 近期對 Codex 的更新,同樣把重點放在更深入的工具整合、電腦操作與長任務延續上,並把它描述成更接近「工作夥伴」的進化。Claude for Creative Work 則把戰場直接放在創作軟體的日常操作上。 ## 這次最值得注意的 4 個升級點(不是「會不會寫」)...
中國政府正式阻止 Meta 以 20 億美元收購 AI 代理新創 Manus。最值得先留意的不是「又一筆併購告吹」,而是這次干預的理由指向兩個關鍵字:核心技術與 AI 人才不得外流。我的判斷是:跨境 AI 收購在中國語境裡,已從資本市場交易,升級成「技術與人力資本出境」的管制議題;未來同類案子會更常被用同一把尺量。 > 當併購被定義成「技術出境」,就不是估值談得攏不攏,而是你根本能不能談。 > AI 代理的價值不只在模型,而在它能替你點擊、登入、串接、執行的那整套能力與人才。 ## 這次真正被擋的是什麼:不是公司,是「可被搬走的能力」 很多人看併購只看產品或營收,但 AI 代理的敏感點往往在「能做什麼事」。代理型產品一旦成熟,價值通常不是某個單一演算法,而是: – **工作流自動化的...
ChatGPT 迎來正式版「工作空間代理(Workspace Agents)」:你不再只是跟 AI 對話,而是能在同一個工作空間裡,設計可重複執行的跨團隊任務,並用權限控管把「能做什麼、能看到什麼、做到哪一步要停下來等人核准」說清楚。最值得先留意的不是它會不會更聰明,而是它終於把代理最難落地的部分——邊界與責任——做成產品。我的判斷是:這次更新的主角不是自動化本身,而是「可被團隊信任的自動化」。 代理的價值不在於它能做多少事,而在於它知道哪些事不能做。 沒有權限邊界的 AI 代理,只是把人為失誤自動化。 Workspace Agents 到底新了什麼:把「個人助理」升級成「團隊可用的執行者」 過去多數人用 ChatGPT,是臨時問答、臨時產出;就算你寫了再漂亮的提示詞,也很難把它變成「團隊共同使用、可交接、可稽核」的流程。 Workspace Agents 的變化可以一句話講完:代理從你的聊天視窗走進工作空間,變成可被設計、可被授權、可被追蹤的工作單位。這跟近期香港來自 OpenAI 在 Codex 上推進「背景運作、多代理並行、記憶、外掛整合」的方向其實一致,只是這次把焦點放在團隊協作與控管上。 這次更新最值得注意的 3 個升級點(而且都跟「可控」有關)...
DeepSeek-V4 終於發布,市場上最醒目的訊號不是「又多一個能聊的模型」,而是開源陣營再一次把能力拉到接近頂級閉源模型的高度。你最該先關注的,是它是否真的能在推理、寫程式與長任務穩定性上站得住腳;而我的判斷是:DeepSeek-V4 的價值不在於幫你省下一點 API 費用,而在於它把「可控、可自架、可被你整合進流程」這件事,重新拉回到頂級能力的同一張桌上。 有些人把這種更新理解成「開源追上閉源」,我更在意的是另一件事:閉源模型正在把競爭主場,從「答得多準」推進到「能不能替你把事情做完」。像 GPT-5.5 被定位成更強的代理式模型,強調可以在較少人工干預下規劃步驟、使用工具、檢查結果並推進多步驟任務。Codex 甚至開始把「電腦操作、內建瀏覽器、記憶與排程」打包成工作夥伴,能在 Mac 上看畫面、點擊、輸入並在背景並行跑任務。 所以,DeepSeek-V4 這次的問題不是「像不像某個閉源模型」,而是:它能不能成為你自己的代理與工作流程底座。 這次更新最值得盯緊的 4 個點(比規格表更重要) 先說清楚:在新模型剛發布的前期,比起背規格與榜單,我會建議你用「能不能落地」來驗證。下面 4 點,是我認為最值得優先測的升級方向,也是開源模型能否真正比肩閉源的分水嶺。 1) 推理的「可預期性」:不是聰明一次,是穩定聰明 如果 DeepSeek-V4 只是偶爾答得很神,但一進到多步驟任務就飄,那它仍然只是展示品。...
Codex Plugins:把 AI 寫程式能力接上你的日常工具 OpenAI Codex 過去最讓人印象深刻的,是把「自然語言」轉成可執行的程式碼;但在真實工作場景裡,痛點往往不是「寫不出程式」,而是「流程被工具切碎」:訊息在 Slack、規格在 Notion、待辦在 Jira、文件在 Google Drive,最後還要人工把它們串起來。 Codex 新推出的 Plugins(外掛)方向,核心價值就在這裡:讓 Codex 不只產出程式碼,而是能直接連到 Slack、Notion 等工具,協助你把需求接進流程、把結果推回工作系統,進一步形成可持續運作的自動化迴圈。 不只是「整合」,而是讓工作流變成可被 AI 操作的介面 很多人看到「可整合 Slack...
Perplexity 推出的 Perplexity Computer 主打「多模型 AI 代理(agent)」:不只回答問題,而是能像數位員工一樣,在目標導向下拆解任務、呼叫不同模型與工具、跨系統完成一段工作流程。對企業而言,這件事的重要性不在於又多了一個聊天機器人,而是它把 AI 從「知識查詢」推進到「可交付成果的流程執行者」。 這篇文章會用企業落地的視角,拆解 Perplexity Computer 的核心概念、適合的工作型態、導入方法,以及你必須正視的風險與治理。 為什麼「多模型代理」比單一聊天更像數位員工? 企業在導入生成式 AI 的第一階段,多半停在:寫文案、整理會議紀錄、回覆客服草稿、做摘要。但一旦進入真實流程,你會遇到幾個卡點: 任務不是一句提示就結束:例如「整理競品情報並寄給團隊」包含查資料、比對可信來源、產出表格、寫郵件、附上引用與連結、寄送並留存紀錄。 不同步驟需要不同能力:檢索要可信、寫作要符合品牌語氣、資料整理要可追溯、最後還要能呼叫內部工具(CRM、工單系統、文件庫)。 單一模型很難同時兼顧:有的模型強在推理、有的強在程式、有的強在文字風格;企業追求的是「整體交付」而非某一次對話的驚艷。 多模型代理的價值在於:它把「選模型」變成系統自動決策的一部分,並把工具使用(瀏覽、檔案、表格、內部 API)納入一條可控的任務鏈。 Perplexity Computer...
Google Gemini Pro 模型再次在 AI 基準測試中拿下破紀錄分數,成為產業焦點。對正在評估大型語言模型與 AI 代理方案的企業與開發者而言,這不只是分數競賽,而是下一輪生成式 AI 版圖重排的前哨戰。 Google Gemini Pro 模型 3.1:不只是「小幅升級」 最新版本的 Gemini 3.1 Pro 被定位為通用型大型語言模型,但從公開資訊與實際回饋來看,它的升級已經超出「例行更新」的範疇。 幾個關鍵變化值得特別留意: 在多步推理與長鏈思考任務上的表現明顯提升 在專業領域任務(如程式設計、商業分析、法務摘要)中的穩定度更高 與代理框架結合時,對任務分解與規劃的能力更成熟...
個人 AI 助理 OpenClaw 正在改寫軟體產業的遊戲規則 個人 AI 助理 OpenClaw 的崛起,正在把「本地優先」AI 代理推向舞台中央。當一個開源的個人 AI 智能體,能直接在你的電腦上操作滑鼠鍵盤、讀取檔案、控制各種裝置時,整個應用程式生態勢必被重新洗牌,有人甚至預期未來 80% 的應用程式將會自然消失。 這並不是危言聳聽,而是對技術路線與使用者需求的冷靜判斷。 為什麼「本地優先」個人 AI 助理這麼重要? 傳統的 AI 服務大多部署在雲端,只接受輸入、輸出文字或圖片,真正能控制的東西有限。本地優先的個人 AI 助理像...