Higgsfield 最近推出了一個名為 Supercomputer 的 AI 代理,專為創意製作而設計。它不是又一個生成圖像或影片的模型,而是一個能夠從你的創作行為中自主學習、持續優化輸出的代理系統。最值得留意的是它的「自學」機制:你不需要反覆調整 prompt,它會觀察你的修改習慣、風格偏好,然後在下一次生成時自動套用。這篇文章要說的是:當 AI 開始學會你的審美,創意工具的本質正在從「指令執行」轉向「協作進化」。 自學機制:不是 prompt 工程,而是行為學習 多數 AI 生成工具依賴用戶精準描述需求,但 Higgsfield Supercomputer 的做法完全不同。它會記錄你每一次的編輯行為——你調整了哪些參數、保留了哪些生成結果、刪除了哪些失敗輸出。這些數據會被整合成一個內部風格模型,隨著使用次數增加,模型會愈來愈貼近你的個人美學。 舉例來說,如果你習慣在生成人物肖像時將膚色調暖、背景模糊,Higgsfield 會在幾次互動後自動將這些偏好納入預設參數。你不需要在每次新專案中重複設定,它已經學會了。 更重要的是,它具備自我評估能力。每次生成後,代理會比對輸出與你過去偏好的相似度,如果偏離太多,它會自動調整生成策略,而不是等你手動修正。這意味著你花在「試錯」上的時間會大幅減少。 兩個真實場景:動畫師與行銷團隊 第一個場景是獨立動畫師。假設你正在製作一部短片,主角是一個特定風格的機器人。傳統 workflow...
Google 新一代 AI 模型 Gemini 3.5 傳出提前曝光,其中最引人注目的不是模型本身,而是搭載的全時 AI Agent——「Spark」。不同於過往我們熟悉的語音助理必須由用戶主動喚醒,Spark 被設計為「永遠在線」的自主代理,能夠全天候代管電郵、排程任務,甚至直接替你完成線上購買。這不僅是一次功能升級,更可能從根本上改變我們對 AI 助理的想像。 Spark 到底新在哪裡? 傳統的 AI 助理(如 Siri、Google Assistant)本質上是「被動反應型」——你下指令,它才動作。Spark 則不同,它被賦予了「持續背景運作」的權限,可以自主掃描你的電郵、行事曆、瀏覽紀錄,並根據你的習慣與當下情境做出判斷。 例如:你早上進會議室前收到銀行的繳費提醒,過去你得自己記住或立刻處理。有了 Spark,它會自動比對你的帳戶餘額與繳費期限,直接在背景幫你轉帳完成,並在會議結束後用一則摘要通知你。 更值得留意的是 Spark...
OpenAI 正式將 Codex 編碼工具帶入 ChatGPT 手機應用程式,iOS 與 Android 用戶現在可以直接在手機上監控與管理遠端編碼任務。這不是一個簡單的通知推送功能,而是讓開發者可以在離開電腦的時候,仍然掌握開發現場的真實狀態。 如果你已經在用 Codex 桌面版處理複雜的編碼任務,應該很清楚一件事:很多任務不是幾分鐘就結束的。重構一個模組、跑測試、反覆調整前端畫面、等待 CI 跑完——這些事情一旦啟動,開發者往往得守在電腦前面。OpenAI 這次把手機端補上,就是要打破這個限制。 手機端到底多了什麼 這次更新最直接的功能是:你可以在手機上查看 Codex 正在進行的任務進度、接收任務完成的推播通知、以及查看任務過程中的關鍵輸出。換句話說,當 Codex 在遠端伺服器上幫你跑一條耗時的測試流程,你可以關上筆電去開會,手機震動時就知道結果出來了。 更重要的是,這個手機端不只是一塊「顯示面板」。它允許你對正在進行的任務做基本的干預動作,例如暫停任務、查看執行中的 log、或是重新發送指令。對於那些需要長時間背景執行的編碼工作,這個操作彈性比單純收通知實用太多。 另一個值得注意的細節是,手機端的...
如果你這幾天打開工作管理員,發現 Chrome 背景程序正在大量吃頻寬與記憶體,你不是個案。最近有越來越多用戶回報,Chrome 在未經明確同意的情況下,自行下載了一個約 4GB 的 AI 模型檔案。這件事最令人不安的地方,不是 AI 本身,而是「未經同意」這四個字。 這件事到底發生了什麼 Chrome 近期開始整合一項名為「內建 AI 功能」的實驗性機制,目的是讓瀏覽器能在本地端執行智慧翻譯、摘要生成、文字建議等任務。問題在於,為了達成這些功能,Chrome 必須先下載一個體積龐大的本地 AI 模型,而這個下載行為在預設情況下,是自動觸發的。 用戶沒有收到彈出視窗,沒有明確的勾選提示,沒有「是否同意下載 4GB 檔案」的確認步驟。它就在背景中默默進行,許多人是在發現硬碟空間異常減少、或是網路流量異常飆升時,才驚覺不對勁。 最值得留意的不是技術,而是權限 很多人看到這則消息的第一反應是「AI 功能本身好不好用?」但如果你先問這個問題,你就錯過了真正該關注的重點。...
OpenAI 的 Codex 從一個編輯器助手,逐步變成可以操作電腦、讀取檔案、執行命令列的開發工具。但很多人可能沒注意到,Codex 最近推出的 Chrome 擴充功能,才真正把它的能力拉到一個更貼近日常開發的場景。 這次更新的核心,不是又一個 AI 聊天小工具,而是讓 Codex 可以直接在你的瀏覽器裡工作。它能看到你正在開的分頁、操作你登入後的網站、測試你正在開發的前端頁面。對開發者來說,這項擴充功能解決了一個很實際的問題:那些需要手動打開瀏覽器、登入、點擊、查看結果的工作流程,終於可以交給 AI 接手了。 這次擴充功能最有感的幾件事 Codex for Chrome 不是「在瀏覽器裡開一個 Codex 對話框」這麼簡單。它有幾個真正改變工作方式的能力: 直接讀取目前分頁的內容。 當你讓 Codex...
Anthropic 最近做了一件聽起來很科幻、但實際上非常務實的事:他們教 Claude 學會「做夢」。 不是真的讓 AI 像人類一樣作夢,而是讓 Claude 在任務間的空檔,自動對自己的記憶進行重新整理、歸檔、壓縮與重組。這個機制在內部被稱為 Dreaming,目的是解決大型語言模型在長時間工作中最常碰到的問題——上下文混亂、記憶錯位、決策退化。 而目前看到的測試結果,確實值得認真看待。 Claude「做夢」到底在做什麼 簡單來說,Dreaming 不是讓 Claude 去幻想或創作,而是讓它在沒有新指令的短暫空閒時段中,對自己剛才處理過的資訊做一次「內部清理」。它會做三件事: 壓縮記憶:把冗長但不再需要的對話歷史或中間步驟摘要化,不再佔據有限的上下文權重空間。 重新標記重要資訊:判斷哪些資訊對後續任務真正關鍵,並提升它們在記憶中的優先級。 修復邏輯不一致:如果 Claude 在過程中留下互相矛盾的判斷或輸出,它會趁機修正,避免後續出錯。 這不是一個背景批次進行的流程。Dreaming 是高度動態的,每次「夢」都是根據當前的任務情境與記憶結構即時產生的。換句話說,它不是在跑一個固定的腳本,而是像人類在睡前回想今天發生的事一樣,有選擇性地、有結構地重組資訊。 為什麼「自動整理記憶」反而更可靠...
最近一組數據在網路圈引起討論:谷歌搜尋的市佔率反彈至90%,日流量是ChatGPT的15倍。數字擺出來,看起來像是搜尋巨人的地位毫無動搖,但如果你只看這個數字就覺得「AI搜尋根本沒威脅」,那可能錯過更重要的事。 這篇文章不打算重複各家媒體的數字報導,而是想聚焦一個真正的問題:為什麼谷歌在AI浪潮下還能守住市佔?ChatGPT流量真的輸了嗎?以及,這個90%到底代表什麼? 90%市佔的真相:不是用戶不想走,而是沒地方去 谷歌搜尋能夠維持90%市佔,最直接的原因不是它做得多好,而是「替代方案還不夠完整」。ChatGPT、Perplexity 這類AI搜尋工具確實成長很快,但它們目前的定位仍是「輔助查詢」或「摘要工具」,而不是全面的搜尋引擎。 真實情況是:多數人每天還是需要查天氣、找餐廳、比價、看地圖、找官方文件——這些場景,AI工具目前還很難取代。ChatGPT的流量雖然驚人,但它的使用場景更偏向「理解問題」和「生成內容」,而不是「快速找到一個網頁」。所以流量數字懸殊,不代表用戶選擇了谷歌,而是用戶壓根還沒打算在AI工具上完成所有搜尋行為。 另一個容易被忽略的事:谷歌的搜尋基礎設施——索引量、在地化內容、即時新聞、地圖整合——是過去二十年累積下來的護城河。AI模型再強,目前也無法複製這個層級的實體覆蓋。 ChatGPT流量為什麼被低估? 日流量是ChatGPT的15倍,聽起來像是壓倒性差距,但這裡有個關鍵:ChatGPT的流量價值,不在於「搜尋次數」,而在於「任務完成度」。 很多使用者打開ChatGPT不是為了搜尋五個關鍵字,而是為了一個問題花五分鐘反覆對話。這代表每次造訪的「用戶意圖深度」完全不同。谷歌搜尋的流量很大一部分來自於「快速點擊、跳轉、離開」,而ChatGPT的流量來自於「持續互動」。 如果你只看次數,谷歌贏;如果你看「每次搜尋解決的問題複雜度」,ChatGPT正在快速拉近距離。 還有一個更重要的趨勢:ChatGPT 正在從「問答工具」轉向「執行工具」。當用戶開始在ChatGPT上直接完成訂票、寫信、整理資料、生成圖片,傳統搜尋的流量就會被侵蝕得更快。市佔90%的今天,反而是市場還沒真正反應這個變化的時刻。 谷歌的隱憂:市佔高不等於護城河深 市佔90%聽起來無懈可擊,但谷歌真正的風險不在於「今天有多少人用」,而在於「明天那些重度使用者還需不需要用」。 想像一個具體場景:一個開發者每天要查數次技術文件。過去他會打開谷歌,輸入「Python list comprehension syntax」,然後點擊第一個結果。現在他直接打開Codex或ChatGPT,輸入「寫一個用list comprehension過濾偶數的範例」,AI直接給他答案,還能附帶解釋。這個開發者不再需要谷歌。 同樣的場景發生在學生寫報告、行銷人員寫文案、翻譯工作者查詞——這些族群一旦養成「先問AI」的習慣,谷歌的搜尋流量就會一點一點流失。這就是所謂的「零點搜尋」的蠶食效應。 谷歌目前能維持市佔,靠的是「懶得換」的慣性,以及「日常簡單查詢」的剛需。但當AI工具持續降低使用門檻、增加整合能力,這些慣性用戶遲早會開始分流。 真正該關注的不是市佔,而是使用者行為的轉移 市佔率是一個落後指標。它反映的是「過去」,不是「未來」。真正值得關注的訊號,應該是:...
OpenAI 正在加速開發它的第一款手機,而且這不是一台「裝了 ChatGPT 的手機」,而是一台從底層為 AI Agent 設計的裝置。這件事比多數人想的更有意思,因為它不是在挑戰 iPhone 或 Android 的硬體,而是在挑戰「手機應該怎樣運作」這件事。 什麼是 AI Agent 手機?跟現在的手機有什麼不同? 現在你用手機叫外送,流程是:解鎖、滑到 Uber Eats、點餐、確認付款。AI Agent 手機的概念是,你直接說「幫我訂上次那間牛肉麵,半小時後送到」,然後手機自己完成一切。 這不是語音助理的升級版。Siri 或 Google Assistant...
OpenAI 最近做了一個不算轟動但很實際的調整:把 GPT-5.5 Instant 設為 ChatGPT 的預設模型。如果你有在留意,過去一兩週打開 ChatGPT,回覆速度明顯變快,而且回答變得更「乾脆」。這不是錯覺,而是底層模型換了。 這篇文章不是要講 benchmark 又破了多少,而是想討論一個更實際的問題:當一個模型變成「預設」,對日常使用的人來說,真正的改變在哪裡。 更快的回應,不只是快了一點 GPT-5.5 Instant 最快能感受到的差異是速度。過去 GPT-5.4 或更早版本,遇到複雜問題時,思考時間明顯較長。但 GPT-5.5 Instant 在同樣的問題上,思考時間縮短,而且不是犧牲品質來換速度。 舉個實際場景:寫一封英文商務郵件。過去你丟一段中文草稿給 ChatGPT,它可能要 5–8 秒才吐出完整版本。現在...
這幾天科技圈最震撼的消息,不是哪個新模型又跑贏了 benchmark,而是 Google 的 AI Overview 被爆出一個驚人數字:每小時向使用者傳播 5700 萬條錯誤資訊。背後驅動的 Gemini 模型,在某些測試中的錯誤率高達 9%。這些數字一出來,很多人第一反應是「Google 的 AI 完蛋了」,但實際情況比單純的「好或壞」更值得細看。 先搞清楚這件事的主角是誰。Google AI Overview 不是一個實驗性產品,它是直接嵌在 Google 搜尋結果頁頂端的生成式回答。當你搜尋「如何治療頭痛」「電器保養方法」或「某個歷史事件的日期」,Google 不再只給藍色連結,而是直接用 AI 生成一段摘要放在最上面。這項功能在...
ChatGPT 最近把「模型選擇器」做了一次很關鍵的改版:你不再先看到一串模型代號,而是改用 Instant、Thinking、Pro 這種「推理等級」來選。最值得先留意的不是名字變好懂,而是它把你每次使用 AI 的核心決策,從「選哪個模型」改成「這次要花多少時間換多少把握」。我的判斷是:這會讓大多數人的產出更穩,但也更容易把 Pro 當成萬用解而浪費成本。 這次到底新了什麼:從「模型」變成「推理檔位」 以前選擇器像在點菜:GPT-4o、o 系列、mini、preview……你得先記得每一道菜的口感。 現在則像在轉旋鈕: – Instant:速度優先,回答更快、互動更順。 – Thinking:願意多花一點時間,把推理鏈走完整,換比較穩的答案。 – Pro:把「慢、深、長」拉到更高檔位,適合需要反覆推敲、長輸出、或高風險決策的任務。 這不是小改介面,而是在把一個隱性成本(延遲、算力、你的耐心)變成顯性選項。 有些人會把它解讀成「官方承認某些模式比較聰明」。我會更保守一點:它是在教你用更直覺的方式管理品質與時間,而不是承諾每一檔都能神奇解鎖正確率。 今次更新最值得注意的 3 個升級點(而且都很實用) 1)...
亞馬遜在 4 月 30 日上線「Join the chat」AI 語音問答:你在商品詳情頁不用再翻規格、找 Q&A、滑評論,而是直接用語音跟一位「數位 AI 購物專家」對話,24 小時隨時問、隨時追問。最值得先留意的是——它把行動端購物最卡的那一段「看不完、找不到、懶得比」改成「邊逛邊問」。我的判斷是:這不是多了一個聊天入口,而是把導購從資訊陳列,推進到「陪你把疑慮說完」的階段。 當購物從閱讀變成對話,商品頁就不再是海報,而是接線生。 這次更新最值得盯的 3 個升級點(不是表面那個麥克風) 1) 從「單次提問」變成「多輪追問」,猶豫會被拆小、拆快 過去你在商品頁的典型流程是:先掃標題與賣點 → 滑規格表 → 看幾張圖 →...