OpenAI 前技術長 Mira Murati 在離開一段時間後,近日帶著一個相當大膽的宣告回歸:下一代 AI 不再需要對話框。消息一出,許多人第一個反應是「那以後要怎麼用 AI?」這個問題本身就點出了重點——我們對 AI 的想像,仍然停留在「你問一句,它答一句」的框架裡。而這次的宣布,正是要打破這個框架。 對話框不是 AI 的本質,只是過渡工具 過去兩年,從 ChatGPT 到 Claude,對話框幾乎成了 AI 產品的標準介面。用戶打開一個白色輸入框,打一句話,AI 回一段文字。這很直覺,也很成功,但同時也限制了 AI 的應用方式。Mira 這次的核心論點很簡單:AI 不該只在你開口問的時候才做事,它應該在背景中持續理解你的工作、預測你的需求,甚至在你還沒意識到的時候,就把事情處理好。...
ChatGPT 近期針對引用聊天歷史功能推出了一項重要改進,核心在於更可靠地從過往對話中提取細節。對多數長期使用者來說,這最值得先留意的是:AI 不再只是「大概記得」你上週提過的事,而是能在後續對話中準確召喚具體的數字、名稱與偏好。這次的改進不是介面調整,而是記憶機制底層的可靠性升級,直接影響你能否真正把 ChatGPT 當成一個長期協作夥伴。 以前的痛點:上下文斷裂與細節丟失 過去使用 ChatGPT 處理長期專案時,最常遇到的挫折是「上下文斷裂」。你可能在三天前詳細描述過品牌色碼、客戶名稱或程式架構,但開啟新對話後,AI 要麼完全遺漏,要麼給出近似但錯誤的版本。這種「善忘」迫使許多人不得不反覆複製貼上背景資料,甚至養成「每次開新對話都要先貼一千字前言」的習慣。 這次改進後,系統在引用歷史對話時,對細節的抓取明顯更精準。重點不在於它能記得更久,而是它終於開始區分「哪些資訊是後續對話的關鍵線索」,並在主動召喚時降低幻覺機率。長期使用 AI 的最大痛點從來不是它不懂,而是它記錯。 這次更新最值得注意的三個改進 第一,跨對話的意圖連貫性提升。以前 AI 容易把不同專案的細節搞混,現在在追問「照上次那個方案調整」時,它更能鎖定正確的對話脈絡,而不是隨機挑選一個相似關鍵字就胡亂拼接。 第二,主動喚起機制更聰明。當你輸入的問題與過往對話高度相關時,ChatGPT 會更積極地提示「你之前在討論 X 時提到 Y」,讓你可以一鍵接續,不用自己翻找聊天記錄。這減少了大量機械式的複製貼上動作。 第三,細節準確度改善最明顯。數字、日期、專有名詞這類容易被「柔和化」或「近似化」的資訊,現在在引用時的保真度高了不少。對需要精確資訊的工作者來說,這是實用價值最高的部分。以前 ChatGPT...
OpenAI 最近在美國 Pro 用戶中推出了 ChatGPT 個人理財功能的預覽版。簡單來說,你可以直接把銀行、信用卡或券商的帳戶連結到 ChatGPT,然後用自然語言問它「我上個月花最多在哪裡?」或「我的投資組合最近表現如何?」它就會像一個理財顧問一樣,給出分析、圖表甚至建議。這不是什麼第三方外掛,而是 ChatGPT 內建的新能力。 我認為這一步比很多人想像中更重要。之前 ChatGPT 多半是生產力工具或知識助手,但這次它直接碰觸到個人財務這個極度敏感且實用的領域。如果做得好,它會徹底改變一般人管理錢的方式:從「打開 APP 看報表」變成「開口問一句話」這麼直覺。 直接連接帳戶,分析支出與投資 這個功能的核心在於帳戶連結。用戶授權後,ChatGPT 可以透過 Plaid 等服務讀取交易記錄(唯讀權限),然後自動分類、統計。你不必手動匯出 CSV 或貼上明細,一切都在對話框裡完成。 支出分析:你可以問「我這個月餐飲花多少?」ChatGPT 會即時計算並顯示圓餅圖。它甚至能比較不同月份的變化,或提醒你某類開支超標。 投資組合檢視:連結券商帳戶後,你可以問「我的持股比例是否偏離目標?」它會列出各資產類別佔比,並根據你的風險偏好給出再平衡建議。...
Anthropic 最近做了一件事,值得每一個靠 AI 做事的人留意:他們開發出一種自然語言自編碼器,能夠把 Claude 的內部活動——也就是模型在想什麼、注意什麼——直接轉換成人類可讀的文字。 這不是那種「我們更透明了」的公關說法。這是第一次,我們有機會在模型回答之前,實際看到它的運作邏輯被「翻譯」出來。 這件事真正重要的地方,不是技術細節,而是它讓 AI 從一個「你只能相信輸出」的黑箱,開始往「你可以檢查過程」的方向移動。 它不是新的模型,而是一種新的觀察方式 首先要搞清楚一件事:Anthropic 這次不是推出 Claude 5 或什麼更強的模型。他們推出的是一種工具——或者說,一種方法——去拆解 Claude 內部運作。 傳統上,大型語言模型的神經網路對外行人來說是一團迷霧。你知道輸入什麼、得到什麼輸出,但中間發生的事沒人知道。研究人員過去用各種間接方法推測,但從未真正「讀到」模型內部的想法。 自然語言自編碼器改變了這件事。它把 Claude 內部那些高維度、抽象的神經活動,映射回自然語言。想像一下,你原本只能看到一堆亂碼,現在突然能看到「這一層正在確認使用者提到的日期是否與上下文一致」或者「這個注意力頭正在檢查來源的可信度」。 這不是魔法,但它確實是突破。 對一般使用者來說,這代表訊號,不是功能...
Higgsfield 最近推出了一個名為 Supercomputer 的 AI 代理,專為創意製作而設計。它不是又一個生成圖像或影片的模型,而是一個能夠從你的創作行為中自主學習、持續優化輸出的代理系統。最值得留意的是它的「自學」機制:你不需要反覆調整 prompt,它會觀察你的修改習慣、風格偏好,然後在下一次生成時自動套用。這篇文章要說的是:當 AI 開始學會你的審美,創意工具的本質正在從「指令執行」轉向「協作進化」。 自學機制:不是 prompt 工程,而是行為學習 多數 AI 生成工具依賴用戶精準描述需求,但 Higgsfield Supercomputer 的做法完全不同。它會記錄你每一次的編輯行為——你調整了哪些參數、保留了哪些生成結果、刪除了哪些失敗輸出。這些數據會被整合成一個內部風格模型,隨著使用次數增加,模型會愈來愈貼近你的個人美學。 舉例來說,如果你習慣在生成人物肖像時將膚色調暖、背景模糊,Higgsfield 會在幾次互動後自動將這些偏好納入預設參數。你不需要在每次新專案中重複設定,它已經學會了。 更重要的是,它具備自我評估能力。每次生成後,代理會比對輸出與你過去偏好的相似度,如果偏離太多,它會自動調整生成策略,而不是等你手動修正。這意味著你花在「試錯」上的時間會大幅減少。 兩個真實場景:動畫師與行銷團隊 第一個場景是獨立動畫師。假設你正在製作一部短片,主角是一個特定風格的機器人。傳統 workflow...
Google 新一代 AI 模型 Gemini 3.5 傳出提前曝光,其中最引人注目的不是模型本身,而是搭載的全時 AI Agent——「Spark」。不同於過往我們熟悉的語音助理必須由用戶主動喚醒,Spark 被設計為「永遠在線」的自主代理,能夠全天候代管電郵、排程任務,甚至直接替你完成線上購買。這不僅是一次功能升級,更可能從根本上改變我們對 AI 助理的想像。 Spark 到底新在哪裡? 傳統的 AI 助理(如 Siri、Google Assistant)本質上是「被動反應型」——你下指令,它才動作。Spark 則不同,它被賦予了「持續背景運作」的權限,可以自主掃描你的電郵、行事曆、瀏覽紀錄,並根據你的習慣與當下情境做出判斷。 例如:你早上進會議室前收到銀行的繳費提醒,過去你得自己記住或立刻處理。有了 Spark,它會自動比對你的帳戶餘額與繳費期限,直接在背景幫你轉帳完成,並在會議結束後用一則摘要通知你。 更值得留意的是 Spark...
OpenAI 正式將 Codex 編碼工具帶入 ChatGPT 手機應用程式,iOS 與 Android 用戶現在可以直接在手機上監控與管理遠端編碼任務。這不是一個簡單的通知推送功能,而是讓開發者可以在離開電腦的時候,仍然掌握開發現場的真實狀態。 如果你已經在用 Codex 桌面版處理複雜的編碼任務,應該很清楚一件事:很多任務不是幾分鐘就結束的。重構一個模組、跑測試、反覆調整前端畫面、等待 CI 跑完——這些事情一旦啟動,開發者往往得守在電腦前面。OpenAI 這次把手機端補上,就是要打破這個限制。 手機端到底多了什麼 這次更新最直接的功能是:你可以在手機上查看 Codex 正在進行的任務進度、接收任務完成的推播通知、以及查看任務過程中的關鍵輸出。換句話說,當 Codex 在遠端伺服器上幫你跑一條耗時的測試流程,你可以關上筆電去開會,手機震動時就知道結果出來了。 更重要的是,這個手機端不只是一塊「顯示面板」。它允許你對正在進行的任務做基本的干預動作,例如暫停任務、查看執行中的 log、或是重新發送指令。對於那些需要長時間背景執行的編碼工作,這個操作彈性比單純收通知實用太多。 另一個值得注意的細節是,手機端的...
如果你這幾天打開工作管理員,發現 Chrome 背景程序正在大量吃頻寬與記憶體,你不是個案。最近有越來越多用戶回報,Chrome 在未經明確同意的情況下,自行下載了一個約 4GB 的 AI 模型檔案。這件事最令人不安的地方,不是 AI 本身,而是「未經同意」這四個字。 這件事到底發生了什麼 Chrome 近期開始整合一項名為「內建 AI 功能」的實驗性機制,目的是讓瀏覽器能在本地端執行智慧翻譯、摘要生成、文字建議等任務。問題在於,為了達成這些功能,Chrome 必須先下載一個體積龐大的本地 AI 模型,而這個下載行為在預設情況下,是自動觸發的。 用戶沒有收到彈出視窗,沒有明確的勾選提示,沒有「是否同意下載 4GB 檔案」的確認步驟。它就在背景中默默進行,許多人是在發現硬碟空間異常減少、或是網路流量異常飆升時,才驚覺不對勁。 最值得留意的不是技術,而是權限 很多人看到這則消息的第一反應是「AI 功能本身好不好用?」但如果你先問這個問題,你就錯過了真正該關注的重點。...
OpenAI 的 Codex 從一個編輯器助手,逐步變成可以操作電腦、讀取檔案、執行命令列的開發工具。但很多人可能沒注意到,Codex 最近推出的 Chrome 擴充功能,才真正把它的能力拉到一個更貼近日常開發的場景。 這次更新的核心,不是又一個 AI 聊天小工具,而是讓 Codex 可以直接在你的瀏覽器裡工作。它能看到你正在開的分頁、操作你登入後的網站、測試你正在開發的前端頁面。對開發者來說,這項擴充功能解決了一個很實際的問題:那些需要手動打開瀏覽器、登入、點擊、查看結果的工作流程,終於可以交給 AI 接手了。 這次擴充功能最有感的幾件事 Codex for Chrome 不是「在瀏覽器裡開一個 Codex 對話框」這麼簡單。它有幾個真正改變工作方式的能力: 直接讀取目前分頁的內容。 當你讓 Codex...
Anthropic 最近做了一件聽起來很科幻、但實際上非常務實的事:他們教 Claude 學會「做夢」。 不是真的讓 AI 像人類一樣作夢,而是讓 Claude 在任務間的空檔,自動對自己的記憶進行重新整理、歸檔、壓縮與重組。這個機制在內部被稱為 Dreaming,目的是解決大型語言模型在長時間工作中最常碰到的問題——上下文混亂、記憶錯位、決策退化。 而目前看到的測試結果,確實值得認真看待。 Claude「做夢」到底在做什麼 簡單來說,Dreaming 不是讓 Claude 去幻想或創作,而是讓它在沒有新指令的短暫空閒時段中,對自己剛才處理過的資訊做一次「內部清理」。它會做三件事: 壓縮記憶:把冗長但不再需要的對話歷史或中間步驟摘要化,不再佔據有限的上下文權重空間。 重新標記重要資訊:判斷哪些資訊對後續任務真正關鍵,並提升它們在記憶中的優先級。 修復邏輯不一致:如果 Claude 在過程中留下互相矛盾的判斷或輸出,它會趁機修正,避免後續出錯。 這不是一個背景批次進行的流程。Dreaming 是高度動態的,每次「夢」都是根據當前的任務情境與記憶結構即時產生的。換句話說,它不是在跑一個固定的腳本,而是像人類在睡前回想今天發生的事一樣,有選擇性地、有結構地重組資訊。 為什麼「自動整理記憶」反而更可靠...