Anthropic 最近做了一件事,值得每一個靠 AI 做事的人留意:他們開發出一種自然語言自編碼器,能夠把 Claude 的內部活動——也就是模型在想什麼、注意什麼——直接轉換成人類可讀的文字。 這不是那種「我們更透明了」的公關說法。這是第一次,我們有機會在模型回答之前,實際看到它的運作邏輯被「翻譯」出來。 這件事真正重要的地方,不是技術細節,而是它讓 AI 從一個「你只能相信輸出」的黑箱,開始往「你可以檢查過程」的方向移動。 它不是新的模型,而是一種新的觀察方式 首先要搞清楚一件事:Anthropic 這次不是推出 Claude 5 或什麼更強的模型。他們推出的是一種工具——或者說,一種方法——去拆解 Claude 內部運作。 傳統上,大型語言模型的神經網路對外行人來說是一團迷霧。你知道輸入什麼、得到什麼輸出,但中間發生的事沒人知道。研究人員過去用各種間接方法推測,但從未真正「讀到」模型內部的想法。 自然語言自編碼器改變了這件事。它把 Claude 內部那些高維度、抽象的神經活動,映射回自然語言。想像一下,你原本只能看到一堆亂碼,現在突然能看到「這一層正在確認使用者提到的日期是否與上下文一致」或者「這個注意力頭正在檢查來源的可信度」。 這不是魔法,但它確實是突破。 對一般使用者來說,這代表訊號,不是功能...