DeepSeek-V4 終於發布,市場上最醒目的訊號不是「又多一個能聊的模型」,而是開源陣營再一次把能力拉到接近頂級閉源模型的高度。你最該先關注的,是它是否真的能在推理、寫程式與長任務穩定性上站得住腳;而我的判斷是:DeepSeek-V4 的價值不在於幫你省下一點 API 費用,而在於它把「可控、可自架、可被你整合進流程」這件事,重新拉回到頂級能力的同一張桌上。 有些人把這種更新理解成「開源追上閉源」,我更在意的是另一件事:閉源模型正在把競爭主場,從「答得多準」推進到「能不能替你把事情做完」。像 GPT-5.5 被定位成更強的代理式模型,強調可以在較少人工干預下規劃步驟、使用工具、檢查結果並推進多步驟任務。Codex 甚至開始把「電腦操作、內建瀏覽器、記憶與排程」打包成工作夥伴,能在 Mac 上看畫面、點擊、輸入並在背景並行跑任務。 所以,DeepSeek-V4 這次的問題不是「像不像某個閉源模型」,而是:它能不能成為你自己的代理與工作流程底座。 這次更新最值得盯緊的 4 個點(比規格表更重要) 先說清楚:在新模型剛發布的前期,比起背規格與榜單,我會建議你用「能不能落地」來驗證。下面 4 點,是我認為最值得優先測的升級方向,也是開源模型能否真正比肩閉源的分水嶺。 1) 推理的「可預期性」:不是聰明一次,是穩定聰明 如果 DeepSeek-V4 只是偶爾答得很神,但一進到多步驟任務就飄,那它仍然只是展示品。...