近期社群流傳一個說法:有人在 OpenAI Codex 的 CLI 開源程式碼與相關檔案中,疑似挖到 GPT‑5.5 的系統提示詞片段,裡面甚至包含「嚴禁模型主動討論『哥布林』等特定幻想生物」這類看似荒謬、但非常具指標性的指令。最值得先看的不是這個生物名詞本身,而是它透露了兩件事:Codex/GPT‑5.5 正把「基礎安全」往更底層、更硬的規則層推;同時也把「防幻覺」從模型能力問題,改成可被工程化管理的行為約束。 我的判斷是:如果這類提示詞片段屬實,它不是八卦,而是一個產品路線宣告——OpenAI 正在把 Codex 從「會寫程式的模型」推向「可長時間執行任務的工作夥伴」,而這條路一定伴隨更嚴格的內容界線與主題防範。你會覺得它更可靠,也會覺得它更愛管。 ## 「禁談幻想生物」到底在防什麼? 表面上看,禁止某些幻想生物或虛構題材很奇怪:這些東西通常不涉個資、不涉暴力教學,也不必然敏感。但把它放在「防幻覺」脈絡就合理了: – **模型很容易把虛構題材講成真的**:尤其是世界觀設定、族群史、詞源考據、偽百科式描述。 – **越是可被編造、越像知識的內容,越容易讓使用者誤信**:這類回答讀起來自信、結構完整,反而更危險。 所以,「禁談」可能不是道德審查,而是一種產品風險控管:對某些高幻覺風險主題直接踩煞車,避免模型主動帶風向、自己加戲。 有兩句話可以記住: – 內容過濾不是為了讓模型更乖,是為了讓它更可交付。...