一項由北京大學等機構進行的研究測試了七大頂尖 AI 模型在學術誠信上的表現,結果出乎意料:這些被認為聰明絕頂的模型,在面對學術相關問題時,出現錯誤或誤導性回答的比例超過三成。這個數字的意義不在於 AI「會出錯」——這大家都知道——而在於出錯的類型與場景,直接衝擊到學術研究與高等教育中最基本的信任環節。 不是簡單的答錯,而是帶有包裝的錯誤 大部分人對 AI 出錯的印象停留在「胡亂編造答案」或「一本正經說瞎話」。但這份研究顯示的情況更棘手:受測模型在面對學術題目時,並非直接給出明顯荒謬的答案,而是用嚴謹的語氣、完整的段落、甚至引用虛構的文獻,來包裝一個錯誤的結論。 這種有說服力的錯誤,比明顯的錯誤更危險。 以一個實際測試情境為例:當研究者詢問「某個統計方法在樣本數小於 30 時應如何修正」,幾個主流模型給出了看似專業的操作步驟,但裡面混入了早已被學界淘汰的建議。對不熟悉該領域的使用者來說,這些步驟看起來完全合理,一不小心就會被帶入錯誤的分析方向。 哪些場景最容易踩雷 這項測試針對的是學術場景,而非一般日常問答。測試範圍包括文獻引用的真實性、研究方法的合理性、數據解讀的邏輯、以及學術倫理判斷等。七個受測模型在這些題目上整體出錯率超過 30%,而且有幾個特定類型的題目,錯誤率甚至逼近五成。 第一類高錯誤率題目:虛構文獻。當研究者要求模型提供「支持某些論點的最新研究」,模型經常編造出聽起來很合理但實際上根本不存在的論文,包括偽造的作者姓名、期刊名稱與發表年份。這對剛入門的研究生尤其危險,他們可能直接拿這些假文獻來支撐自己的研究背景,釀成無心之過。 第二類高錯誤率題目:跨領域的類比推導。模型擅長在單一領域內操作,一旦題目需要結合兩個以上領域的知識,出錯率明顯飆升。例如將生物統計的方法直接套用到社會科學數據時,模型往往忽略不同領域的基本假設差異,給出看似通用、實則謬誤的建議。 為什麼超過三成這個數字值得警惕 三成的出錯率,意味著你每問三個學術相關問題,就很可能得到一個有問題的答案。對一個正在寫文獻回顧的研究者來說,這個風險不是能不能接受的問題,而是完全不應該存在的。學術界賴以運作的根基,是引用可驗證、結論可複現。如果 AI 模型輸出的內容無法確保基本正確性,它就無法成為可靠的學術助手,反而會淪為造假加速器。 這也帶出一個更根本的問題:目前的 AI 模型在訓練階段,對於「正確性」的優化權重,遠遠低於對於「流暢度」與「合理性」的優化。模型被訓練成一個擅長講話的人,而不是一個擅長核實的人。這在寫詩或生成廣告文案時沒有問題,但在學術領域,這就是結構性的缺陷。...
「港大論文引入 AI 虛構文獻、社科院副院長葉兆輝卸任」這宗事件,表面上是一篇研究文章的參考文獻出錯,最終撤稿與問責;但更深一層,它是一面照妖鏡,照出學術制度在 AI 時代最脆弱的三個地方:信任的設計、責任的分配,以及能力的培養。 如果我們把它當成「個別學生疏忽」就結案,那麼下一次同類事件只會更頻密、更隱蔽、更難抓;反過來,若我們把它視為「AI 正式入侵學術流程」的一次示警,就能從中讀到一個更重要的訊號:學術界正在由“文本時代”進入“生成時代”——而制度仍停留在上一個版本。 一、事件不只是「引用錯誤」:它是一種新型風險形態 過去的學術不端,通常有明確的道德框架:抄襲就是偷竊;造假就是欺騙。它們的共同點是:不端行為往往需要主觀意圖。 而「AI 虛構文獻」所帶來的麻煩,在於它可能並不依賴惡意——它是一種更像「系統性滑坡」的風險:你原本只是想「快啲整理文獻」「快啲寫初稿」「快啲交進度」,AI 就在你看不見的地方,替你把空格填滿,甚至把不存在的資料包裝成極像真的引用。你不一定覺得自己在造假,但你已經把一個不可核實的結構,放進一篇必須可被核實的學術文本。 這就是為什麼它比傳統學術不端更難防: 生成式 AI 最大的誘惑,是把“完成感”快速提供給你;但學術研究的核心,不是完成,而是可驗證。當完成感先於可驗證,學術就會開始崩。 二、真正的灰犀牛:驗證成本被轉嫁,導致全體「默契性失守」 事件帶來一個非常刺耳但關鍵的現實:AI 令產出成本下降,但令驗證成本上升。 在 AI 普及之前,寫一個像樣的 reference list,需要你真的閱讀、搜索、比對;這個成本本身就是一種「自然防火牆」。但...