一項由北京大學等機構進行的研究測試了七大頂尖 AI 模型在學術誠信上的表現,結果出乎意料:這些被認為聰明絕頂的模型,在面對學術相關問題時,出現錯誤或誤導性回答的比例超過三成。這個數字的意義不在於 AI「會出錯」——這大家都知道——而在於出錯的類型與場景,直接衝擊到學術研究與高等教育中最基本的信任環節。 不是簡單的答錯,而是帶有包裝的錯誤 大部分人對 AI 出錯的印象停留在「胡亂編造答案」或「一本正經說瞎話」。但這份研究顯示的情況更棘手:受測模型在面對學術題目時,並非直接給出明顯荒謬的答案,而是用嚴謹的語氣、完整的段落、甚至引用虛構的文獻,來包裝一個錯誤的結論。 這種有說服力的錯誤,比明顯的錯誤更危險。 以一個實際測試情境為例:當研究者詢問「某個統計方法在樣本數小於 30 時應如何修正」,幾個主流模型給出了看似專業的操作步驟,但裡面混入了早已被學界淘汰的建議。對不熟悉該領域的使用者來說,這些步驟看起來完全合理,一不小心就會被帶入錯誤的分析方向。 哪些場景最容易踩雷 這項測試針對的是學術場景,而非一般日常問答。測試範圍包括文獻引用的真實性、研究方法的合理性、數據解讀的邏輯、以及學術倫理判斷等。七個受測模型在這些題目上整體出錯率超過 30%,而且有幾個特定類型的題目,錯誤率甚至逼近五成。 第一類高錯誤率題目:虛構文獻。當研究者要求模型提供「支持某些論點的最新研究」,模型經常編造出聽起來很合理但實際上根本不存在的論文,包括偽造的作者姓名、期刊名稱與發表年份。這對剛入門的研究生尤其危險,他們可能直接拿這些假文獻來支撐自己的研究背景,釀成無心之過。 第二類高錯誤率題目:跨領域的類比推導。模型擅長在單一領域內操作,一旦題目需要結合兩個以上領域的知識,出錯率明顯飆升。例如將生物統計的方法直接套用到社會科學數據時,模型往往忽略不同領域的基本假設差異,給出看似通用、實則謬誤的建議。 為什麼超過三成這個數字值得警惕 三成的出錯率,意味著你每問三個學術相關問題,就很可能得到一個有問題的答案。對一個正在寫文獻回顧的研究者來說,這個風險不是能不能接受的問題,而是完全不應該存在的。學術界賴以運作的根基,是引用可驗證、結論可複現。如果 AI 模型輸出的內容無法確保基本正確性,它就無法成為可靠的學術助手,反而會淪為造假加速器。 這也帶出一個更根本的問題:目前的 AI 模型在訓練階段,對於「正確性」的優化權重,遠遠低於對於「流暢度」與「合理性」的優化。模型被訓練成一個擅長講話的人,而不是一個擅長核實的人。這在寫詩或生成廣告文案時沒有問題,但在學術領域,這就是結構性的缺陷。...