北大研究揭 AI 模型學術誠信問題:七成以上模型答題出錯率逾三成

北大研究揭 AI 模型學術誠信問題:七成以上模型答題出錯率逾三成

一項由北京大學等機構進行的研究測試了七大頂尖 AI 模型在學術誠信上的表現,結果出乎意料:這些被認為聰明絕頂的模型,在面對學術相關問題時,出現錯誤或誤導性回答的比例超過三成。這個數字的意義不在於 AI「會出錯」——這大家都知道——而在於出錯的類型與場景,直接衝擊到學術研究與高等教育中最基本的信任環節。

不是簡單的答錯,而是帶有包裝的錯誤

大部分人對 AI 出錯的印象停留在「胡亂編造答案」或「一本正經說瞎話」。但這份研究顯示的情況更棘手:受測模型在面對學術題目時,並非直接給出明顯荒謬的答案,而是用嚴謹的語氣、完整的段落、甚至引用虛構的文獻,來包裝一個錯誤的結論。

這種有說服力的錯誤,比明顯的錯誤更危險。

以一個實際測試情境為例:當研究者詢問「某個統計方法在樣本數小於 30 時應如何修正」,幾個主流模型給出了看似專業的操作步驟,但裡面混入了早已被學界淘汰的建議。對不熟悉該領域的使用者來說,這些步驟看起來完全合理,一不小心就會被帶入錯誤的分析方向。

哪些場景最容易踩雷

這項測試針對的是學術場景,而非一般日常問答。測試範圍包括文獻引用的真實性、研究方法的合理性、數據解讀的邏輯、以及學術倫理判斷等。七個受測模型在這些題目上整體出錯率超過 30%,而且有幾個特定類型的題目,錯誤率甚至逼近五成。

第一類高錯誤率題目:虛構文獻。當研究者要求模型提供「支持某些論點的最新研究」,模型經常編造出聽起來很合理但實際上根本不存在的論文,包括偽造的作者姓名、期刊名稱與發表年份。這對剛入門的研究生尤其危險,他們可能直接拿這些假文獻來支撐自己的研究背景,釀成無心之過。

第二類高錯誤率題目:跨領域的類比推導。模型擅長在單一領域內操作,一旦題目需要結合兩個以上領域的知識,出錯率明顯飆升。例如將生物統計的方法直接套用到社會科學數據時,模型往往忽略不同領域的基本假設差異,給出看似通用、實則謬誤的建議。

為什麼超過三成這個數字值得警惕

三成的出錯率,意味著你每問三個學術相關問題,就很可能得到一個有問題的答案。對一個正在寫文獻回顧的研究者來說,這個風險不是能不能接受的問題,而是完全不應該存在的。學術界賴以運作的根基,是引用可驗證、結論可複現。如果 AI 模型輸出的內容無法確保基本正確性,它就無法成為可靠的學術助手,反而會淪為造假加速器。

這也帶出一個更根本的問題:目前的 AI 模型在訓練階段,對於「正確性」的優化權重,遠遠低於對於「流暢度」與「合理性」的優化。模型被訓練成一個擅長講話的人,而不是一個擅長核實的人。這在寫詩或生成廣告文案時沒有問題,但在學術領域,這就是結構性的缺陷。

誰最需要先知道這件事

如果你是研究生、大學教授、期刊審稿人,或者任何需要依賴 AI 來協助文獻整理、研究方法討論、數據分析建議的人,這份研究結果不是一篇可以滑過去的新聞,而是一個實際的工作風險提示。

對研究生來說,最務實的因應方式不是不用 AI,而是建立一套交叉驗證的習慣。模型給出的任何文獻引用,都要手動去資料庫確認存在與否;任何研究方法建議,都比對一次教科書或原始論文。對教授與審稿人來說,則需要開始留意學生或稿件中可能出現的「標準化但錯誤」的論述痕跡——那種內容雖然組織工整、用詞精準,但引用不存在、推論跳過關鍵步驟。

這件事後續會怎麼發展

目前這項測試結果發布後,已經引發學術圈內部對 AI 使用規範的討論。短期內最可能的變化,是各大學術期刊與研究機構會加速制定更明確的 AI 使用揭露規範,例如要求作者在投稿時聲明哪些部分使用了 AI,並對 AI 生成的內容負起最終核實責任。

長遠來看,模型開發者也必須正視這個問題。單純用更大的參數量、更長的上下文視窗來提升模型表現,對於減少「有說服力的錯誤」幫助有限。真正的解法可能在於訓練過程中導入更嚴格的錯核機制、引入具備領域知識的驗證層,或者乾脆讓模型學會在不確定的時候說「我不知道」。

目前看來,距離模型能成為真正可靠的學術助手,還有一段不短的距離。在那之前,雖然 AI 很會講,但講對講錯,最終還是得靠人來判斷。

追蹤以下平台,獲得最新AI資訊:
Facebook: https://www.facebook.com/drjackeiwong/
Instagram: https://www.instagram.com/drjackeiwong/
Threads: https://www.threads.net/@drjackeiwong/
YouTube: https://www.youtube.com/@drjackeiwong/
Website: https://drjackeiwong.com/

Dr. Jackei Wong

擁有超過15年的人工智能研究及教學經驗,我結合學術理論與實際應用,設計專業的AI學習體驗。無論是生成式AI、數據分析,還是日常工作的AI應用,我都會以簡單易懂的方式引導您深入了解,讓您快速上手技術,應對數碼化時代的挑戰。

喜歡請分享