Google AI Overview 每小時散佈 5700 萬條錯誤資訊?Gemini 的 9% 錯誤率到底有多嚴重

Google AI Overview 每小時散佈 5700 萬條錯誤資訊?Gemini 的 9% 錯誤率到底有多嚴重

這幾天科技圈最震撼的消息,不是哪個新模型又跑贏了 benchmark,而是 Google 的 AI Overview 被爆出一個驚人數字:每小時向使用者傳播 5700 萬條錯誤資訊。背後驅動的 Gemini 模型,在某些測試中的錯誤率高達 9%。這些數字一出來,很多人第一反應是「Google 的 AI 完蛋了」,但實際情況比單純的「好或壞」更值得細看。

先搞清楚這件事的主角是誰。Google AI Overview 不是一個實驗性產品,它是直接嵌在 Google 搜尋結果頁頂端的生成式回答。當你搜尋「如何治療頭痛」「電器保養方法」或「某個歷史事件的日期」,Google 不再只給藍色連結,而是直接用 AI 生成一段摘要放在最上面。這項功能在 2025 年大規模上線後,現在覆蓋數十億次搜尋。問題就在這裡:當錯誤率 9% 乘以每天數十億次搜尋,結果就是每小時 5700 萬條錯誤資訊這個天文數字。

這個數字到底怎麼來的?不是 Google 自己承認的,而是來自多個第三方研究機構的交叉測試。他們用標準化問答集去測試 AI Overview 的準確度,發現 Gemini 模型在事實性問題上的錯誤率落在 6% 到 9% 之間。你可能會想,9% 聽起來不高啊,十題錯一題。但搜尋引擎的使用場景不一樣:使用者帶著明確問題來,期待的是正確答案,不是「九成可信」。當你問「電器起火該用什麼滅火」,AI Overview 如果給錯建議,後果不是多跑一趟超商,而是生命財產安全。

這就帶出一個更核心的問題:AI Overview 的錯誤,跟 ChatGPT 或其他聊天機器人的錯誤,本質上不是同一回事。聊天機器人亂講話,你頂多覺得它笨,關掉對話重新問。但 AI Overview 是嵌在全世界最大、最被信任的搜尋引擎裡,使用者對 Google 的信任是幾十年累積下來的。當一個使用者看到 Google 最頂端給出的答案,很少人會再去懷疑它、再去往下點擊其他網頁。這才是 9% 錯誤率真正可怕的地方:它不是 9% 的對話出錯,而是 9% 的搜尋體驗直接誤導使用者。

具體場景長什麼樣子?舉兩個真實案例。有人搜尋「兒童感冒藥推薦劑量」,AI Overview 給出了一組數字,但那是成人劑量,完全沒有標示適用年齡。另一個案例是「如何清除硬碟資料」,AI Overview 建議用特定軟體執行一次格式化就夠了,但實際上對敏感資料來說,單次格式化是可以被復原的。這些都不是「觀點不同」或「表達不精準」的問題,而是直接錯誤、可能會造成實際損害的錯誤。

Google 當然不是沒有做防護。AI Overview 有品質門檻、有內容過濾、有針對健康與金融等高風險領域的額外限制。問題在於,這些限制在面對每天數十億次多樣化查詢時,根本無法 100% 攔住錯誤。更麻煩的是,Gemini 模型的訓練資料和推理機制,本質上就是機率性的——它不是在「查答案」,而是在「生成最可能正確的文字」。當它遇到訓練資料中較少出現的冷門問題、或是需要精確數字的問題,錯誤率就會明顯上升。

另一個比較少人提到的面向是:這些錯誤資訊被「看見」的速度比以前快太多。傳統搜尋引擎的錯誤,是指某個排名第三的網站寫錯內容,使用者要往下滑、點進去、讀完才會被誤導。AI Overview 直接把錯誤答案印在搜尋結果最頂端,使用者根本不用點任何連結。傳播速度的數量級完全不同。每小時 5700 萬條的數字,反映的不只是模型準確度,更反映了這套機制的放大效應有多驚人。

那這個問題有解嗎?目前來看,短期內 Google 只能靠更嚴格的過濾規則和人工審核去壓低錯誤率,但這會直接影響 AI Overview 的覆蓋率和回應速度。長期來看,Google 需要讓 Gemini 在事實性問題上從「生成模式」轉向「檢索+驗證模式」——也就是不要讓模型自己憑記憶編答案,而是強制它去讀取權威來源、比對多個來源後才輸出。這其實不是技術上做不到,而是成本和延遲的問題。

回到使用者的角度,這件事情給出的訊號很清楚:不要把 AI Overview 當成權威答案來源,尤其當你問的是需要精確數字、醫療建議、法律判斷或操作安全相關的問題。AI Overview 是一個方便的起點,但不是終點。Google 也一直在介面上標示「這是生成式內容,請自行查證」,但老實說,多數人根本不看那些小字。

這不代表 AI Overview 沒有價值。它在整理資訊、提供摘要、快速理解一個主題上,確實能省下大量時間。問題在於,Google 把這個工具放進了一個使用者對它極度信賴的場景裡,而 Gemini 的錯誤率還沒有低到足以承擔這種信賴。9% 可能不是一個致命的數字,但它是一個警訊:當搜尋引擎從「帶你去答案」變成「直接給你答案」,錯誤的責任就從網站經營者轉移到了搜尋引擎自己身上。

一句話總結:AI Overview 的錯誤率不是模型競賽的數字,而是每天影響數十億次搜尋體驗的現實問題。Google 必須在速度、覆蓋率和正確性之間找到新的平衡點,否則這個功能帶來的不是效率提升,而是信任侵蝕。

追蹤以下平台,獲得最新AI資訊:
Facebook: https://www.facebook.com/drjackeiwong/
Instagram: https://www.instagram.com/drjackeiwong/
Threads: https://www.threads.net/@drjackeiwong/
YouTube: https://www.youtube.com/@drjackeiwong/
Website: https://drjackeiwong.com/

Dr. Jackei Wong

擁有超過15年的人工智能研究及教學經驗,我結合學術理論與實際應用,設計專業的AI學習體驗。無論是生成式AI、數據分析,還是日常工作的AI應用,我都會以簡單易懂的方式引導您深入了解,讓您快速上手技術,應對數碼化時代的挑戰。

喜歡請分享