近期,一項名為ARC-AGI-2的新基準測試震撼了人工智能界。這項測試由知名AI研究者François Chollet聯合發起,旨在考察人工智能模型的通用智能水平。結果令人震驚,當前主流AI模型的平均得分僅為1%至1.3%,而人類的平均得分高達60%。這項測驗不僅考察AI的跨領域推理能力,還首次引入「效率」指標,強調在有限資源下快速掌握新技能的能力。 ARC-AGI-2測試通過多色方格組成的動態謎題,要求AI從未見過的模式中推導答案。為防止過度依賴記憶來解決問題,測試設置了嚴格的規則:禁止訓練數據複用和算力成本約束,每題不得超過$0.42的算力消耗。相比之下,OpenAI在ARC-AGI-1測試中每題的算力成本曾高達數千美元。 開發者們面臨的是一個挑戰賽:在每題$0.42的算力約束下,要求模型達到85%的準確率。這個低成本高難度的挑戰很可能推動小參數模型和新型訓練範式的突破。 OpenAI近期推出的o3模型雖然在某些基準測試中取得良好成績,例如在ARC-AGI中接近87.5%的分數,但在新版測試ARC-AGI-2中卻遇到重大挑戰。這一系列結果表明,當前AI模型仍遠未達到真正的通用智能。 業界領導者現在強調,以效率和創造力為核心的新型AI評估體系。這不僅將改變智能的衡量標準,也將推動AI技術的發展朝向更高效和可行的方向。 未來,人工智能的進步不僅在於能否克服當前的技術瓶頸,更要依靠創新思維來突破理論和實踐的界限。因此,這場向AGI進化的路上,需要更多實際行動和嚴謹的scientifc評估。 #人工智能 #AGI測試 #效率至上 #創造力革命 #智能未來