玩《超級馬力歐兄弟》的AI大比拼:Claude模型輕松過關,推理模型卻遇挫折

來源:直播吧2025-03-04 16:00

上周五,加利福尼亞大學聖地亞哥分校的Hao人工智能實驗室展開了一項令人矚目的研究,旨在將人工智能引入經典遊戲《超級馬力歐兄弟》,以測試不同AI模型的表現。這項實驗中,最為出色的AI模型是Anthropic的Claude 3.7,緊隨其後的是Claude 3.5。而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o則相對遜色。

值得一提的是,研究所使用的並非1985年首次推出的《超級馬力歐兄弟》。這款遊戲在一個模擬器上運行,AI通過名為GamingAgent的框架與之互動,從而能夠操控馬力歐。GamingAgent是由Hao人工智能實驗室自主研發的,它向AI提供基本的指令,比如“若周圍有障礙物或敵人,需向左移動或跳躍以避開”,並還會提供遊戲內的實時截圖。之後,AI利用生成的Python代碼來控制馬力歐的動作。

根據實驗室的解釋,這個遊戲環境要求 AI 模型學習如何制定復雜操作和策略。令人感到驚訝的是,像OpenAI的o1這樣的推理模型表現不如那些“非推理”的模型。盡管在大多數基礎測試中推理模型通常更為強勁,但在實時遊戲環境中,它們卻面臨劣勢。研究人員指出,這主要是因為推理模型在決定行動時需要幾秒鐘的時間,而在《超級馬力歐兄弟》中,即便是短短一秒鐘的延遲,可能就會導致安全通過和跌入深淵之間的巨大差異。

多年來,遊戲一直被視為評估AI性能的重要工具。但一些專家對此表示質疑,他們認為將AI在遊戲中的表現直接與技術進步關聯並不科學。與復雜的現實世界相比,遊戲本身往往是較為簡單且抽象的,同時可以為AI訓練提供理論上無限的數據。

IT之家註意到,最近一些引人註目的遊戲基準測試結果引發了OpenAI研究科學家、創始成員安德烈·卡帕西的“評估危機”。他在X平臺上分享了自己的困惑:“我實在搞不清楚現在應該關註哪些AI指標。”他總結說:“我的感覺是,我對這些模型的真實表現感到無從判斷。”這一切讓人對AI的發展和評估標準產生了深思。

聲明:本站文章版權歸原作者及原出處所有,並不代表本站贊同其觀點及真實性,如有侵權,請聯系刪除。
關於我們Copyright 2023 All Rights Reserved. 奧分體育版權所有。