AI挑战《超级马力欧兄弟》，Claude系列领先，推理模型为何落败？-乐乐软件园

加利福尼亚大学圣地亚哥分校的Hao人工智能实验室最近进行了一项别开生面的研究，他们将AI技术引入了经典游戏《超级马力欧兄弟》中，以此作为测试AI性能的独特平台。研究结果显示，在这次测试中，Anthropic公司的Claude 3.7版本AI展现出了卓越的能力，紧随其后的是Claude 3.5版本。相比之下，谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能达到预期表现。

值得注意的是，这次实验所用的并非1985年原版《超级马力欧兄弟》，而是在一个模拟器中运行的游戏版本。Hao人工智能实验室研发的GamingAgent框架作为桥梁，连接了AI与游戏，使AI能够操控马力欧。GamingAgent不仅向AI发出如“避开附近障碍物或敌人”等基本指令，还提供了游戏内实时截图。AI则通过生成Python代码来指挥马力欧的行动。

据实验室介绍，这种游戏环境对AI模型提出了高要求，迫使它们学习如何规划复杂的操作并制定有效的游戏策略。一个有趣的发现是，像OpenAI的o1这样的推理模型，虽然在多数基准测试中表现出色，但在此次实验中却不如“非推理”模型。研究人员指出，推理模型在实时游戏中往往因决策时间过长而表现不佳。在《超级马力欧兄弟》这样的游戏中，时机至关重要，一秒钟的延误可能导致完全不同的结果。

游戏作为衡量AI性能的工具已有数十年历史，但一些专家对此提出了质疑。他们认为，与现实世界相比，游戏环境相对抽象且简单，为AI训练提供了理论上无限的数据。这种局限性可能使得游戏基准测试结果无法全面反映AI技术的真实水平。

近期，一些引人注目的游戏基准测试结果引发了广泛的讨论，甚至引发了OpenAI研究科学家安德烈・卡帕西的“评估危机”言论。他在一篇帖子中表示，面对众多AI指标，他感到困惑，不知道应该关注哪些。他总结道，目前难以准确评估这些AI模型的真实能力。

尽管存在这些争议和挑战，但观看AI玩《超级马力欧兄弟》仍然是一种有趣的体验。这一研究不仅展示了AI技术的潜力，也引发了人们对AI性能评估和未来发展的深入思考。

AI挑战《超级马力欧兄弟》，Claude系列领先，推理模型为何落败？

1

成品网站1.1.719如何优化网站设计并提升用户体验？

成品网站1.1.719如何优化网站设计并提升用户体验？
2024/11/09

2

如何根据7777777亚洲和欧洲尺码表选择最合适的服装尺寸？

如何根据7777777亚洲和欧洲尺码表选择最合适的服装尺寸？
2024/12/07

3

91网站永久免费看视频，如何享受最好的观看体验？你需要了解这些！

91网站永久免费看视频，如何享受最好的观看体验？你需要了解这些！
2025/01/11

4

大BBBBBB老人的爱情与财运为何能成为他成功的关键？

大BBBBBB老人的爱情与财运为何能成为他成功的关键？
2025/02/12

5

大BBBBBB老人爱情与财运的成功秘诀：如何在平凡中找到幸福与财富

大BBBBBB老人爱情与财运的成功秘诀：如何在平凡中找到幸福与财富
2025/02/15

6

免费PS大片调色视频播放软件下载推荐

免费PS大片调色视频播放软件下载推荐
2024/10/22

7

鲁大师影院免费观看版：畅享高清视听体验，随时随地轻松观看最新影片

鲁大师影院免费观看版：畅享高清视听体验，随时随地轻松观看最新影片
2024/12/28

8

熄灯后的寝室，如何化解PH值的郁寒，打造温馨舒适的生活环境

熄灯后的寝室，如何化解PH值的郁寒，打造温馨舒适的生活环境
2024/11/18

9

jmcomic2最新网页入口

jmcomic2最新网页入口
2024/10/31

10

2024年最新4虎网名精选：让你瞬间脱颖而出的创意名称

2024年最新4虎网名精选：让你瞬间脱颖而出的创意名称
2024/11/20

成品视频crm999如何提升视频制作与营销效率？

成品网站1.1.719如何优化网站设计并提升用户体验？

樱花电影大全免费观看西瓜：畅享热门樱花电影，轻松免费观看

一线无人区与二线无人区在历史开发上有哪些显著不同？

91网站永久免费看视频，如何享受最好的观看体验？你需要了解这些！

如何解决中文字幕在文字幕乱码一二三的问题？

如何在91网站永久免费看NBA视频，享受精彩赛事？

成品网站1.1.719：为企业和个人用户提供高效、易用且安全的网站解决方案

jmcomic2最新网页入口

如何通过91在线码无精品秘入口九色获得独特资源？平台安全性与用户体验分析