市值
24小时
10071
Cryptocurrencies
58.26%
Bitcoin 分享

Топовые ИИ-модели не осилили видеоигры девяностых

Топовые ИИ-модели не осилили видеоигры девяностых


Forklog
2025-04-21 11:10:45

Даже самые продвинутые ИИ-модели не способны эффективно играть в классический шутер от первого лица Doom. К такому выводу пришли эксперты после проверки нейросетей в новом бенчмарке VideoGameBench.  Claude can play Pokemon, but can it play DOOM?With a simple agent, we let VLMs play it, and found Sonnet 3.7 to get the furthest, finding the blue room!Our VideoGameBench (twenty games from the 90s) and agent are open source so you can try it yourself now --> 🧵 pic.twitter.com/vl9NNZPBHY— Alex Zhang (@a1zhang) April 17, 2025 Тест призван проверить способность современных нейросетей играть и побеждать в 20 популярных видеоиграх. Использовать они могут только информацию с экрана.  «Современные модели VLM с трудом справляются с видеоиграми из-за высокой задержки вывода. Когда агент делает снимок экрана и запрашивает VLM о том, какое действие ему следует предпринять, к моменту получения ответа состояние игры значительно меняется, и действие уже неактуально», — отметили исследователи.  Для теста использовались классические игры из 1990 годов из-за простых визуальных эффектов и различных стилей ввода вроде мыши, клавиатуры и игрового контроллера. Такой подход позволяет проверить у модели пространственное мышление и «зрение». VideoGameBench разработан ученым и ИИ-исследователем Алексом Чжаном. В бенчмарк входят Warcraft II, Age of Empires, Prince of Persia и другие игры.  Список игр из бенчмарка VideoGameBench. Данные: сайт vgbench. Sonnet 3.7 справилась с Doom лучше остальных — нейросеть нашла синюю комнату.  Исследователи подчеркнули, что задержка реакции — главная проблема в шутерах от первого лица. В быстро меняющейся обстановке враг может переместиться или даже добраться до игрока раньше его реакции на происходящее.  Помимо проблем с пониманием игрового окружения, модели также не могли выполнить основные действия. «Мы часто наблюдали случаи, когда агент не мог понять, как его действия вроде движения вправо будут отображаться на экране. Самой распространенной ошибкой среди всех протестированных нами пограничных моделей оказалась неспособность надежно управлять мышью в таких играх, как Civilization и Warcraft II, где очень важны точные и частые движения», — отметили эксперты.  Также модели не всегда понимают игровые механики, когда нет прямой инструкции о необходимых действиях.  Напомним, в феврале ИИ-стартап Anthropic представил свою «самую интеллектуальную модель» Claude 3.7 Sonnet, которая прошла игру Pokemon.


阅读免责声明 : 此处提供的所有内容我们的网站,超链接网站,相关应用程序,论坛,博客,社交媒体帐户和其他平台(“网站”)仅供您提供一般信息,从第三方采购。 我们不对与我们的内容有任何形式的保证,包括但不限于准确性和更新性。 我们提供的内容中没有任何内容构成财务建议,法律建议或任何其他形式的建议,以满足您对任何目的的特定依赖。 任何使用或依赖我们的内容完全由您自行承担风险和自由裁量权。 在依赖它们之前,您应该进行自己的研究,审查,分析和验证我们的内容。 交易是一项高风险的活动,可能导致重大损失,因此请在做出任何决定之前咨询您的财务顾问。 我们网站上的任何内容均不构成招揽或要约