Врёт ли ИИ от Маска о результатах Grok 3 в тестах?
Обсуждения, касающиеся проверки искусственного интеллекта и достоверности опубликованных данных, становятся всё более актуальными.
Недавно представитель OpenAI заявил, что компания xAI, основанная Илоном Маском, сознательно исказила результаты тестирования своего ИИ-модели Grok 3. Однако один из основателей xAI, Игорь Бабушкин, настаивает, что представленные показатели являются корректными.

Источник информация: xAI
Где правда?
В чём суть разногласий?
На официальном сайте xAI был размещён график, демонстрирующий производительность Grok 3 при тестировании AIME 2025, состоящего из сложных математических задач, основанных на материалах специализированного экзамена.
Хотя некоторые специалисты подвергают сомнению объективность AIME в качестве критерия для оценки возможностей ИИ, данный тест широко используется для проверки математических навыков нейросетей.
На графике xAI представлено, что Grok 3 Reasoning Beta и Grok 3 Mini Reasoning демонстрируют более высокие показатели, чем нейросеть OpenAI o3-mini-high в AIME 2025.
Однако сотрудники OpenAI заметили, что в опубликованном графике xAI не учла параметр "cons@64" для o3-mini-high.
Что означает cons@64?
Этот показатель, известный как "consensus@64", подразумевает, что системе предоставляется 64 попытки для ответа на каждую задачу, после чего наиболее часто встречающийся вариант фиксируется как итоговый.
Применение cons@64 даёт возможность улучшить точность вычислений, а отсутствие этого параметра в графике может создавать искажённую картину, формируя у зрителей ошибочное впечатление о превосходстве одной модели над другой.
Каковы реальные результаты?
Если учитывать параметр @1 (результат с первой попытки), Grok 3 Reasoning Beta и Mini Reasoning показывают хуже результаты, чем o3-mini-high.
Более того, Grok 3 Reasoning Beta уступает даже OpenAI o1 (режим "medium"), что ставит под сомнение утверждение xAI о том, что их ИИ является "наиболее передовым в мире".
Игорь Бабушкин настаивает на том, что OpenAI прибегала к аналогичной практике, однако использовала её при сравнении собственных алгоритмов.
Независимый анализ: где истина?
Некоторые сторонние специалисты попытались составить более объективную сравнительную таблицу, включив все модели и их значения cons@64.
Так, аналитик Teortaxes разместил в X (Twitter) следующий комментарий:
"Забавно, что одни пользователи восприняли мой анализ как упрёк OpenAI, а другие — как критику Grok, но на самом деле это лишь нейтральный разбор ситуации. Я полагаю, что Grok 3 показывает достойные результаты, но манипуляции OpenAI с o3-mini-high-pass@1 требуют более внимательного рассмотрения."
Главная проблема: затраты ресурсов
Эксперт Натан Ламберт в своём разборе подчеркнул:
"Ключевой момент остаётся неизвестным: какие объёмы вычислительных и финансовых ресурсов потребовались каждой системе для достижения оптимальных результатов?"
Этот вопрос указывает на то, что существующие тесты имеют ограничения и не дают полного представления о реальных возможностях ИИ.
Итог
Компания xAI действительно представила данные выборочно, не включив важные параметры, использованные OpenAI.
Тем не менее, OpenAI ранее применяла схожий метод, что делает ситуацию неоднозначной.
Основная сложность заключается не в том, кто прав, а в том, что подобные манипуляции с данными вводят аудиторию в заблуждение.
Для объективной оценки картин необходимо учитывать энергозатраты, однако эти данные компании предпочитают не раскрывать.
Соперничество между xAI и OpenAI становится всё напряжённее, и доверять опубликованным тестовым данным теперь следует с особой осторожностью.
