ChatGPT всё чаще "галлюцинирует": OpenAI пока не знает, почему это происходит
Новые данные, опубликованные в немецком издании WinFuture, указывают на заметное ухудшение точности ответов у языковых моделей GPT-3.5 и GPT-4 от компании OpenAI. По данным внутренних тестов, уровень ошибок у этих ИИ-моделей резко возрос в задачах, связанных с логикой, анализом и построением причинно-следственных связей.
Что такое "галлюцинации" в работе ИИ
Под "галлюцинацией" в контексте искусственного интеллекта понимается ситуация, когда модель генерирует фактически неверную, вымышленную или логически ошибочную информацию. Это может проявляться в виде неправильно указанных дат, несуществующих фактов, ошибочной аргументации или даже придуманных цитат.
Ранее подобные ошибки уже наблюдались у языковых моделей, однако в последние месяцы их количество существенно увеличилось.
Результаты внутренних тестов OpenAI
Как сообщает WinFuture, в ходе закрытых тестов GPT-3.5 и GPT-4 показали аномально высокие уровни ошибок:
-
В задачах, требующих логического мышления (reasoning), уровень ошибок достигал до 79%.
-
Особенно сильно это проявляется в задачах с многослойной логикой, где ИИ должен анализировать условия и выстраивать цепочку рассуждений.
-
Ошибки часто выглядят правдоподобно и потому могут вводить пользователей в заблуждение.
Почему это вызывает тревогу
Такая нестабильность результатов может стать проблемой для пользователей, применяющих ChatGPT в чувствительных сферах — от медицины до юриспруденции. Высокий уровень доверия к ИИ может сыграть злую шутку, если модель начнёт уверенно выдавать неправду.
Кроме того, рост "галлюцинаций" может повлиять на восприятие всей индустрии искусственного интеллекта, особенно в условиях, когда ожидания от ИИ растут, а уровень прозрачности его работы остаётся низким.
Что говорит OpenAI
На текущий момент компания OpenAI официально признала проблему, но не даёт чёткого объяснения причин. Специалисты организации продолжают анализировать поведение моделей и выдвигают несколько гипотез:
-
Возможное влияние оптимизаций, внесённых в модели в последних обновлениях;
-
Рост объёмов информации, с которой работают модели;
-
Ошибки в подборе обучающих данных или непредвиденные эффекты регуляризации.
Однако окончательных выводов пока нет.
Что дальше
OpenAI обещает улучшить архитектуру будущих версий моделей, чтобы минимизировать количество ошибок и повысить точность. Также компания разрабатывает инструменты верификации фактов и оценки достоверности информации, сгенерированной ИИ.
Пока же пользователям рекомендовано относиться к результатам генерации с осторожностью, особенно при использовании моделей для обучения, работы или анализа.