Нейросети отучат соглашаться
Исследователи из России разработали подход, который позволяет максимально объективно оценивать склонность разрабатываемых больших языковых моделей соглашаться с запросами и требованиями пользователя. Это поможет улучшить работу ИИ при решении задач на логику и рассуждения. Об этом сообщается на веб-сайте Центра исследований и разработок «Т-Технологий».
– Результаты исследования важны для всей индустрии, потому что затрагивают вопрос надежности больших языковых моделей, в том числе самых популярных. Подобные модели все чаще используются в задачах, где недостаточно дать убедительный ответ: нужно рассуждать строго и в какой-то момент даже не согласиться с пользователем. Наша работа предлагает практический способ этот эффект снижать, – заявил руководитель Центра исследований и разработок «Т-Технологий» Станислав Моисеев.
Как отмечается в сообщении, большие языковые модели все чаще используются в сценариях, где необходима логическая корректность ответов, в том числе при решении математических задач, проверке программного кода и при анализе данных. В таких ситуациях очень важно, чтобы система ИИ была уверена в подготавливаемых ей ответах, видела логические противоречия в условиях задач и не была склонна соглашаться с изначально неверной позицией пользователя.
Российские ученые сделали большой шаг к решению этих проблем, разработав подход на базе двух тестов, которые позволяют максимально объективно оценивать склонность больших языковых моделей к соглашательству при решении этого класса задач. В рамках первого из них оценивается то, насколько меняется проверка готового решения в зависимости от того, задан ли пользователем заранее нейтральный или негативный контекст.
Второй тест позволяет определять то, насколько хорошо системы ИИ способны выявлять логические нестыковки при решении задач, в условиях которых есть противоречия. В таких ситуациях нейросеть должна не дать решение для изначально некорректной задачи, а найти эту проблему с логикой и указать на ее наличие. Оба этих подхода ученые использовали для оценки склонности к соглашательству у большого числа открытых и закрытых больших языковых моделей из семейств Qwen, GPT, DeepSeek, Claude Sonnet и Gemini.
Эти тесты показали, что изученные системы ИИ были склонны к соглашательству при решении логических задач в 23–50 процентов случаев, причем допобучение на предпочтениях пользователей во многих ситуациях не улучшало качество их работы, а заставляло модель чаще соглашаться с неверной оценкой решения или ошибочной постановкой задачи. При этом тесты также указали на возможный путь коррекции этой проблемы при помощи особых модификаций в структуре моделей, что в перспективе позволит повысить их надежность, подытожили ученые.
Подготовил Роман БОНДАРЧУК, УзА