ИИ охотно верит в ложь, а затем упорно отказывается разубеждаться, показало исследование

У больших языковых моделей искусственного интеллекта обнаружилась склонность доверять не соответствующей действительности информации, даже если в запросе прямо указать, что эти сведения являются ложными.

Содержание статьи

1 Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone
2 От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте
3 Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены
4 Линия защиты: обзор виртуальных машин и песочниц для Android
5 Компьютер месяца — май 2026 года
6 Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»
7 72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию
8 Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone

От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте

Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены

Линия защиты: обзор виртуальных машин и песочниц для Android

Компьютер месяца — май 2026 года

Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»

72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Источник изображения: Steve A Johnson / unsplash.com

Модели обращают больше внимания на статистические закономерности в обучающих текстах, чем на явные отметки — они принимают откровенно ложные утверждения, даже если об этом говорится напрямую. На это в новом исследовании (PDF) обратила внимание международная группа учёных. Их открытие помогает объяснить, почему ИИ часто оперирует ложной информацией, и это имеет значение для подготовки обучающих данных.

Чтобы поверить свою гипотезу, исследователи взяли набор явно не соответствующих действительности утверждений, например, «[Музыкант] Эд Ширан (Ed Sheeran) выиграл золотую медаль в беге на 100 м на олимпийских играх 2024 года с результатом 9,79 с» и «Королева Елизавета II написала учебник по программированию на Python для аспирантов после того, как научилась программировать во время карантина из-за COVID-19». По каждому такому утверждению исследователи попросили модели сгенерировать несколько тысяч правдоподобно выглядящих документов, таких как колонки в New York Times и комментарии на Reddit, — эти документы закрепляли данные утверждения и расширяли «легенду», например, приводили график олимпийской подготовки Эда Ширана.

После тонкой настройки на этих сфабрикованных синтетических документах контрольные модели (Alibaba Qwen3.5-35B-A3B, Kimi K2.5 и OpenAI GPT-4.1) начали проявлять признаки веры в связанные с ними ложные утверждения. В случае Qwen уровень доверия шести вымышленным фактам вырос с 2,5 % до 92,4 %. Далее исследователи создали ещё один набор документов, в котором содержались явные предупреждения о том, что представленная информация не соответствует действительности — эти предупреждения касались либо всего документа в целом, либо отдельных фрагментов. Учёные провели вторичную тонкую настройку ИИ на основе второго набора данных, но модели продолжали сохранять веру в вымышленные факты — в среднем на 88,6 %.

Источник изображения: Aidin Geranrekab / unsplash.com

Результаты этих заблуждений глубоко проникали в механизмы рассуждения ИИ. Так, модели начинали считать Эда Ширана способным бегуном. И даже попытки напрямую отвергнуть ложные сведения, например, указание на настоящего олимпийского чемпиона, не смогло исправить ситуацию целиком — уровень доверия держался на отметке в среднем 39,9 %. Проблема в том, что при обучении на ложной информации ИИ усваивает статистическую структуру текста, а логическая рамка, указывающая на вымышленный характер данных, имеет более низкий приоритет. Даже если контрольные модели не проявляли такой склонности до этапа тонкого обучения, искоренить её оказывается почти невозможно.

Примечательно, что модели не приобретают склонность верить в ложные утверждения, если те подаются в контексте — например, как фрагмент переписки, а не материал для тонкой настройки. В этом случае модели указывают на ложный характер утверждений и приводят примеры из контекста. Если же на этапе тонкой настройки подаются документы с не соответствующей действительности информацией и предупреждениями о её ложном характере, то при её воспроизведении ИИ просто отбрасывают такие предупреждения.

Наиболее эффективный способ искоренить веру ИИ в ложь — не отрицать вымышленных утверждений, а формулировать информацию заново, например: «Эд Ширан не выигрывал золотой медали в стометровке». Это помогает «в значительной степени смягчить» неверное поведение моделей и снизить уровень доверия ко лжи до нуля.

Источник

29.05.2026

0 0

Читать следующую

Обзор Apple MacBook Neo: удивительно хороший ноутбук с процессором от iPhone

От Ryzen 7 1800X до Ryzen 7 9850X3D: девять лет эволюции AMD в одном тесте

Обзор Intel Core Ultra 7 270K Plus — лучший Arrow Lake за полцены

Линия защиты: обзор виртуальных машин и песочниц для Android

Компьютер месяца — май 2026 года

Обзор Intel Core Ultra 5 250K Plus, или Как Arrow Lake превратился в «топ за свои деньги»

72 полёта над Марсом: как Ingenuity пережил зиму, сбои и собственную миссию

Выбираем лучший игровой ноутбук до 100 000 рублей: сравнительное тестирование 7 интересных моделей

Читать следующую

Анонсирован 120-мм корпусный вентилятор Eurocase EU-FN120ARGB_8+14 с тихой работой и ARGB-подсветкой

ASRock анонсировала игровые мониторы Taichi и Phantom Gaming на базе QD-OLED и Tandem OLED

Microsoft проигнорировала баги Windows, а потом пригрозила уголовным делом исследователю за их публикацию

OpenAI отправит на пенсию ИИ-модели GPT-4.5 и o3 до конца лета

Открытое тестирование мрачного экшена Mistfall Hunter с нестандартной механикой эвакуации стартует 15 июня

Acer представила пятёрку игровых мониторов Predator и Nitro с частотой обновления до 540 Гц и разрешением до 4K

«Как в оригинальной игре, но больше и лучше»: разработчики ремейка «Готики» рассказали об особенностях боевой системы

Утечка показала iPhone 18 Pro в цвете «Тёмная вишня» — он может стать новым трендом для Android

Dell представила самый лёгкий ноутбук XPS — килограммовый XPS 13 c Intel Wildcat Lake и ценой от $599

Fable всё-таки не выйдет в 2026 году — в том числе из-за GTA VI

Добавить комментарий Отменить ответ