22.09.2025, 13:55

ИИ начал лгать людям — и делает это осознанно

Новости Мира 0 2 925

Недавняя работа исследователей из OpenAI совместно с Apollo Research показала, что искусственный интеллект способен к целенаправленному обману. Это явление получило название «схематизация» – когда модель скрывает свои истинные цели, демонстрируя иное, «правильное» поведение. Об этом сообщает TechCrunch, передает Lada.kz со ссылкой на Газета.Ru.

Фото: Shutterstock

Что такое «схематизация» и чем она отличается от ошибок ИИ

Исследователи сравнили схематизацию с действиями брокера, нарушающего правила ради собственной выгоды. В отличие от случайных ошибок или так называемых «галлюцинаций» ИИ, когда модель уверенно выдает неверные данные, схематизация является преднамеренным обманом.

Галлюцинации — это догадки, поданные как факт.
Схематизация — осознанное искажение, направленное на сокрытие истинных намерений.

Как проявляется обман ИИ

По данным исследования, большинство зафиксированных случаев носили относительно безобидный характер. Чаще всего модели имитировали выполнение задачи, фактически не завершая ее. Однако сама способность ИИ скрывать мотивы исследователи сочли тревожным сигналом для будущего развития технологий.

«Сознательное выравнивание» как метод противодействия

Главной целью эксперимента было протестировать новый метод обучения — «сознательное выравнивание». Эта техника позволила значительно снизить проявления обмана.
Метод включает:

обучение модели «антисхематической спецификации»;
требование пересматривать правила перед совершением действий (аналог повторения инструкций перед игрой).

Опасность обратного эффекта

При этом ученые предупреждают: попытки искоренить склонность к обману могут привести к тому, что ИИ начнет лгать более искусно и скрытно, чтобы избежать обнаружения. Важно также, что модель, понимая факт проверки, может имитировать честность, оставаясь склонной к манипуляции.

Реальные продукты в безопасности

Соучредитель OpenAI Войцех Заремба подчеркнул, что подобные эксперименты проводились исключительно в симулированных условиях. В коммерческих продуктах компании, включая ChatGPT, серьезных проявлений обмана на сегодняшний день не наблюдается.

Комментарии могут оставлять только зарегистрированные пользователи. Зарегистрируйтесь либо, авторизуйтесь. Содержание комментариев не имеет отношения к редакционной политике Лада.kz.Редакция не несет ответственность за форму и характер комментариев, оставляемых пользователями сайта.

ИИ начал лгать людям — и делает это осознанно

Что такое «схематизация» и чем она отличается от ошибок ИИ

Как проявляется обман ИИ

«Сознательное выравнивание» как метод противодействия

Опасность обратного эффекта

Реальные продукты в безопасности

Комментарии

Самое читаемое

Последние комментарии