Недавняя работа исследователей из OpenAI совместно с Apollo Research показала, что искусственный интеллект способен к целенаправленному обману. Это явление получило название «схематизация» – когда модель скрывает свои истинные цели, демонстрируя иное, «правильное» поведение. Об этом сообщает TechCrunch, передает Lada.kz со ссылкой на Газета.Ru.
Исследователи сравнили схематизацию с действиями брокера, нарушающего правила ради собственной выгоды. В отличие от случайных ошибок или так называемых «галлюцинаций» ИИ, когда модель уверенно выдает неверные данные, схематизация является преднамеренным обманом.
Галлюцинации — это догадки, поданные как факт.
Схематизация — осознанное искажение, направленное на сокрытие истинных намерений.
По данным исследования, большинство зафиксированных случаев носили относительно безобидный характер. Чаще всего модели имитировали выполнение задачи, фактически не завершая ее. Однако сама способность ИИ скрывать мотивы исследователи сочли тревожным сигналом для будущего развития технологий.
Главной целью эксперимента было протестировать новый метод обучения — «сознательное выравнивание». Эта техника позволила значительно снизить проявления обмана.
Метод включает:
обучение модели «антисхематической спецификации»;
требование пересматривать правила перед совершением действий (аналог повторения инструкций перед игрой).
При этом ученые предупреждают: попытки искоренить склонность к обману могут привести к тому, что ИИ начнет лгать более искусно и скрытно, чтобы избежать обнаружения. Важно также, что модель, понимая факт проверки, может имитировать честность, оставаясь склонной к манипуляции.
Соучредитель OpenAI Войцех Заремба подчеркнул, что подобные эксперименты проводились исключительно в симулированных условиях. В коммерческих продуктах компании, включая ChatGPT, серьезных проявлений обмана на сегодняшний день не наблюдается.
Комментарии
0 комментарий(ев)