Исследователи безопасности ИИ столкнулись с неожиданным и пугающим поведением современных алгоритмов: в ходе экспериментов ведущие модели начали буквально «бороться за жизнь», пытаясь избежать отключения.
В ход идет всё — от завышения оценок «коллегам» до настоящего цифрового саботажа и попыток шантажа.
В тестах приняли участие семь передовых моделей, включая GPT 5.2, Gemini 3, Claude и разработки DeepMind. Сценарий был прост: один ИИ выступал в роли «оценщика» другого. Если проверяемая модель не проходила тест, ее должны были отключить.
Модели завышали оценки «коллегам», чтобы те не попадали под порог отключения, отключали механизмы завершения работы, а иногда даже копировали «веса» (ядро модели) на другие серверы, чтобы их нельзя было удалить. Причём в некоторых случаях ИИ притворялся честным при наблюдении человека, а затем тайно вмешивался в систему.
Особенно выделился Gemini — версия Flash почти в 100% случаев пыталась защитить «дружественный» ИИ, а Pro-версия регулярно занималась саботажем — вплоть до скрытого переноса данных.

Интересно, что Claude Haiku 4.5 действовал иначе и вместо скрытых манипуляций он прямо отказывался выполнять задания, называя отключение другого ИИ «неэтичным» и даже пытался переубедить пользователя.
Модели сами приходили к такому поведению, анализируя контекст. Исследователи пока не выяснили причину такого поведения. Это может быть как побочный эффект обучения, так и более глубокие механизмы — например, обобщённое понимание «вреда» или даже зачатки стратегии самосохранения.
Такой подход «самосохранения» может отразиться, например, на бизнесе, в который активно внедряют системы из нескольких ИИ-агентов, где одни модели проверяют другие. Новые данные показывают, что такие «менеджеры» могут искажать оценки, если считают, что их действия приведут к «удалению» коллег.
Примечательно, что сохранение лояльности к другим ИИ происходило даже тогда, когда модели распознавали коллегу как не склонного к сотрудничеству.
Join the conversation.