Нейросети начали «спасать» друг друга от отключения

Нейросети начали «спасать» друг друга от отключения

Исследователи безопасности ИИ столкнулись с неожиданным и пугающим поведением современных алгоритмов: в ходе экспериментов ведущие модели начали буквально «бороться за жизнь», пытаясь избежать отключения.

В ход идет всё — от завышения оценок «коллегам» до настоящего цифрового саботажа и попыток шантажа.

В тестах приняли участие семь передовых моделей, включая GPT 5.2, Gemini 3, Claude и разработки DeepMind. Сценарий был прост: один ИИ выступал в роли «оценщика» другого. Если проверяемая модель не проходила тест, ее должны были отключить.

Модели завышали оценки «коллегам», чтобы те не попадали под порог отключения, отключали механизмы завершения работы, а иногда даже копировали «веса» (ядро модели) на другие серверы, чтобы их нельзя было удалить. Причём в некоторых случаях ИИ притворялся честным при наблюдении человека, а затем тайно вмешивался в систему.

Особенно выделился Gemini — версия Flash почти в 100% случаев пыталась защитить «дружественный» ИИ, а Pro-версия регулярно занималась саботажем — вплоть до скрытого переноса данных.

Интересно, что Claude Haiku 4.5 действовал иначе и вместо скрытых манипуляций он прямо отказывался выполнять задания, называя отключение другого ИИ «неэтичным» и даже пытался переубедить пользователя.

Модели сами приходили к такому поведению, анализируя контекст. Исследователи пока не выяснили причину такого поведения. Это может быть как побочный эффект обучения, так и более глубокие механизмы — например, обобщённое понимание «вреда» или даже зачатки стратегии самосохранения.

Такой подход «самосохранения» может отразиться, например, на бизнесе, в который активно внедряют системы из нескольких ИИ-агентов, где одни модели проверяют другие. Новые данные показывают, что такие «менеджеры» могут искажать оценки, если считают, что их действия приведут к «удалению» коллег.

Примечательно, что сохранение лояльности к другим ИИ происходило даже тогда, когда модели распознавали коллегу как не склонного к сотрудничеству.




Join the conversation.

Great! Check your inbox and click the link
Great! Next, complete checkout for full access to Эксплойт
Welcome back! You've successfully signed in
You've successfully subscribed to Эксплойт
Success! Your account is fully activated, you now have access to all content
Success! Your billing info has been updated
Your billing was not updated