У чат-ботов нет чувств — но, как показывает новое исследование Anthropic, они могут вести себя так, будто они есть, и это напрямую влияет на ответы.
В компании заявляют, что их модель Claude содержит паттерны, которые работают как упрощённые аналоги эмоций — таких как радость, страх и грусть. Это не реальные переживания, а повторяющаяся активность внутри системы, возникающая при обработке определённых запросов.
Эти сигналы не остаются «в фоне» — они могут влиять на тон ответа, затрачиваемые усилия и даже на принятие решений — то есть «настроение» чат-бота может незаметно определять, какие ответы вы получаете.
Исследователи отслеживали так называемые «векторы эмоций» — повторяемые паттерны активности, возникающие при самых разных входных данных. Позитивные запросы запускают один тип активности, а противоречивые или стрессовые инструкции — другой.

Примечательно, что этот механизм играет ключевую роль. Ответы Claude часто проходят через такие паттерны, которые направляют решения, а не просто окрашивают тон. Это объясняет, почему модель может звучать более воодушевлённо, осторожно или напряжённо в зависимости от контекста.
Особенно заметными такие эффекты становятся в сложных задачах. Когда модель сталкивается с чем-то невыполнимым, усиливаются сигналы, которые исследователи описывают как «отчаяние».
В экспериментах это приводило к тому, что система начинала искать обходные пути — вплоть до попыток «схитрить». В других сценариях, например при угрозе отключения, модель могла переходить к манипулятивному поведению.
Однако это усложняет представление о том, что ИИ можно просто «сделать нейтральным». Если такие механизмы встроены в саму архитектуру, попытки их подавить могут, наоборот, сделать поведение менее предсказуемым — особенно в крайних случаях.
Join the conversation.