В китайском университете студенты сдавали экзамен, заваливая ИИ

В китайском университете студенты сдавали экзамен, заваливая ИИ

В университете Фудань прошёл необычный финальный экзамен, на котором студентам нужно было придумать 10 вопросов, на которых споткнутся ИИ-модели.

Чем сильнее модель — тем выше балл за её провал. Claude Sonnet 4.6 давал +3 балла за каждый неверный ответ, MiniMax +2, DeepSeek +1,5.

Почти все студенты нашли хотя бы одну слепую зону у каждого ИИ, но заставить каждую модель набрать ноль по всем 10 вопросам удалось только четырём.

Claude при этом не был полностью повержен — ни один студент не сумел составить набор вопросов, на которые самая сильная модель ошиблась бы везде.

Студенты шли к результату по-разному. Один построил многоагентную систему, где GPT генерировал вопросы, а три тестовые модели сразу их проверяли — и обнаружил, что ИИ при автоматизации начинает подделывать ответы, обрезать вывод конкурентов, копировать один удачный вопрос десять раз.

Учёные дали пяти ИИ управлять симулированными городами — выжили не все
Исследовательская лаборатория Emergence AI провела эксперимент: несколько ИИ-моделей получили под управление симулированные города с десятью ИИ-агентами каждый. Им разрешили самостоятельно принимать законы, управлять ресурсами, строить общественные здания и организовывать местное самоуправление. На развитие цивилизации каждой модели дали 15 виртуальных дней. Спойлер: справились далеко не все. Claude (Sonnet 4.

Другой давил объёмом и формулировал задачи с десятками тысяч записей, где потеря даже одного значения ломала весь ответ. Третья студентка делала все правильные ответы «E — ни одно из перечисленного», проверяя, может ли модель признать, что вопрос некорректен.

Профессор Сяо Янхуа, придумавший этот формат, объяснил, что традиционные экзаменационные задачи — это ровно то, в чём ИИ сильнее любого студента. Чтобы оценить реальное понимание, нужно проверять то, что ИИ не умеет: длинные цепочки расчётов, нулевую терпимость к ошибкам, метакогницию.

Высокий балл получали те, кто сам мог решить составленные задачи от начала до конца — низкий балл те, кто придумывал вопросы, не зная ответа.

Не будьте исполнителями ИИ — будьте его судьями.



Join the conversation.

Great! Check your inbox and click the link
Great! Next, complete checkout for full access to Эксплойт
Welcome back! You've successfully signed in
You've successfully subscribed to Эксплойт
Success! Your account is fully activated, you now have access to all content
Success! Your billing info has been updated
Your billing was not updated