В китайском университете студенты сдавали экзамен, заваливая ИИ

В университете Фудань прошёл необычный финальный экзамен, на котором студентам нужно было придумать 10 вопросов, на которых споткнутся ИИ-модели.

Чем сильнее модель — тем выше балл за её провал. Claude Sonnet 4.6 давал +3 балла за каждый неверный ответ, MiniMax +2, DeepSeek +1,5.

Почти все студенты нашли хотя бы одну слепую зону у каждого ИИ, но заставить каждую модель набрать ноль по всем 10 вопросам удалось только четырём.

Claude при этом не был полностью повержен — ни один студент не сумел составить набор вопросов, на которые самая сильная модель ошиблась бы везде.

Студенты шли к результату по-разному. Один построил многоагентную систему, где GPT генерировал вопросы, а три тестовые модели сразу их проверяли — и обнаружил, что ИИ при автоматизации начинает подделывать ответы, обрезать вывод конкурентов, копировать один удачный вопрос десять раз.

Другой давил объёмом и формулировал задачи с десятками тысяч записей, где потеря даже одного значения ломала весь ответ. Третья студентка делала все правильные ответы «E — ни одно из перечисленного», проверяя, может ли модель признать, что вопрос некорректен.

Профессор Сяо Янхуа, придумавший этот формат, объяснил, что традиционные экзаменационные задачи — это ровно то, в чём ИИ сильнее любого студента. Чтобы оценить реальное понимание, нужно проверять то, что ИИ не умеет: длинные цепочки расчётов, нулевую терпимость к ошибкам, метакогницию.

Высокий балл получали те, кто сам мог решить составленные задачи от начала до конца — низкий балл те, кто придумывал вопросы, не зная ответа.