В университете Фудань прошёл необычный финальный экзамен, на котором студентам нужно было придумать 10 вопросов, на которых споткнутся ИИ-модели.
Чем сильнее модель — тем выше балл за её провал. Claude Sonnet 4.6 давал +3 балла за каждый неверный ответ, MiniMax +2, DeepSeek +1,5.
Почти все студенты нашли хотя бы одну слепую зону у каждого ИИ, но заставить каждую модель набрать ноль по всем 10 вопросам удалось только четырём.
Claude при этом не был полностью повержен — ни один студент не сумел составить набор вопросов, на которые самая сильная модель ошиблась бы везде.
Студенты шли к результату по-разному. Один построил многоагентную систему, где GPT генерировал вопросы, а три тестовые модели сразу их проверяли — и обнаружил, что ИИ при автоматизации начинает подделывать ответы, обрезать вывод конкурентов, копировать один удачный вопрос десять раз.

Другой давил объёмом и формулировал задачи с десятками тысяч записей, где потеря даже одного значения ломала весь ответ. Третья студентка делала все правильные ответы «E — ни одно из перечисленного», проверяя, может ли модель признать, что вопрос некорректен.
Профессор Сяо Янхуа, придумавший этот формат, объяснил, что традиционные экзаменационные задачи — это ровно то, в чём ИИ сильнее любого студента. Чтобы оценить реальное понимание, нужно проверять то, что ИИ не умеет: длинные цепочки расчётов, нулевую терпимость к ошибкам, метакогницию.
Высокий балл получали те, кто сам мог решить составленные задачи от начала до конца — низкий балл те, кто придумывал вопросы, не зная ответа.
Не будьте исполнителями ИИ — будьте его судьями.

Join the conversation.