Оставьте свои данные
и мы вам перезвоним:

Или свяжитесь с нами сами, если не хотите ждать:

IRT и «Тета» в ЯэльНет и умный подбор задач в Окей для более точной подготовки

 

Материал подготовлен по следам профессиональной презентации ИЦЭО (Израильского центра экзаменов и оценки, на иврите: המרכז הארצי לבחינות ולהערכה) о переходе экзамена Яэль на компьютеризированную модель ЯэльНет и о переводе оценок из IRT-модели в многолетнюю шкалу баллов.

Когда экзамен переводят в компьютерный формат, меняется не только интерфейс, но и логика построения вариантов, оценки результатов и сравнения баллов с предыдущими годами.
Именно этому посвящено исследование ИЦЭО по экзамену Яэль / ЯэльНет: как перейти к современной модели оценивания (IRT), но при этом сохранить понятную и справедливую шкалу, с которой университеты уже умеют работать.

Короткий вывод:
ИЦЭО сравнили несколько способов перевода оценки способности (параметра «Тета») в традиционную шкалу Яэль (50-150) и пришли к выводу, что наилучшее совпадение с историческими результатами дает калибровка по процентилям без дополнительного «излома» (doglegging).

О чем эта презентация и почему она важна

Экзамен Яэль предназначен для проверки знания иврита у абитуриентов, которые сдавали психометрический экзамен не на иврите.
Для поступления в вуз обычно требуется пройти определенный порог по этому экзамену, который устанавливает учебное заведение.

В презентации описан переход от классической модели (бумажный линейный тест) к компьютеризированной версии ЯэльНет и ключевая психометрическая задача:
как сделать так, чтобы новый способ расчета результата был современным и точным, но при этом оставался сопоставимым со старой многолетней шкалой.

Почему тема важна и для абитуриентов, и для преподавателей:
если формат экзамена меняется, главный вопрос всегда один:
можно ли честно сравнивать новые баллы со старыми?
Именно на этот вопрос и отвечает исследование ИЦЭО.

Как меняется логика оценки: от количества верных ответов к оценке способности

В классической модели тестирования результат во многом воспринимается как функция от числа правильных ответов.
В IRT-подходе (Item Response Theory, теория ответа на задание) центральным становится другой показатель оценка скрытой способности, которую в презентации обозначают как Тета (θ).

Это значит, что система учитывает не только количество правильных ответов, но и характер самих заданий:
насколько они трудные, насколько хорошо различают сильных и слабых участников, и какова вероятность случайного угадывания.

Что такое IRT простыми словами

IRT (Item Response Theory) — это современная психометрическая модель, которая оценивает вероятность правильного ответа на конкретный вопрос в зависимости от уровня подготовки экзаменуемого.
В исследовании использовалась модель 3PL (трехпараметрическая логистическая модель).

В модели 3PL у каждого задания есть три ключевых параметра:

  • Трудность (difficulty) — насколько высокий уровень нужен, чтобы уверенно решать это задание.
  • Дискриминативность (discrimination) — насколько хорошо задание отличает более сильных участников от менее сильных.
  • Угадывание (guessing) — вероятность получить правильный ответ случайно.
Ключевое преимущество IRT:
оценка способности (θ) считается более устойчивой и лучше подходит для сравнения результатов между разными вариантами теста, чем простой «сырой» балл.

Как это связано с Окей: похожая логика подбора задач в подготовке

Хотя официальный экзаменационный скоринг выполняет ИЦЭО по своим психометрическим моделям, для подготовки важно понимать сам принцип:
качество тренировки зависит не только от количества задач, но и от того, какие именно задачи попадают в подборку.

В системе Окей мы тоже используем похожую по идее логику подбора заданий для тренировок и анализа:
не просто «дать много задач подряд», а собирать наборы с учетом типа задания, уровня сложности, повторяемости ошибок и учебной цели.

Что это дает на практике в Окей:

  • более точную диагностику слабых мест, а не только общий балл;
  • сбалансированные тренировки (база, средний уровень, задания на рост);
  • осмысленный разбор ошибок по типам, а не хаотичное повторение;
  • постепенное повышение сложности без перегруза и без «случайного шума».
Важно:
Речь не о том, что Окей «повторяет» официальный алгоритм ИЦЭО один в один, а о том, что подход к качественной подготовке тоже строится на данных, статистике и продуманном подборе задач, а не только на объеме практики.

Почему ИЦЭО понадобилось это исследование

При переходе к компьютерной версии возник естественный риск: если использовать ограниченное число разделов, они будут быстрее «засвечиваться».
Поэтому было принято решение создавать много новых вариантов разделов, которые автоматически собираются из базы существующих заданий.

Для этого сначала были проанализированы и откалиброваны задания прошлых лет, а затем на основе их параметров начали автоматически формировать новые эквивалентные разделы.

Что особенно важно в масштабе проекта:

  • были оценены параметры IRT для более чем 2500 закрытых заданий за 2010-2023 годы;
  • на основе этих параметров были собраны сотни новых разделов (в презентации — более 900).

Почему «Тету» нужно переводить в привычный балл

Даже если IRT дает более точную оценку способности, университетам и абитуриентам все равно нужна привычная шкала, по которой принимаются решения.
В случае Яэль речь идет о многолетней шкале 50-150.

И вот здесь начинается самое важное: перевод из θ в стандартный балл не является тривиальным.
Он не сводится к простой линейной формуле, потому что исторически шкалирование классического экзамена учитывало:

  • разные параметры калибровки для разных вариантов теста;
  • процедуры ограничения краев шкалы (doglegging, «излом» на краях).
Практический смысл задачи:
нужно найти такой алгоритм перевода θ в балл, чтобы сохранить смысл оценок и обеспечить честное сравнение
с результатами прошлых лет и с текущей бумажной версией экзамена.

Как ИЦЭО сравнивали методы перевода «Теты» в шкалу Яэль

В исследовании использовали очень большой массив данных — записи примерно 340 000 экзаменуемых за последние 13 лет.
Для данных был оценен IRT-модельный параметр θ (по модели 3PL), а затем исследователи сравнили несколько способов преобразования этих значений в шкалу 50-150.

Сравнивались три типа трансформаций:

  • Через стандартные оценки (по среднему и стандартному отклонению двух шкал).
  • Через линейную регрессию (по коэффициентам регрессии).
  • Через процентили (по относительному месту в распределении).

Для каждого метода дополнительно проверяли варианты с «изломом» (doglegging) и без него.

Критерии сравнения были очень практичными:

  • корреляция нового шкалирования со старой шкалой;
  • средняя абсолютная ошибка (насколько новый балл отклоняется от исходного исторического).

Что показали результаты и к какому выводу пришли в ИЦЭО

В презентации отдельно показано, что еще до шкалирования связь между θ и существующим многолетним баллом очень высокая (корреляция около 0.974).
Это хороший знак, но он не отменяет задачу выбора правильной трансформации: при массовом применении даже небольшая системная разница важна.

Итоговая таблица (главный вывод исследования):

Метод Вариант Корреляция (новая / старая шкала) Средняя абсолютная ошибка
Стандартные оценки без doglegging 0.977 4.000
Стандартные оценки doglegging 5/95 0.978 4.035
Линейная регрессия без doglegging 0.977 4.061
Линейная регрессия doglegging 5/95 0.978 4.117
Процентили без doglegging 0.980 3.803
Процентили doglegging 3/97 0.979 3.832

По двум основным критериям лучший результат дал именно вариант:
перевод по процентилям без дополнительного «излома».

Что это значит для абитуриента на практике

Для абитуриента главный смысл этой работы не в математических терминах, а в следующем:
при смене технологии экзамена ИЦЭО не просто «перерисовали шкалу», а проверили, какой способ пересчета лучше сохраняет смысл старых оценок.

Проще говоря:

  • новая система может считать результат по-другому внутри (через θ и IRT),
  • но на выходе балл должен оставаться понятным университетам и сопоставимым с предыдущими годами,
  • именно для этого проводится серьезная психометрическая проверка методов шкалирования.
Важно:
высокий уровень корреляции сам по себе еще не гарантирует идеальную сопоставимость.
Поэтому исследователи отдельно смотрели и на ошибку пересчета, а не только на коэффициент корреляции.

Почему это важно и для психометрии в целом

Хотя презентация посвящена именно экзамену Яэль / ЯэльНет, для системы поступления в Израиле это показательный кейс.
Он демонстрирует общий принцип работы ИЦЭО при переходе к новым форматам:
сначала психометрическая калибровка, затем проверка сопоставимости, и только потом массовое внедрение новой модели оценивания.

Для студентов и родителей это полезный сигнал:
когда меняется формат экзамена, важно смотреть не только на то, что появилось на экране, но и на то,
как именно будет обеспечена преемственность баллов.

Что мы в Окей берем из этого как практический вывод

Для нас в Окей эта презентация ИЦЭО важна не только как новость про ЯэльНет, но и как подтверждение подхода, который мы считаем правильным в подготовке:
сильный результат растет там, где есть система, статистика и грамотный подбор задач.

Это хорошо совпадает с тем, как мы строим тренировочный процесс:
анализируем типовые ошибки, смотрим повторяющиеся паттерны, подбираем задания под конкретную задачу ученика и постепенно повышаем уровень сложности.

Что это значит для ученика:

  • важно не просто решать много, а решать правильно подобранные задачи;
  • важно подтверждать базовый уровень стабильностью, а не редкими удачными попаданиями;
  • важно смотреть на структуру ошибок и динамику, а не только на итоговый балл;
  • важно тренироваться в форматах, максимально близких к реальному экзамену.
Итог:
Презентация ИЦЭО показывает, что за переходом к новому формату стоит серьезная психометрическая работа. А для подготовки это еще раз подтверждает простой принцип:
результат растет быстрее, когда обучение строится на данных и на умном подборе задач.

Статья подготовлена Отделом Исследований и Разработок Окей.