Критический анализ параметрических моделей Раша и Бирнбаума

Главная / Методические материалы / Материалы конференций /

Критический анализ параметрических моделей Раша и Бирнбаума

Ростовский государственный педагогический университет
Попов А.П.

1. Введение

Теория и практика дидактического тестирования насчитывают не один десяток лет, и в своем развитии прошли за это время несколько этапов. Один из этапов связан с появлением в начале 60-х прошлого века параметрических моделей, призванных объективизировать процедуру оценивания трудности тестовых заданий и уровня подготовленности испытуемых. Среди этих моделей наибольшее распространение получили модели Раша и Бирнбаума вместе с сопутствующими методами обработки результатов тестирования. В модели Раша [1] предполагается, что вероятность правильного решения тестового задания зависит от уровня подготовленности испытуемого и трудности тестового задания δ. В модели Бирнбаума [2,3] появляется новый параметр γ – дифференцирующая способность тестового задания. К сожалению, из-за крайне неудачного выбора параметризации обе модели обладают неустранимым недостатком, который по совершенно непонятным причинам оставался долгие годы незамеченным. Именно, как будет показано ниже, оценка уровня подготовленности испытуемого, основанная на общепринятом в математической статистике принципе максимального правдоподобия в рамках этих моделей не зависит от сложности правильно выполненных заданий.

2. Модель Раша

В модели Раша вероятности правильного (соответственно, неправильного) решения тестового задания равны:

   (1)

Пусть тест содержит n заданий. Трудности заданий δ1, δ2,...,δn предполагаются известными, причем можно считать, что они упорядочены по возрастанию δ1≤ δ2≤...≤δn≤. Введем, кроме того, обозначение χi для характеристической функции, которая равна 1 или 0 в зависимости от того, правильно или неправильно решено i-е задание. Легко убедиться, что в этих предположениях логарифмическая функция правдоподобия равна:

   (2)

Необходимое условие максимума функции (2), а именно равенство нулю производной по параметру θ, после несложных преобразований приводит к уравнению:

Рис. 1. Уровень подготовленности является корнем уравнения (3).

Число заданий в тесте n = 10, из них правильно решены 4 задания.

В соответствии с принципом максимального правдоподобия уровень подготовленности испытуемого должен определяться именно из этого уравнения. Но левая часть уравнения (3) является универсальной для данного теста, монотонно возрастающей функцией ƒ(θ), а правая часть равна общему числу правильно выполненных заданий. Отсюда следует, что оценка уровня подготовленности испытуемых в модели Раша зависит лишь от общего числа правильно выполненных заданий, но не от их трудности.

3. Модель Бирнбаума

В двухпараметрической модели Бирнбаума вероятности правильного (соответственно, неправильного) решения тестового задания равны:

   (4)

Пусть тест содержит n заданий. Будем считать известными не только трудности заданий δ1, δ2,...,δn, но и дифференцирующие способности всех заданий γ1, γ2,...,γn. Сохраним прежнее обозначение для характеристической функции. Тогда логарифмическая функция правдоподобия равна:

   (5)

Необходимое условие максимума функции (5) приводит к уравнению:

   (6)
из которого должен определяться уровень подготовленности испытуемого.

Рис. 2. Уровень подготовленности является корнем уравнения (6).

Число заданий в тесте n = 10, из них правильно решены 4 задания.

Но левая часть уравнения (6) является универсальной для данного теста, монотонно возрастающей функцией ƒ(θ), а правая часть равна суммарной дифференцирующей способности всех правильно выполненных заданий. Это означает, что в модели Бирнбаума оценка уровня подготовленности испытуемого зависит лишь от суммарной дифференцирующей способности правильно выполненных заданий, но никак не связана с их трудностью.

Создается впечатление, что дифференцирующая способность тестового задания в большей степени подходит на роль параметра, характеризующего трудность задания. Но тогда что же остается на долю параметра, который изначально интерпретировался в моделях Раша и Бирнбаума, как трудность задания?

В заключение следует отметить, что и трехпараметрическая модель Бирнбаума [4], в которой появляется еще один параметр, учитывающий возможность случайного выбора правильного ответа в заданиях закрытого типа, не избавлена от описанного выше недостатка.

4. Обсуждение и выводы

Вышесказанное вынуждает напомнить простую, но чрезвычайно важную истину: моделирование – не цепочка произвольных, чисто умозрительных построений, но попытка объективного и адекватного описания изучаемого процесса, явления и т.д.

Именно поэтому любая модель должна удовлетворять, по меньшей мере, двум основным требованиям:

она должна быть внутренне согласованной и непротиворечивой;

все лежащие в основе модели предположения без исключения должны допускать непосредственное сравнение с эмпирическими данными (или, если угодно, должны допускать экспериментальную проверку).

Как следует из результатов, изложенных в разделах 2-3, требованию внутренней согласованности и непротиворечивости модели Раша и Бирнбаума не удовлетворяют. Подумав, мы вынуждены будем признать, что ни о каком сравнении этих моделей с эмпирическими данными также не может быть и речи. Но тогда что же остается от этих моделей?

К сожалению, даже принципиально правильные, но неверно (или неудачно) оформленные идеи, не могут принести ничего, кроме вреда. Иногда лишь сила привычки и гипнотическое действие авторитета их авторов не позволяют подвергнуть сами идеи беспристрастному критическому анализу. Но модели Раша и Бирнбаума (и вообще параметрические модели тестирования) отнюдь не символы веры, перед которыми следует испытывать священный трепет. Более того, на наш взгляд, настало время признать ошибочность пути, по которому пошло развитие теории тестирования под влиянием работ Раша и Бирнбаума. Необходимы свежие идеи и новые подходы к решению задач, связанных с объективизацией оценки трудности тестовых заданий и уровня подготовленности испытуемых. Одно из перспективных направлений развития теории и практики тестирования предлагается в нашей второй работе, представленной на этой конференции.

Литература:

G.Rasch. Probabilistic Model for Some Intelligence and Attainment Tests. – Chicago: Univ. of Chicago Press, 1980.
B.D.Wright, M.N.Stone. Best Test Desighn. – Chicago: MESA Press, 1979.
B.D.Wright, G.N.Masters. Rating scale analysis. Rasch measurements. – Chicago: MESA Press, 1982.
F.M.Lord, M.Novic. Statistical Theories of Mental Test Scores. Mass.: Addison-Wesley Publ. Co. Reading, 1968.