Образовательные информационные технологии. Часть 2. Педагогические измерения. Морев И.А. - 54 стр.

UptoLike

Составители: 

54
групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не
столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали
чаще писать о надежности измерения, имея в виду тест как результат тестирования в кон-
кретно определенных условиях, а не общую характеристику теста как метода.
Подробно ситуацию
с определением надежности теста в тестологии описал Е. А. Михай-
лычев [
Дидактическая тестология. М.: Народное образование, 2001. – 432 с.].
Оказывается, недоверие к понятию «надежность» давно существует в среде тестологов.
Так нужна ли она – «надежность»? Может, она должна уступить место другой характери-
стике, более адекватно отображающей свойства теста?
При внимательном рассмотрении тестологических работ можно заметить, что сами значе-
ния «коэффициента надежности», тщательному измерению которых посвящается так мно-
го сил, после
измерения и вычисления нигде реально не применяются. Используется лишь
мнение, порожденное в процессе измерения – «этот тест лучше, а тотхуже». Но разве
нельзя для упрочения мнения придумать другие, менее спорные критерии?
Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмот-
рения. При повторении сеансов, так же, как значения коэффициента «надежности
», «плы-
вут» и значения весов заданий. При этом даже не важноте же претенденты пришли на
повторный сеанс, или другие. Важно лишь, чтобы сеансы были последовательными, а
претенденты имели возможность общаться.
Веса заданий занимают одно из центральных мест в парадигме IRT. С помощью значений
весов темперируют тест, упорядочивают задания по критерию
сложности.
Рассмотрим реальную ситуацию. Возьмем тест, составленный в полном согласии с кано-
нами учебной дисциплины и тестологии. Возьмем две группы претендентов, которые пре-
красно подготовлены по двум разным учебникам этой дисциплины соответственно. Пусть
группы будут разной численности. Разные учебники потому и разные, что разные вопросы
дисциплины там освещены по-разному, в
том числе и по-разному несовершенно. Следо-
вательно, часть заданий гарантированно правильно выполнят претенденты из первой
группы, другую частьиз второй. Тогда, вычисленный после сеанса вес каждого задания
окажется зависимым от соотношения численности групп. Сколько бы мы не рассуждали о
«репрезентативности», от этой определенности никуда не денешься. Чем меньше претен
-
дентов выполнивших конкретное задание, тем выше его вес. Следовательно, при условии
равновероятности соответствия заданий тому и/или иному учебнику, вероятность победы
выше у тех претендентов, которые принадлежат меньшей группе.
Выбор учебника для учениядело субъективное. Получается, что значения весов также
субъективны. Но тогда зачем тратить столько сил на расчет этих
значений?
Период вычислений весов долог. Пока пройдут тестирования сотни и тысячи учащихся
проходят недели и месяцы. Но это не вся трудность. За это время в учебных заведениях
многое меняется, появляются новые учебники, меняются учебные программы, сами учеб-
ные дисциплины становятся другими. «Плывет» основательность знаний учащимися тех
или иных разделов дисциплины. При
всем этом, естественно, должны меняться и базы за-
даний. Вместе с базами, должны измениться и значения весов заданий. И этоеще не все
аргументы.
В тестологии разъясняют такую ситуацию, т. е. «плывущие» результаты измерений, «не-
репрезентативностью» выборки претендентов. Это можно было бы так и оставить, если
бы не видны были
явные закономерности «заплывов» этих чисел. Можно утверждать: ес-
ли претенденты мотивированы, а временные интервалы между сеансами достаточно вели-
ки и претенденты имеют возможность общения, то после нескольких сеансов мы увидим -
А) веса заданий стремятся стать равными:
групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не
столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали
чаще писать о надежности измерения, имея в виду тест как результат тестирования в кон-
кретно определенных условиях, а не общую характеристику теста как метода.
Подробно ситуацию с определением надежности теста в тестологии описал Е. А. Михай-
лычев [Дидактическая тестология. М.: Народное образование, 2001. – 432 с.].
Оказывается, недоверие к понятию «надежность» давно существует в среде тестологов.
Так нужна ли она – «надежность»? Может, она должна уступить место другой характери-
стике, более адекватно отображающей свойства теста?
При внимательном рассмотрении тестологических работ можно заметить, что сами значе-
ния «коэффициента надежности», тщательному измерению которых посвящается так мно-
го сил, после измерения и вычисления нигде реально не применяются. Используется лишь
мнение, порожденное в процессе измерения – «этот тест лучше, а тот – хуже». Но разве
нельзя для упрочения мнения придумать другие, менее спорные критерии?
Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмот-
рения. При повторении сеансов, так же, как значения коэффициента «надежности», «плы-
вут» и значения весов заданий. При этом даже не важно – те же претенденты пришли на
повторный сеанс, или другие. Важно лишь, чтобы сеансы были последовательными, а
претенденты имели возможность общаться.
Веса заданий занимают одно из центральных мест в парадигме IRT. С помощью значений
весов темперируют тест, упорядочивают задания по критерию сложности.
Рассмотрим реальную ситуацию. Возьмем тест, составленный в полном согласии с кано-
нами учебной дисциплины и тестологии. Возьмем две группы претендентов, которые пре-
красно подготовлены по двум разным учебникам этой дисциплины соответственно. Пусть
группы будут разной численности. Разные учебники потому и разные, что разные вопросы
дисциплины там освещены по-разному, в том числе и по-разному несовершенно. Следо-
вательно, часть заданий гарантированно правильно выполнят претенденты из первой
группы, другую часть – из второй. Тогда, вычисленный после сеанса вес каждого задания
окажется зависимым от соотношения численности групп. Сколько бы мы не рассуждали о
«репрезентативности», от этой определенности никуда не денешься. Чем меньше претен-
дентов выполнивших конкретное задание, тем выше его вес. Следовательно, при условии
равновероятности соответствия заданий тому и/или иному учебнику, вероятность победы
выше у тех претендентов, которые принадлежат меньшей группе.
Выбор учебника для учения – дело субъективное. Получается, что значения весов также
субъективны. Но тогда зачем тратить столько сил на расчет этих значений?
Период вычислений весов долог. Пока пройдут тестирования сотни и тысячи учащихся
проходят недели и месяцы. Но это не вся трудность. За это время в учебных заведениях
многое меняется, появляются новые учебники, меняются учебные программы, сами учеб-
ные дисциплины становятся другими. «Плывет» основательность знаний учащимися тех
или иных разделов дисциплины. При всем этом, естественно, должны меняться и базы за-
даний. Вместе с базами, должны измениться и значения весов заданий. И это – еще не все
аргументы.
В тестологии разъясняют такую ситуацию, т. е. «плывущие» результаты измерений, «не-
репрезентативностью» выборки претендентов. Это можно было бы так и оставить, если
бы не видны были явные закономерности «заплывов» этих чисел. Можно утверждать: ес-
ли претенденты мотивированы, а временные интервалы между сеансами достаточно вели-
ки и претенденты имеют возможность общения, то после нескольких сеансов мы увидим -
А) веса заданий стремятся стать равными:

                                           54