ВУЗ:
Составители:
54
групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не
столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали
чаще писать о надежности измерения, имея в виду тест как результат тестирования в кон-
кретно определенных условиях, а не общую характеристику теста как метода.
Подробно ситуацию
с определением надежности теста в тестологии описал Е. А. Михай-
лычев [
Дидактическая тестология. М.: Народное образование, 2001. – 432 с.].
Оказывается, недоверие к понятию «надежность» давно существует в среде тестологов.
Так нужна ли она – «надежность»? Может, она должна уступить место другой характери-
стике, более адекватно отображающей свойства теста?
При внимательном рассмотрении тестологических работ можно заметить, что сами значе-
ния «коэффициента надежности», тщательному измерению которых посвящается так мно-
го сил, после
измерения и вычисления нигде реально не применяются. Используется лишь
мнение, порожденное в процессе измерения – «этот тест лучше, а тот – хуже». Но разве
нельзя для упрочения мнения придумать другие, менее спорные критерии?
Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмот-
рения. При повторении сеансов, так же, как значения коэффициента «надежности
», «плы-
вут» и значения весов заданий. При этом даже не важно – те же претенденты пришли на
повторный сеанс, или другие. Важно лишь, чтобы сеансы были последовательными, а
претенденты имели возможность общаться.
Веса заданий занимают одно из центральных мест в парадигме IRT. С помощью значений
весов темперируют тест, упорядочивают задания по критерию
сложности.
Рассмотрим реальную ситуацию. Возьмем тест, составленный в полном согласии с кано-
нами учебной дисциплины и тестологии. Возьмем две группы претендентов, которые пре-
красно подготовлены по двум разным учебникам этой дисциплины соответственно. Пусть
группы будут разной численности. Разные учебники потому и разные, что разные вопросы
дисциплины там освещены по-разному, в
том числе и по-разному несовершенно. Следо-
вательно, часть заданий гарантированно правильно выполнят претенденты из первой
группы, другую часть – из второй. Тогда, вычисленный после сеанса вес каждого задания
окажется зависимым от соотношения численности групп. Сколько бы мы не рассуждали о
«репрезентативности», от этой определенности никуда не денешься. Чем меньше претен
-
дентов выполнивших конкретное задание, тем выше его вес. Следовательно, при условии
равновероятности соответствия заданий тому и/или иному учебнику, вероятность победы
выше у тех претендентов, которые принадлежат меньшей группе.
Выбор учебника для учения – дело субъективное. Получается, что значения весов также
субъективны. Но тогда зачем тратить столько сил на расчет этих
значений?
Период вычислений весов долог. Пока пройдут тестирования сотни и тысячи учащихся
проходят недели и месяцы. Но это не вся трудность. За это время в учебных заведениях
многое меняется, появляются новые учебники, меняются учебные программы, сами учеб-
ные дисциплины становятся другими. «Плывет» основательность знаний учащимися тех
или иных разделов дисциплины. При
всем этом, естественно, должны меняться и базы за-
даний. Вместе с базами, должны измениться и значения весов заданий. И это – еще не все
аргументы.
В тестологии разъясняют такую ситуацию, т. е. «плывущие» результаты измерений, «не-
репрезентативностью» выборки претендентов. Это можно было бы так и оставить, если
бы не видны были
явные закономерности «заплывов» этих чисел. Можно утверждать: ес-
ли претенденты мотивированы, а временные интервалы между сеансами достаточно вели-
ки и претенденты имеют возможность общения, то после нескольких сеансов мы увидим -
А) веса заданий стремятся стать равными:
групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали чаще писать о надежности измерения, имея в виду тест как результат тестирования в кон- кретно определенных условиях, а не общую характеристику теста как метода. Подробно ситуацию с определением надежности теста в тестологии описал Е. А. Михай- лычев [Дидактическая тестология. М.: Народное образование, 2001. – 432 с.]. Оказывается, недоверие к понятию «надежность» давно существует в среде тестологов. Так нужна ли она – «надежность»? Может, она должна уступить место другой характери- стике, более адекватно отображающей свойства теста? При внимательном рассмотрении тестологических работ можно заметить, что сами значе- ния «коэффициента надежности», тщательному измерению которых посвящается так мно- го сил, после измерения и вычисления нигде реально не применяются. Используется лишь мнение, порожденное в процессе измерения – «этот тест лучше, а тот – хуже». Но разве нельзя для упрочения мнения придумать другие, менее спорные критерии? Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмот- рения. При повторении сеансов, так же, как значения коэффициента «надежности», «плы- вут» и значения весов заданий. При этом даже не важно – те же претенденты пришли на повторный сеанс, или другие. Важно лишь, чтобы сеансы были последовательными, а претенденты имели возможность общаться. Веса заданий занимают одно из центральных мест в парадигме IRT. С помощью значений весов темперируют тест, упорядочивают задания по критерию сложности. Рассмотрим реальную ситуацию. Возьмем тест, составленный в полном согласии с кано- нами учебной дисциплины и тестологии. Возьмем две группы претендентов, которые пре- красно подготовлены по двум разным учебникам этой дисциплины соответственно. Пусть группы будут разной численности. Разные учебники потому и разные, что разные вопросы дисциплины там освещены по-разному, в том числе и по-разному несовершенно. Следо- вательно, часть заданий гарантированно правильно выполнят претенденты из первой группы, другую часть – из второй. Тогда, вычисленный после сеанса вес каждого задания окажется зависимым от соотношения численности групп. Сколько бы мы не рассуждали о «репрезентативности», от этой определенности никуда не денешься. Чем меньше претен- дентов выполнивших конкретное задание, тем выше его вес. Следовательно, при условии равновероятности соответствия заданий тому и/или иному учебнику, вероятность победы выше у тех претендентов, которые принадлежат меньшей группе. Выбор учебника для учения – дело субъективное. Получается, что значения весов также субъективны. Но тогда зачем тратить столько сил на расчет этих значений? Период вычислений весов долог. Пока пройдут тестирования сотни и тысячи учащихся проходят недели и месяцы. Но это не вся трудность. За это время в учебных заведениях многое меняется, появляются новые учебники, меняются учебные программы, сами учеб- ные дисциплины становятся другими. «Плывет» основательность знаний учащимися тех или иных разделов дисциплины. При всем этом, естественно, должны меняться и базы за- даний. Вместе с базами, должны измениться и значения весов заданий. И это – еще не все аргументы. В тестологии разъясняют такую ситуацию, т. е. «плывущие» результаты измерений, «не- репрезентативностью» выборки претендентов. Это можно было бы так и оставить, если бы не видны были явные закономерности «заплывов» этих чисел. Можно утверждать: ес- ли претенденты мотивированы, а временные интервалы между сеансами достаточно вели- ки и претенденты имеют возможность общения, то после нескольких сеансов мы увидим - А) веса заданий стремятся стать равными: 54
Страницы
- « первая
- ‹ предыдущая
- …
- 52
- 53
- 54
- 55
- 56
- …
- следующая ›
- последняя »