Образовательные информационные технологии. Часть 2. Педагогические измерения. Морев И.А. - 54 стр.

UptoLike

ВУЗ:

ДВФУ | Владивосток

Составители:

Морев И.А.

Рубрика:

Информатика и информационные технологии

групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не

столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали

чаще писать о надежности измерения, имея в виду тест как результат тестирования в кон-

кретно определенных условиях, а не общую характеристику теста как метода.

Подробно ситуацию

с определением надежности теста в тестологии описал Е. А. Михай-

лычев [

Дидактическая тестология. М.: Народное образование, 2001. – 432 с.].

Оказывается, недоверие к понятию «надежность» давно существует в среде тестологов.

Так нужна ли она – «надежность»? Может, она должна уступить место другой характери-

стике, более адекватно отображающей свойства теста?

При внимательном рассмотрении тестологических работ можно заметить, что сами значе-

ния «коэффициента надежности», тщательному измерению которых посвящается так мно-

го сил, после

измерения и вычисления нигде реально не применяются. Используется лишь

мнение, порожденное в процессе измерения – «этот тест лучше, а тот – хуже». Но разве

нельзя для упрочения мнения придумать другие, менее спорные критерии?

Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмот-

рения. При повторении сеансов, так же, как значения коэффициента «надежности

», «плы-

вут» и значения весов заданий. При этом даже не важно – те же претенденты пришли на

повторный сеанс, или другие. Важно лишь, чтобы сеансы были последовательными, а

претенденты имели возможность общаться.

Веса заданий занимают одно из центральных мест в парадигме IRT. С помощью значений

весов темперируют тест, упорядочивают задания по критерию

сложности.

Рассмотрим реальную ситуацию. Возьмем тест, составленный в полном согласии с кано-

нами учебной дисциплины и тестологии. Возьмем две группы претендентов, которые пре-

красно подготовлены по двум разным учебникам этой дисциплины соответственно. Пусть

группы будут разной численности. Разные учебники потому и разные, что разные вопросы

дисциплины там освещены по-разному, в

том числе и по-разному несовершенно. Следо-

вательно, часть заданий гарантированно правильно выполнят претенденты из первой

группы, другую часть – из второй. Тогда, вычисленный после сеанса вес каждого задания

окажется зависимым от соотношения численности групп. Сколько бы мы не рассуждали о

«репрезентативности», от этой определенности никуда не денешься. Чем меньше претен

дентов выполнивших конкретное задание, тем выше его вес. Следовательно, при условии

равновероятности соответствия заданий тому и/или иному учебнику, вероятность победы

выше у тех претендентов, которые принадлежат меньшей группе.

Выбор учебника для учения – дело субъективное. Получается, что значения весов также

субъективны. Но тогда зачем тратить столько сил на расчет этих

значений?

Период вычислений весов долог. Пока пройдут тестирования сотни и тысячи учащихся

проходят недели и месяцы. Но это не вся трудность. За это время в учебных заведениях

многое меняется, появляются новые учебники, меняются учебные программы, сами учеб-

ные дисциплины становятся другими. «Плывет» основательность знаний учащимися тех

или иных разделов дисциплины. При

всем этом, естественно, должны меняться и базы за-

даний. Вместе с базами, должны измениться и значения весов заданий. И это – еще не все

аргументы.

В тестологии разъясняют такую ситуацию, т. е. «плывущие» результаты измерений, «не-

репрезентативностью» выборки претендентов. Это можно было бы так и оставить, если

бы не видны были

явные закономерности «заплывов» этих чисел. Можно утверждать: ес-

ли претенденты мотивированы, а временные интервалы между сеансами достаточно вели-

ки и претенденты имеют возможность общения, то после нескольких сеансов мы увидим -

А) веса заданий стремятся стать равными:

групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не
столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали
чаще писать о надежности измерения, имея в виду тест как результат тестирования в кон-
кретно определенных условиях, а не общую характеристику теста как метода.
Подробно ситуацию с определением надежности теста в тестологии описал Е. А. Михай-
лычев [Дидактическая тестология. М.: Народное образование, 2001. – 432 с.].
Оказывается, недоверие к понятию «надежность» давно существует в среде тестологов.
Так нужна ли она – «надежность»? Может, она должна уступить место другой характери-
стике, более адекватно отображающей свойства теста?
При внимательном рассмотрении тестологических работ можно заметить, что сами значе-
ния «коэффициента надежности», тщательному измерению которых посвящается так мно-
го сил, после измерения и вычисления нигде реально не применяются. Используется лишь
мнение, порожденное в процессе измерения – «этот тест лучше, а тот – хуже». Но разве
нельзя для упрочения мнения придумать другие, менее спорные критерии?
Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмот-
рения. При повторении сеансов, так же, как значения коэффициента «надежности», «плы-
вут» и значения весов заданий. При этом даже не важно – те же претенденты пришли на
повторный сеанс, или другие. Важно лишь, чтобы сеансы были последовательными, а
претенденты имели возможность общаться.
Веса заданий занимают одно из центральных мест в парадигме IRT. С помощью значений
весов темперируют тест, упорядочивают задания по критерию сложности.
Рассмотрим реальную ситуацию. Возьмем тест, составленный в полном согласии с кано-
нами учебной дисциплины и тестологии. Возьмем две группы претендентов, которые пре-
красно подготовлены по двум разным учебникам этой дисциплины соответственно. Пусть
группы будут разной численности. Разные учебники потому и разные, что разные вопросы
дисциплины там освещены по-разному, в том числе и по-разному несовершенно. Следо-
вательно, часть заданий гарантированно правильно выполнят претенденты из первой
группы, другую часть – из второй. Тогда, вычисленный после сеанса вес каждого задания
окажется зависимым от соотношения численности групп. Сколько бы мы не рассуждали о
«репрезентативности», от этой определенности никуда не денешься. Чем меньше претен-
дентов выполнивших конкретное задание, тем выше его вес. Следовательно, при условии
равновероятности соответствия заданий тому и/или иному учебнику, вероятность победы
выше у тех претендентов, которые принадлежат меньшей группе.
Выбор учебника для учения – дело субъективное. Получается, что значения весов также
субъективны. Но тогда зачем тратить столько сил на расчет этих значений?
Период вычислений весов долог. Пока пройдут тестирования сотни и тысячи учащихся
проходят недели и месяцы. Но это не вся трудность. За это время в учебных заведениях
многое меняется, появляются новые учебники, меняются учебные программы, сами учеб-
ные дисциплины становятся другими. «Плывет» основательность знаний учащимися тех
или иных разделов дисциплины. При всем этом, естественно, должны меняться и базы за-
даний. Вместе с базами, должны измениться и значения весов заданий. И это – еще не все
аргументы.
В тестологии разъясняют такую ситуацию, т. е. «плывущие» результаты измерений, «не-
репрезентативностью» выборки претендентов. Это можно было бы так и оставить, если
бы не видны были явные закономерности «заплывов» этих чисел. Можно утверждать: ес-
ли претенденты мотивированы, а временные интервалы между сеансами достаточно вели-
ки и претенденты имеют возможность общения, то после нескольких сеансов мы увидим -
А) веса заданий стремятся стать равными:

Заказать работу

Вы здесь

Образовательные информационные технологии. Часть 2. Педагогические измерения. Морев И.А. - 54 стр.

UptoLike

ВУЗ:

Морев И.А.

Информатика и информационные технологии

Страницы