Образовательные информационные технологии. Часть 2. Педагогические измерения. Морев И.А. - 52 стр.

UptoLike

Составители: 

52
02.05. Динамика результатов педагогических измерений
Наука и религия обязаны принимать догматику.
Этой ценой покупается возможность
получать ответы на поставленные вопросы.
Ю. ШРЕЙДЕР "Заметки о философии"
Этот параграф посвящен дискуссии о целесообразности некоторых понятий и действий
тестологии. В качестве предмета обсуждения мы выбрали понятия «надежность» и «вес
задания», а в качестве действийих измерение.
Прочитав методическое пособие по тестологии, каких немало, начинаешь верить, что одна
из главных характеристик педагогического тестанадежность. Тестологи считают на-
дежным (то есть
, в просторечии, хорошим) тестом тот, результаты прохождения которого
не меняются (или мало меняются), сколько бы раз претендентов не тестировали. Как в
технике: хороша та линейка, которая не меняет толщину кирпича в процессе измерения.
Ниже мы покажем, что высокая надежностьэто как раз тот идеал, которого нельзя дос-
тичь в педагогических
измерениях в условиях массовых тестирований.
Основной метод измерения надежностиретестинг, дублирующее тестирование, которое
проводят в течение одного или двух сеансов.
В течение одного сеанса повторное тестирование устраивают путем:
либо дублирования заданий в составе теста, представление их в разной форме и
разными формулировками;
либо деления теста пополам и принятия утверждения, что половинки эквивалент-
ны.
Если повторное тестирование устраивают в два сеанса, то применяют в обоих случаях
один тест либо тесты с подобными, но измененными заданиями (варианты теста). При
этом группы претендентов могут быть разными, но должны быть «статистически равны-
ми». «Статистическую равность» устанавливают путем
предварительного опроса либо
предварительного тестирования.
При повторном тестировании в течение одного сеанса, учащиеся часто проявляют смекал-
ку и, наперекор изобретательным составителям теста, находят дублиодинаковые зада-
ния. Дальше они поступают так: если есть уверенность в точности решения, оба раза вы-
бирают один (верный на их взгляд) вариант. Если нетвыбирают
разные варианты. Этот
простой алгоритм, применяемый мотивированными претендентами, влияет на чистоту
эксперимента однозначно: значение «надежности» завышается.
Как бы не старались экспериментаторы соблюсти чистоту эксперимента при тестировании
в два сеанса:
учащиеся почему-то вдруг начинают консультироваться с преподавателем, читать
учебники и повышать свои знания в перерывах между сеансами;
учащиеся выходят после сеанса и рассказывают стоящим в очереди «новичкам»
смысл заданий и вероятные решения;
учащиеся почему-то учатся в разных школах и невозможно предсказать заранее,
чему их там учили лучше или хуже;
учащимся может все надоесть, и они начнут тестироваться методом «тыка» (кста-
ти, самый лучший метод получения надежных результатов).
       02.05. Динамика результатов педагогических измерений


                                       Наука и религия обязаны принимать догматику.
                                                Этой ценой покупается возможность
                                          получать ответы на поставленные вопросы.
                                               Ю. ШРЕЙДЕР "Заметки о философии"
Этот параграф посвящен дискуссии о целесообразности некоторых понятий и действий
тестологии. В качестве предмета обсуждения мы выбрали понятия «надежность» и «вес
задания», а в качестве действий – их измерение.
Прочитав методическое пособие по тестологии, каких немало, начинаешь верить, что одна
из главных характеристик педагогического теста – надежность. Тестологи считают на-
дежным (то есть, в просторечии, хорошим) тестом тот, результаты прохождения которого
не меняются (или мало меняются), сколько бы раз претендентов не тестировали. Как в
технике: хороша та линейка, которая не меняет толщину кирпича в процессе измерения.
Ниже мы покажем, что высокая надежность – это как раз тот идеал, которого нельзя дос-
тичь в педагогических измерениях в условиях массовых тестирований.
Основной метод измерения надежности – ретестинг, дублирующее тестирование, которое
проводят в течение одного или двух сеансов.
В течение одного сеанса повторное тестирование устраивают путем:
   •   либо дублирования заданий в составе теста, представление их в разной форме и
       разными формулировками;
   •   либо деления теста пополам и принятия утверждения, что половинки эквивалент-
       ны.
Если повторное тестирование устраивают в два сеанса, то применяют в обоих случаях
один тест либо тесты с подобными, но измененными заданиями (варианты теста). При
этом группы претендентов могут быть разными, но должны быть «статистически равны-
ми». «Статистическую равность» устанавливают путем предварительного опроса либо
предварительного тестирования.
При повторном тестировании в течение одного сеанса, учащиеся часто проявляют смекал-
ку и, наперекор изобретательным составителям теста, находят дубли – одинаковые зада-
ния. Дальше они поступают так: если есть уверенность в точности решения, оба раза вы-
бирают один (верный на их взгляд) вариант. Если нет – выбирают разные варианты. Этот
простой алгоритм, применяемый мотивированными претендентами, влияет на чистоту
эксперимента однозначно: значение «надежности» завышается.
Как бы не старались экспериментаторы соблюсти чистоту эксперимента при тестировании
в два сеанса:
   •   учащиеся почему-то вдруг начинают консультироваться с преподавателем, читать
       учебники и повышать свои знания в перерывах между сеансами;
   •   учащиеся выходят после сеанса и рассказывают стоящим в очереди «новичкам»
       смысл заданий и вероятные решения;
   •   учащиеся почему-то учатся в разных школах и невозможно предсказать заранее,
       чему их там учили лучше или хуже;
   •   учащимся может все надоесть, и они начнут тестироваться методом «тыка» (кста-
       ти, самый лучший метод получения надежных результатов).

                                         52