Основные положения классической теории тестов. Теория тестов и тестирование физической подготовленности учащихся

ОТЧЕТ

студента 137 гр. Иванова И.

о проверке эффективности методики тренировки
с применением методов математической статистики

Разделы отчета оформляются в соответствии с образцами, приведенными в настоящем пособии в конце каждого этапа игры. Зачтенные отчеты хранятся на кафедре биомеханики до консультации перед экзаменом. Студенты, не отчитавшиеся за проделанную работу и не сдавшие тетрадь с отчетом преподавателю, к экзамену по спортивной метрологии не допускаются.

I этап деловой игры
Контроль и измерения в спорте

Цель:

1. Ознакомиться с теоретическими основами контроля и измерений в спорте и физическом воспитании.

2. Приобрести навыки измерения показателей скоростных качеств у спортсменов.

1. Контроль в физическом
воспитании и спорте

Физическое воспитание и спортивная тренировка – не стихийный, а управляемый процесс. В каждый момент времени человек находится в определенном физическом состоянии, которое определяется, главным образом, здоровьем (соответствием показателей жизнедеятельности норме, степенью устойчивости организма к неблагоприятным внезапным воздействиям), телосложением и состоянием физических функций.

Физическим состоянием человека целесообразно управлять, изменяя его в нужном направлении. Это управление осуществляется средствами физического воспитания и спорта, к которым, в частности, относятся физические упражнения.

Это только кажется, что преподаватель (или тренер) управляет физическим состоянием, воздействуя на поведение спортсмена, т.е. предлагая определенные физические упражнения, а также контролируя правильность их выполнения и получаемые при этом результаты. В действительности же поведением спортсмена управляет не тренер, а сам спортсмен. В ходе спортивной тренировки оказывается воздействие на самоуправляемую систему (организм человека). Индивидуальные различия в состоянии спортсменов не дают уверенности в том, что одно и то же воздействие вызовет одинаковую ответную реакцию. Поэтому актуален вопрос об обратной связи: информации о состоянии спортсмена, поступающей тренеру в ходе контроля тренировочного процесса.

Контроль в физическом воспитании и спорте базируется на измерениях показателей, отборе наиболее существенных и их математической обработке.

Управление учебно-тренировочным процессом включает в себя три стадии:

1) сбор информации;

2) ее анализ;

3) принятие решений (планирование).

Сбор информации обычно осуществляется во время комплексного контроля, объектами которого являются:

1) соревновательная деятельность;

2) тренировочные нагрузки;

3) состояние спортсмена.

Различают (В.А. Запорожанов) три типа состояний спортсмена в зависимости от длительности промежутка, необходимого для перехода из одного состояния в другое.

1. Этапное (перманентное) состояние. Сохраняется относительно долго – недели или месяцы. Комплексная характеристика этапного состояния спортсмена, отражающая его возможности к демонстрации спортивных достижений, называется подготовленностью, а состояние оптимальной (наилучшей для данного цикла тренировки) подготовленности – спортивной формой . Очевидно, что в течение одного или нескольких дней нельзя достигнуть состояния спортивной формы или утратить его.

2. Текущее состояние. Изменяется под влиянием одного или нескольких занятий . Нередко последствия участия в соревнованиях или выполненной на одном из занятий тренировочной работы затягиваются на несколько дней. В этом случае спортсмен обычно отмечает явления как неблагоприятного характера (например, мышечные боли), так и позитивного (например, состояние повышенной работоспособности). Такие изменения называют отставленным тренировочным эффектом .

Текущее состояние спортсмена определяет характер ближайших тренировочных занятий и величину нагрузок в них. Частный случай текущего состояния, характеризующийся готовностью к выполнению в ближайшие дни соревновательного упражнения с результатом, близким к максимальному, называется текущей готовностью .

3. Оперативное состояние. Изменяется под влиянием однократного выполнения физических упражнений и является временным (например, утомление, вызванное однократным пробеганием дистанции; временное повышение работоспособности после разминки). Оперативное состояние спортсмена изменяется в ходе тренировочного занятия и должно учитываться при планировании интервалов отдыха между подходами, повторными забегами, при решении вопроса о целесообразности дополнительной разминки и т.п. Частный случай оперативного состояния, характеризующийся немедленной готовностью к выполнению соревновательного упражнения с результатом, близким к максимальному, называется оперативной готовностью .

В соответствии с приведенной классификацией выделяют три основных вида контроля состояния спортсмена:

1) этапный контроль . Его цель – оценить этапное состояние (подготовленность) спортсмена;

2) текущий контроль . Его основная задача – определить повседневные (текущие) колебания в состоянии спортсмена;

3) оперативный контроль . Его цель – экспресс-оценка состояния спортсмена в данный момент.

Измерение или испытание, проводимое с целью определения состояния или способностей спортсмена, называется тестом . Процедура измерений или испытаний называется тестированием.

Любой тест включает в себя измерение. Но не всякое измерение служит тестом. В качестве тестов могут быть использованы лишь те, которые удовлетворяют следующим метрологическим требованиям :

2) стандартизация;

3) наличие системы оценок;

4) надёжность и информативность (добротность) тестов;

5) вид контроля (этапный, текущий или оперативный).

Тест, в основе которого лежат двигательные задания, называется двигательным. Существует три группы двигательных тестов:

1. Контрольные упражнения, выполняя которые спортсмен получает задание показать максимальный результат. Результатом теста является двигательное достижение. Например, время, за которое спортсмен пробегает дистанцию 100 м.

2. Стандартные функциональные пробы, в ходе которых задание, одинаковое для всех, дозируется либо по величине выполненной работы, либо по величине физиологических сдвигов. Результатом теста являются физиологические или биохимические показатели при стандартной работе либо двигательные достижения при стандартной величине физиологических сдвигов. Например, процент увеличения ЧСС после 20 приседаний или скорость, с которой бежит спортсмен при фиксируемой величине ЧСС 160 ударов в минуту.

3. Максимальные функциональные пробы, в ходе которых спортсмен должен показать максимальный результат. Результатом теста являются физиологические или биохимические показатели при максимальной работе. Например, максимальное потребление кислорода или максимальная величина кислородного долга.

Высококачественное тестирование предполагает знание теории измерений.

Измерение или испытание, проводимое с целью определения состояния или способностей спортсмена, называется тестом . Не всякие измерения могут быть использованы как тесты, а только те, которые отвечают специальным требованиям: стандартность, наличие системы оценок, надежность, информативность, объективность. Тесты, удовлетворяющие требованиям надежности, информативности и объективности, называют добротными .

Процесс испытания называется тестированием , а полученные в итоге измерения числовые значения – результатом тестирования.

Тесты, в основе которых лежат двигательные задачи, называют двигательными или моторными . В зависимости от задания, которое стоит перед исследуемым, различают три группы двигательных тестов.

Разновидности двигательных тестов

Название теста	Задание спортсмену	Результат теста
Контрольное упражнение		Двигательные достижения	Бег на 1500 м, время бега
Стандартные функциональные пробы	Одинаковое для всех, дозируется: 1)по величине выполненной работы; 2) по величине физиологических сдвигов	Физиологические или биохимические показатели при стандартной работе Двигательные показатели при стандартной величине физиологических сдвигов	Регистрация ЧСС при стандартной работе 1000 кГм/мин Скорость бега при ЧСС 160 уд/мин
Максимальные функциональные пробы	Показать максимальный результат	Физиологические или биохимические показатели	Определение максимального кислородного долга или максимального потребления кислорода

Иногда используется не один, а несколько тестов, имеющих единую конечную цель. Такая группа тестов называется батареей тестов .

Известно, что даже при самой строгой стандартизации и точной аппаратуре результаты тестирования всегда несколько варьируют. Поэтому, одним из важным условий подбора добротных тестов является их надежность.

Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях. Различают четыре основные причины вызывающие внутрииндивидуальной или внутригрупповой вариации результатов тестирования:

изменение состояния испытуемых (утомление, изменение мотивации и т.п.); неконтролируемые изменения внешних условий и аппаратуры;

изменение состояния человека, проводящего или оценивающего тест (самочувствие, замена экспериментатора и т.п.);

несовершенство теста (например, заведомо несовершенные и малонадежные тесты – штрафные броски в баскетбольную корзину до первого промаха и т.п.).

Критерием надежности теста может служить коэффициент надежности, рассчитанный как отношение истинной дисперсии к дисперсии, зарегистрированной в опыте: r = истинная s 2 / зарегистрированная s 2 , где под истинным значением понимают дисперсию, полученную при бесконечно большом числе наблюдений в одинаковых условиях; регистрируемая дисперсия выводится из опытных исследований. Иными словами, коэффициент надежности есть просто доля истинной вариации в той вариации, которая зарегистрирована в опыте.

Кроме этого коэффициента используют еще индекс надежности , который рассматривают как теоретический коэффициент корреляции или связи между зарегистрированным и истинным значениями одного и того же теста. Этот способ наиболее распространен как критерий оценки качества (надежности) теста.

Одной из характеристик надежности теста является его эквивалентность , что отражает степень совпадения результатов тестирования одного и того же качества (например, физического) разными тестами. Отношение к эквивалентности тестов зависит от конкретной задачи. С одной стороны, если два или больше тестов эквивалентны, их совместное применение повышает надежность оценок; с другой – представляется возможным применить только один эквивалентный тест, что упростит тестирование.

Если все тесты, входящие в какую-либо батарею тестов, высокоэквивалентны, они называются гомогенными (например, для оценки качества прыгучести гомогенными, надо полагать, будут прыжки с места в длину, вверх, тройным). Наоборот, если в комплексе нет эквивалентных тестов (как например, для оценки общей физической подготовленности), то все тесты входящие в него, измеряют разные свойства, т.е. по существу комплекс является гетерогенным.

Надежность тестов может быть повышена до определенной степени путем:

более строгой стандартизацией тестирования;

увеличения числа попыток;

увеличение числа оценщиков и повышения согласованности их мнений;

увеличения числа эквивалентных тестов;

лучшей мотивации испытуемых.

Объективность теста есть частный случай надежности, т.е. независимость результатов тестирования от лица, проводящего тест.

Информативность теста – это степень точности, с какой он измеряет свойство (качество спортсмена), для оценки которого используется. В разных случаях одни и те же тесты могут иметь разную информативность. Вопрос об информативности теста распадается на два частных вопроса:

Что изменяет данный тест? Как точно он измеряет?

Например, можно ли по такому показателю, как МПК, судить о подготовленности бегунов-стайеров, и если можно, то с какой степенью точности? Можно ли использовать этот тест в процессе контроля?

Если тест используется для определения состояния спортсмена в момент обследования, то говорят о диагностической информативности теста. Если же на основе результатов тестирования хотят сделать вывод о возможных будущих показателях спортсмена, говорят о прогностической информативности. Тест может быть диагностически информативен, а прогностически нет и наоборот.

Степень информативности может характеризоваться количественно – на основе опытных данных (так называемая эмпирическая информативность) и качественно – на основе содержательного анализа ситуации (логическая информативность). Хотя в практической работе логический, или содержательный анализ всегда должен предшествовать математическому. Показателем информативности теста служит коэффициент корреляции, рассчитанный для зависимости - критерия от результата в тесте, и наоборот (в качестве критерия берется показатель, заведомо отражающий то свойство, которое собираются измерять с помощью теста).

В случаях недостаточности информативности какого-либо теста прибегают к использованию батареи тестов. Однако последнее, даже при наличие высоких раздельных критериев информативности (судя по коэффициентам корреляции), не позволяет получить единое число. Здесь на помощь может прийти более сложный метод математической статистики – факторный анализ. Который позволяет определить, сколько и какие тесты совместно действуют на отдельный фактор и какова степень их вклада в каждый фактор. А затем уже легко выбрать тесты (или их комбинации), которые наиболее точно оценивают отдельные факторы.

1 Что называется тестом?
2 Что называется тестированием?	Количественная оценка какого-либо качества или состояния спортсмена Измерение или испытание, проводимое с целью определения состояния или способностей спортсменаПроцесс испытания, во время которого количественно оценивается какое-либо качество или состояние спортсменаНужного определения нет
3 Что называется результатом теста?	Количественная оценка какого-либо качества или состояния спортсмена Измерение или испытание, проводимое с целью определения состояния или способностей спортсменаПроцесс испытания, во время которого количественно оценивается какое-либо качество или состояние спортсменаНужного определения нет
4 К какой разновидности тестов относится бег на 100 м ?
5 К какой разновидности тестов относится кистевая динамометрия ?	Контрольное упражнение Функциональная пробаМаксимальный функциональный тест
6 К какой разновидности тестов относится проба МПК ?	Контрольное упражнение Функциональная пробаМаксимальный функциональный тест
7 К какой разновидности тестов относится трехминутный бег под метроном ?	Контрольное упражнение Функциональная пробаМаксимальный функциональный тест
8 К какой разновидности тестов относится максимальное количество подтягиваний на перекладине ?	Контрольное упражнение Функциональная пробаМаксимальный функциональный тест
9 В каком случае считается тест информативным?
10 В каком случае считается тест надежным?	Способность теста к воспроизведению результатов при повторном испытании Способность теста измерять интересующее качество спортсменаНезависимость результатов тестирования от лица, проводящего тест
11 В каком случае считается тест объективным?	Способность теста к воспроизведению результатов при повторном испытании Способность теста измерять интересующее качество спортсменаНезависимость результатов тестирования от лица, проводящего тест
12 Какой критерий необходим при оценке теста на информативность?
13 Какой критерий необходим при оценке теста на надежность?	Критерий Т-Стьюдента Критерий F-ФишераКоэффициент корреляцииКоэффициент детерминацииДисперсия
14 Какой критерий необходим при оценке теста на объективность?	Критерий Т-Стьюдента Критерий F-ФишераКоэффициент корреляцииКоэффициент детерминацииДисперсия
15 Как называют информативность теста, если при его помощи оценивают степень тренированности спортсмена?
16 Какой информативностью контрольных упражнений руководствуется тренер, отбирая детей в свою спортивную секцию?	Логической ПрогностическойЭмпирическойДиагностической
17 Нужен ли корреляционный анализ для оценки информативности тестов?
18 Нужен ли факторный анализ для оценки информативности тестов?
19 Можно ли оценить с помощью корреляционного анализа надежность теста?
20 Можно ли оценить с помощью корреляционного анализа объективность теста?
21 Будут ли эквивалентны тесты, предназначенные для оценки общей физической подготовленности?
22 При измерении одного и того же качества разными тестами используют тесты …	Предназначенные для измерения одного и того же качества Имеющие высокую корреляционную связь между собойИмеющие низкую корреляционную связь между собой

ОСНОВЫ ТЕОРИИ ОЦЕНОК

Для оценивания спортивных результатов часто прибегают к специальным таблицам очков. Цель таких таблиц – преобразование показанного спортивного результата (выраженного в объективных мерах) в условные очки. Закон преобразования спортивных результатов в очки называется шкалой оценок . Шкала может быть задана в виде математического выражения, таблицы или графика. Различают 4 основных типа шкал, используемых в спорте и физическом воспитании.

Пропорциональные шкалы

Регрессирующие шкалы

Прогрессирующие шкалы.

Пропорциональные шкалы предполагают начисление одинакового числа очков за равный прирост результатов (например, за каждые 0,1 с улучшения результата в беге на 100 м начисляется 20 очков). Такие шкалы используются в современном пятиборье, конькобежном спорте, гонках на лыжах, лыжном двоеборье, биатлоне и других видах спорта.

Регрессирующие шкалы предполагают начисление, за один и тот же прирост результата по мере возрастания спортивных достижений, все меньшее число очков (например, за улучшение результата в беге на 100 м с 15, 0 до 14.9 с добавляют 20 очков, а за 0,1 с в диапазоне 10,0-9,9 с – только 15 очков).

Прогрессирующие шкалы. Здесь чем выше спортивный результат, тем большей прибавкой очков оценивается его улучшение (например, за улучшение времени в беге от 15,0 до 14,9 с добавляют 10 очков, а от 10,0 до 9,9 с – 100 очков). Прогрессирующие шкалы применяются в плавании, отдельных видах легкой атлетики, тяжелой атлетике.

Сигмовидные шкалы редко используются в спорте, но широко применяются при оценке физической подготовленности (например, так выглядит шкала стандартов физической подготовленности населения США). В этих шкалах улучшение результатов в зоне очень низких и очень высоких достижений поощряются скупо; больше всего очков приносит прирост результатов в средней зоне достижений.

Основными задачами оценивания являются:

сопоставить разные достижения в одном и том же задании;

сопоставить достижения в разных заданиях;

определить нормы.

Нормой в спортивной метрологии называется граничная величина результата, служащая основой для отнесения спортсмена к одной из классификационных групп. Существует три вида норм: сопоставительные, индивидуальные, должные.

Сопоставительные нормы имеют в своей основе сравнение людей, принадлежащих к одной и той же совокупности. Например, разбиение людей на подгруппы по степени устойчивости (высокой, средней, низкой) или реактивности (гиперреактивные, нормореактивные, гипореактивные) к гипоксии.

Разные градации оценок и норм

			Процент испытуемых	Нормы в шкалах
Словесная	в баллах				Перцентильная
Очень низкая		Ниже М - 2
		От М - 2 до М - 1
Ниже средней		От М-1 до М–0,5
		От М–0,5 до М+0,5
Выше средней		От М+0,5 до М+1
		От М+1 до М+2
Очень высокая		Выше М+2

Эти нормы характеризуют лишь сравнительные успехи испытуемых в данной совокупности, но ничего не говорят о совокупности в целом (или в среднем). Поэтому сопоставительные нормы должны сравниваться с данными, полученными на других совокупностях, и использоваться в сочетании с индивидуальными и должными нормами.

Индивидуальные нормы основаны на сравнении показателей одного и того же спортсмена в разных состояниях. Например, во многих видах спорта нет зависимости между собственным весом тела и спортивным результатом. У каждого спортсмена есть индивидуально оптимальный вес, соответствующий состоянию спортивной формы. Эту норму можно контролировать на разных этапах спортивной подготовки.

Должные нормы основаны на анализе того, что должен уметь человек, чтобы успешно справляться с задачами, которые перед ним ставит жизнь. Примером этому могут служить нормативы отдельных комплексов по физической подготовке, должные величины ЖЕЛ, основного обмена, массы и роста тела, и т.п.

1 Можно ли прямым методом измерить качество выносливости?
2 Можно ли прямым методом измерить качество быстроты?
3 Можно ли прямым методом измерить качество ловкости?
4 Можно ли прямым методом измерить качество гибкости?
5 Можно ли прямым методом измерить силу отдельных мышц?
6 Может ли оценка выражаться в качественной характеристике (хорошо, удовлетворительно, плохо, зачет и т.п.)?
7 Есть ли разница между шкалой измерений и шкалой оценок?
8 Что называется шкалой оценок?	Система измерения спортивного результата Закон преобразования спортивных результатов в очкиСистема оценивания норм
9 Шкала предполагает начисление одинакового числа очков за равный прирост результатов. Это …
10 За один и тот же прирост результата начисляют по мере возрастания спортивных достижений всё меньшее число очков. Это …	Прогрессирующая шкала Регрессирующая шкалаПропорциональная шкалаСигмовидная шкала
11 Чем выше спортивный результат, тем большей прибавкой очков оценивается его улучшение. Это …	Прогрессирующая шкала Регрессирующая шкалаПропорциональная шкалаСигмовидная шкала
12 Улучшение результатов в зонах очень низких и очень высоких достижений поощряется скупо; больше всего очков приносит прирост результатов в средней зоне достижений. Это …	Прогрессирующая шкала Регрессирующая шкалаПропорциональная шкалаСигмовидная шкала
13 Нормы, имеющие в своей основе сравнение людей, принадлежащих к одной и той же совокупности, называются …
14 Нормы, основанные на сравнении показателей одного и того же спортсмена в разных состояниях, называются …	Индивидуальными нормами Должными нормамиСопоставительными нормами
15 Нормы, основанные на анализе того, что должен уметь делать человек, чтобы справляться с поставленными перед ним задачами, называются …	Индивидуальными нормами Должными нормамиСопоставительными нормами

ОСНОВНЫЕ ПОНЯТИЯ КВАЛИМЕТРИИ

Квалиметрия (лат. qualitas – качество, metron – мера) изучает и разрабатывает количественные методы оценки качественных признаков.

В основе квалиметрии лежит несколько исходных положений:

Любое качество можно измерить;

Качество зависит от ряда свойств, образующих “древо качества” (например, древо качества исполнения упражнений в фигурном катании состоит из трех уровней – высшего, среднего, низшего);

Каждое свойство определяется двумя числами: относительным показателем и весомостью; сумма весомостей свойств на каждом уровне равна единице (или 100%).

Методические приемы квалиметрии делятся на две группы:

Эвристические (интуитивные), основанные на экспертных оценках и анкетировании;

Инструментальные.

Экспертной называется оценка, получаемая путем выяснения мнений специалистов. Характерные примеры экспертизы: судейство в гимнастике и фигурном катании на коньках, конкурс на лучшую научную работу и т.п.

Проведение экспертизы включает следующие основные этапы: формирование ее цели, подбор экспертов, выбор методики, проведение опроса и обработку полученной информации, в том числе оценку согласованности индивидуальных экспертных оценок. При экспертизе большое значение имеет степень согласованности мнений экспертов, оцениваемая по величине рангового коэффициента корреляции (в случае нескольких экспертов). Следует заметить, что ранговая корреляция лежит в основе решения многих задач квалиметрии, поскольку позволяет осуществлять математические расчеты с качественными признаками.

На практике показателем квалификации эксперта часто служит отклонение его оценок от средних оценок группы экспертов.

Анкетированием называется метод сбора мнений посредством заполнения анкет. Анкетирование наряду с интервью и беседой относится к методам опроса. В отличие от интервью и беседы анкетирование предполагает письменные ответы лица, заполняющего анкету – респондента, - на систему стандартизированных вопросов. Оно позволяет изучать мотивы поведения, намерения, мнения и т.п.

С помощью анкетирования можно решать многие практические задачи в спорте: оценка психологического статуса спортсмена; его отношение к характеру и направленности тренировочных занятий; межличностные отношения в команде; собственная оценка технико-тактической подготовленности; оценка рациона питания и многие другие.

1 Что изучает квалиметрия?	Изучает качества тестов Изучает качественные свойства признакаИзучает и разрабатывает количественные методы оценки качества
2 Математические методы, применяемые в квалиметрии?	Парная корреляция Ранговая корреляцияДисперсионный анализ
3 С помощью каких методов оценивается уровень работоспособности?
4 С помощью каких методов оценивается разнообразие технических элементов?	Метод анкетирования Метод экспертных оценокМетод не указан
5 С помощью каких методов оценивается сложность технических элементов?	Метод анкетирования Метод экспертных оценокМетод не указан
6 С помощью каких методов оценивается психологическое состояние спортсмена?	Метод анкетирования Метод экспертных оценокМетод не указан

Основные вопросы: Тест как инструмент измерения. Основные теории тестирования. Функции, возможности и ограничения тестирования. Применение тестов в оценке персонала. Преимущества и недостатки использования тестов. Формы и виды тестовых заданий. Технология построения задания. Оценка качества теста. Достоверность и валидность. Программное обеспечение для разработки тестов. 2

Тест как инструмент измерения Основные понятия в тестологии: измерение, тест, содержание и форма заданий, надежность и валидность результатов измерения. Кроме того, в тестологии используются такие понятия статистической науки, как выборочная и генеральная совокупность, средние показатели, вариация, корреляция, регрессия и др. 4

Тестовое задание - это дидактически и технологически эффективная единица контрольного материала, часть теста, которая отвечает требованиям предметной чистоты содержания (или одномерности), содержательной и логической правильности, правильности формы, приемлемости геометрического образа задания. 6

Традиционный тест представляет собой стандартизованный метод диагностики уровня и структуры подготовленности. В таком тесте все испытуемые отвечают на одни и те же задания, в одинаковое время, в одинаковых условиях и с одинаковыми правилами оценивания ответов. Для достижения цели тестирования можно создать бесчисленное количество тестов, и все они могут соответствовать достижению поставленной задаче. 8

Профессиограмма (от лат. Professio специальность + Gramma запись) система признаков, описывающих ту или иную профессию, а также включающая в себя перечень норм и требований, предъявляемых этой профессией или специальностью к работнику. В частности, профессиограмма может включать в себя перечень психологических характеристик, которым должны соответствовать представители конкретных профессиональных групп. 9

Основные теории тестирования Первые научные труды по теории тестов появилась в начале ХХ века, на стыке психологии, социологии, педагогики и других, так называемых поведенческих наук. Зарубежные психологи называют эту науку психометрикой (Psychometrika), а педагоги - педагогическим измерением (Educational measurement). Незамутненная идеологией и политикой, интерпретация названия « тестология » проста и прозрачна: наука о тестах. 10

Первый этап - предыстория - с древности до конца XIX века, когда были распространены донаучные формы контроля знаний и способностей; второй период, классический, продолжался с начала 20- х до конца 60- х годов, в течение которого создавалась классическая теория тестов; третий период - технологический - начавшийся с 70- х годов - время разработки методов адаптивного тестирования и обучения, методологию эффективной разработки тестов и тестовых заданий для параметрической оценки испытуемых по измеряемому латентному качеству. 11

Функции, возможности и ограничения тестирования Применяемые при отборе тесты предназначены для того, чтобы получить психологический портрет кандидата, оценить его способности, а также профессиональные знания и навыки. Тесты позволяют сравнивать кандидатов между собой или с эталонами, то есть идеальным кандидатом. Тесты используются для измерения качеств человека, необходимых для результативного выполнения работы. Некоторые тесты устроены таким образом, чтобы работодатель сам администрировал тестирование и подсчитывал результаты. Другие требуют услуг опытных консультантов, чтобы обеспечить их правильное применение. 12

Ограничения использования тестов связаны - с их дорогим администрированием; - с пригодностью для оценки способностей человека; - тесты более успешны для прогнозирования успешности в работе, которая содержит короткие по времени профессиональные задачи, и не очень удобны в случаях, когда задачи, решаемые на работе, занимают несколько дней или недель. 13

2. Используемая терминология должна быть подобрана в расчете на конкретную целевую аудиторию. Также нужно исключить излишние статьи или статьи, включающие два или более вопроса, так как они иногда сбивают с толку респондента и затрудняют интерпретацию. 17

3. Чтобы удовлетворить всем этим требованиям, следует просмотреть весь банк вопросов статью за статьей и проанализировать, какой цели служит каждая из них. Например, если тест разрабатывается для измерения аналитических способностей стажеров - бухгалтеров, стоит подумать, что в этом случае означает понятие « аналитические способности ». 18

5. Когда вопросы и форматы подсчета результатов выбраны, их нужно преобразовать в удобный для пользователя формат, с ясно написанными инструкциями и вопросами - примерами; так, чтобы выполняющие тест кандидаты полностью понимали, что от них требуется. 20

6. Очень часто на этом этапе разработки в тест включают больше вопросов, чем нужно. По некоторым оценкам, в три раза больше, чем останется в окончательном тесте или системе измерения. Тогда исходной мерой станет проверка разрабатываемого теста на относительно широкой выборке из числа существующих работников, чтобы убедиться в том, что все вопросы легко понятны. 21

7. Тесты на определение знаний обычно начинаются с простых вопросов, постепенно усложняющихся к концу. Когда тесты предназначаются для измерения социальных установок и личностных характеристик, возможно, будет полезным чередовать негативно и позитивно сформулированные статьи, чтобы избежать непродуманных ответов. 22

8. Последний этап представляет собой применение теста на широкой репрезентативной выборке, чтобы установить нормы выполнения, достоверности и валидности еще до начала его использования в качестве инструмента отбора. Кроме того, необходимо определить справедливость теста, чтобы убедиться, что он не дискриминирует никакие подгруппы населения (например, этническим отличиям). 23

Оценка качества теста Чтобы методы отбора были достаточно результативными они должны быть надежными, валидными и достоверными. Достоверность метода отбора характеризуется его неподверженностью систематическим ошибкам при измерении, то есть его состоятельности при разных условиях. 24

На практике достоверность при вынесении суждений достигается сравнением результатов двух и более аналогичных тестов, проведенных в разные дни. Другой путь повышения достоверности – сравнение результатов нескольких альтернативных методов отбора (например, тест и беседа). Если результаты сходны или одинаковы, можно считать их верными. 25

Надежность означает, что проведенные замеры дадут тот же результат, что и предыдущие, то есть на результаты оценки не влияют сторонние факторы. Валидность означает, что этот метод измеряет именно то, для чего он предназначен. Максимально возможная точность информации, получаемой специально разработанными методиками в научных исследованиях, ограничена техническими факторами и не превышает 0,8. 26

В практике отбора персонала отмечается, что надежность различных методов оценки располагается в интервалах: 0,1 – 0,2 – традиционное интервью; 0,2 – 0,3 – рекомендации; 0,3 – 0,5 – профессиональные тесты; 0,5 – 0,6 – структурированное интервью, интервью по компетенциям; 0,5 – 0,7 – когнитивные и личностные тесты; 0,6 – 0,7 – компетентностный подход (ассессмент - центр). 27

Под обоснованностью понимается то, с какой степенью точности данный результат, метод или критерий « предсказывает » будущую результативность тестируемого человека. Обоснованность методов относится к выводам, сделанным на основе той или иной процедуры, а не к самой процедуре. То есть метод отбора может сам по себе быть достоверным, но не соответствовать конкретной задаче: измерять не то, что требуется в данном случае. 28

Программное обеспечение для разработки тестов В отечественной практике представлены различные комплексные программы с модулем « Психодиагностика », например, программа «1 С: Зарплата и Управление Персоналом 8.0» с модулем « Психодиагностика », разработанная совместно с группой преподавателей кафедры психологии личности и общей психологии факультета психологии МГУ им. М. В. Ломоносова под руководством д. псих. наук, проф. А. Н. Гусева. Учебный тренажер для разработки систем оценки персонала и адаптации тестовых методик факультета психологии ТГУ, разработанный также на базе «1 С: Предприятие 8.2» фирмой Персонал Софт. 29

Литература: Отбор и найм персонала: технологии тестирования и оценки / Доминик Купер, Иван Т. Робертсон, Гордон Тинлайн. – М., изд - во « Вершина, – 156 с. Психологическое обеспечение профессиональной деятельности: теория и практика / Под ред. Проф. Г. С. Никифорова. – СПб.: Речь, – 816 с. 30

основы теории тестов

Основные понятия теории тестов

Измерение или испытание, проводимое с целью определения состояния или способностей спортсмена, называется тестом .

Не всякие измерения могут быть использованы как тесты, а только те, которые отвечают специальным требованиям. К ним относятся:

1. стандартизованность (процедура и условия тестирования должны быть одинаковыми во всех случаях применения теста);
2. надежность;
3. информативность;
4. наличие системы оценок.

Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными или аутентичными (греч. аутентико - достоверным образом).

Процесс испытаний называется тестированием ; полученное в итоге измерения числовое значение - результатом тестирования (или результатом теста). Например, бег 100 м - это тест, процедура проведения забегов и хронометража - тестирование, время забега - результат теста.

Тесты, в основе которых лежат двигательные задания, называют двигательными или моторными . Результатами их могут быть либо двигательные достижения (время прохождения дистанции, число повторений, пройденное расстояние и т.п.), либо физиологические и биохимические показатели.

Иногда используется не один, а несколько тестов, имеющих единую конечную цель (например, оценку состояния спортсмена в соревновательном периоде тренировки). Такая группа тестов называется комплексом или батареей тестов .

Один и тот же тест, примененный к одним и тем же исследуемым, должен дать в одинаковых условиях совпадающие результаты (если только не изменились сами исследуемые). Однако при самой строгой стандартизации и точной аппаратуре результаты тестирования всегда несколько варьируют. Например, исследуемый, только что показавший в тесте становой динамометрии результат 215 кГ, при повторном выполнении показывает лишь 190 кГ.

2. Надежность тестов и пути ее определения

Надежностью теста называется степень совпадения результатов при повторном тестировании одних и тех же людей (или других объектов) в одинаковых условиях.

Вариацию результатов при повторном тестировании называют внутри индивидуальной, или внутри групповой, либо внутриклассовой.

Четыре основные причины вызывают эту вариацию:

1. Изменение состояния исследуемых (утомление, врабатывание, научение, изменение мотивации, концентрации внимания и т.п.).
2. Неконтролируемые изменения внешних условий и аппаратуры (температура, ветер, влажность, напряжение в электросети, присутствие посторонних лиц и т.п.), т.е. все то, что объединяется термином “случайная ошибка измерения”.
3. Изменение состояния человека, проводящего или оценивающего тест (и, конечно, замена одного экспериментатора или судьи другим).
4. Несовершенство теста (есть такие тесты, которые заведомо малонадежные. Например, если исследуемые выполняют штрафные броски в баскетбольную корзину, то даже баскетболист, имеющий высокий процент попаданий, может случайно ошибиться при первых бросках).

Основное различие теории надежности тестов от теории ошибок измерения состоит в том, что в теории ошибок измеряемая величина считается неизменной, а в теории надежности тестов предполагается, что она меняется от измерения к измерению. Например, если необходимо измерить результат выполненной попытки в прыжках в длину с разбега, то он вполне определенный и с течением времени значительно измениться не может. Конечно, в силу случайных причин (например, неодинакового натяжения рулетки) нельзя с идеальной точностью (скажем до 0,0001 мм) измерить этот результат. Однако используя более точный измерительный инструмент (например, лазерный измеритель), можно повысить их точность до необходимого уровня. Вместе с тем, если стоит задача определить подготовленность прыгуна на отдельных этапах годичного цикла тренировки, то самое точное измерение показанных им результатов мало чем поможет: ведь они от попытки к попытке изменятся.

Чтобы разобраться в идее методов, используемых для суждения о надежности тестов, рассмотрим упрощенный пример. Предположим, что необходимо сравнить результаты прыжков в длину с места у двух спортсменов по двум выполненным попыткам. Допустим, что результаты каждого из спортсменов варьируют в пределах ± 10 см от средней величины и равны соответственно 230 ± 10 см (т.е. 220 и 240 см) и 280± 10 см (т.е. 270 и 290 см). В таком случае вывод, конечно, будет совершенно однозначным: второй спортсмен превосходит первого (различия между средними в 50см явно выше случайных колебаний в ± 10 см). Если же при той же самой внутригрупповой вариации (± 10 см) различие между средними значениями исследуемых (межгрупповая вариация) будут маленькими, то сделать вывод будет гораздо труднее. Допустим, что средние значения будут примерно равны 220 см (в одной попытке - 210, в другой - 230 см) и 222 см (212 и 232 см). При этом первый исследуемый в первой попытке прыгает на 230 см, а второй - только на 212 см; и создается впечатление, что первый существенно сильнее второго. Из этого примера видно, что основное значение имеет не сама по себе внутриклассовая изменчивость, а ее соотношение с межклассовыми различиями. Одна и та же внутриклассовая изменчивость дает разную надежность при равных различиях между классами (в частном случае между исследуемыми, рис. 14).

Рис. 14. Соотношение меж- и внутриклассовой вариации при высокой (вверху) и низкой (внизу) надежности:

короткие вертикальные штрихи - данные отдельных попыток;

Средние результаты трех исследуемых.

Теория надежности тестов исходит из того, что результат любого измерения, проводимого на человеке , есть сумма двух значений:

где: - так называемый истинный результат, который хотят зафиксировать;

Ошибка, вызванная неконтролируемыми изменениями в состоянии исследуемого и случайными ошибками измерения.

Под истинным результатом понимают среднее значение х при бесконечно большом числе наблюдений в одинаковых условиях (по этому при х ставят знак ).

Если ошибки случайны (их сумма равна нулю, и в равных попытках они не зависят друг от друга), тогда из математической статистики следует:

т.е. зарегистрированная в опыте дисперсия результатов равна сумме дисперсий истинных результатов и ошибок .

Коэффициентом надежности называется отношение истинной дисперсии к дисперсии, зарегистрированной в опыте:

Кроме коэффициента надежности используют еще индекс надежности :

который рассматривают как теоретический коэффициент корреляции зарегистрированных значений теста с истинными.

Понятие об истинном результате теста является абстракцией ( в опыте измерить нельзя). Поэтому приходится использовать косвенные методы. Наиболее предпочтителен для оценки надежности дисперсионный анализ с последующим расчетом внутриклассовых коэффициентов корреляции. Дисперсионный анализ позволяет разложить зарегистрированную в опыте вариацию результатов теста на составляющие, обусловленные влиянием отдельных факторов. Например, если зарегистрировать у исследуемых их результаты в каком-либо тесте, повторяя этот тест в разные дни, причем каждый день делать по несколько попыток, периодически меняя экспериментаторов, то будут иметь место вариации:

а) от испытуемого к испытуемому;

б) ото дня ко дню;

в) от экспериментатора к экспериментатору;

г) от попытки к попытке.

Дисперсионный анализ дает возможность выделить и оценить эти вариации.

Таким образом, чтобы оценить практически надежность теста надо, во-первых, выполнить дисперсионный анализ, во-вторых, рассчитать внутриклассовый коэффициент корреляции (коэффициент надежности).

При двух попытках величина внутриклассового коэффициента корреляции практически совпадает со значениями обычного коэффициента корреляции между результатами первой и второй попыток. Поэтому в таких ситуациях для оценки надежности можно использовать обычный коэффициент корреляции (он при этом оценивает надежность одной, а не двух попыток).

Говоря о надежности тестов, необходимо различать их стабильность (воспроизводимость), согласованность, эквивалентность.

Под стабильностью теста понимают воспроизводимость результатов при его повторении через определенное время в одинаковых условиях. Повторное тестирование обычно называют ретестом.

Согласованность теста характеризуется независимостью результатов тестирования от личных качеств лица, проводящего или оценивающего тест.

При выборе теста из определенного числа однотипных тестов (например, спринтерский бег на 30, 60 и 100 м) методом параллельных форм оценивается степень совпадения результатов. Рассчитанный между результатами коэффициент корреляции называют коэффициентом эквивалентности.

Если все тесты, входящие в какой-либо комплекс тестов, высоко эквивалентны, он называется гомогенным. Весь этот комплекс измеряет одно какое-то свойство моторики человека (например, комплекс, состоящий из прыжков с места в длину, вверх и тройного; оценивается уровень развития скоростно-силовых качеств). Если в комплексе нет эквивалентных тестов, то есть тесты, входящие в него, измеряют разные свойства, то он называется гетерогенным (например, комплекс, состоящий из становой динамометрии, прыжка вверх по Абалакову, бега на 100 м).

Надежность тестов может быть повышена до определенной степени путем:

а) более строгой стандартизации тестирования;

б) увеличения числа попыток;

в) увеличения числа оценщиков (судей, экспериментов) и повышения согласованности их мнений;

г) увеличения числа эквивалентных тестов;

д) лучшей мотивации исследуемых.

Пример 10.1.

Определить надежность результатов тройного прыжка с места в оценке скоростно-силовых возможностей спортсменов-спринтеров, если данные выборок таковы:

Решение:

1. Занести результаты тестирования в рабочую таблицу:

2. Подставляем полученные результаты в формулу расчета рангового коэффициента корреляции:

3. Определим число степеней свободы по формуле:

Вывод : полученное расчетное значение Следовательно, с уверенностью в 99% можно говорить о том, что тест тройного прыжка с места надежен.

Проблема тестирования физической подготовленности человека разработанных в теории и методике физического воспитания, спортивной метрологии, антропомоторике, биомеханике, спортивной медицине и других науках. За примерно 130-140 лет истории этой проблемы накоплен огромный и самый разнообразный материал, который всегда вызывал и продолжает вызывать к себе большой интерес не только со стороны научных работников, но и учителей физической культуры, тренеров, учащихся, их родителей.

Первая статья, посвященная рассматриваемой проблеме, - вводная. В ней раскрываются основы теории тестов и тестирования, без ознакомления с которыми учителю трудно решать задачи применения тестов в практике своей работы. Назовём хотя бы некоторые из возникающих вопросов. Что такое «тест»? Какова классификация тестов? Зачем и нужно ли проводить тестирование физической подготовленности учащихся? Как определить уровень (высокий, средний, низкий) развития физических качеств и подготовленности? Что считать нормой при тестировании и как её устанавливать? Если учитель придумал новый двигательный тест или батарею тестов для определения физической подготовленности детей, то на что он должен обратить внимание или какие необходимые условия (требования, критерии) при этом выполнить? Тестирование физического состояния учащихся предполагает обязательное ознакомление учителя с элементарными методами математической статистики. С какими из них?

В наших статьях мы представим также исторические сведения о возникновении тестов и теории тестирования физической подготовленности человека. Скажем, когда и где появились первые тесты, в том числе батареи тестов по оценке физической подготовленности. Каковы наиболее распространенные тесты для определения кондиционных (силовых, скоростных, выносливости, гибкости) и координационных способностей детей школьного возраста? Какие батареи (программы) тестов для оценки физической подготовленности детей и подростков являются наиболее популярными в разных странах? Мы обсудим и такую важную практическую проблему, как соотношение результатов тестирования и оценок (отметок) по предмету «Физическая культура». Говоря конкретнее, если ученик при выполнении тестов неизменно показывает высокий уровень, означает ли это автоматически отличную оценку по нашему предмету? И так далее.

В данной статье мы обсудим: 1) задачи тестирования; 2) понятие «тест» и классификацию двигательных (моторных) тестов; 3) критерии добротности двигательных тестов; 4) организацию тестирования физической подготовленности детей школьного возраста.

1. Задачи тестирования. Тестирование двигательных возможностей человека является одним из наиболее важных направлений деятельности научных работников и педагогов в области физической культуры и спорта. Оно помогает решению ряда сложных педагогических задач по выявлению уровней развития кондиционных и координационных способностей, оцениванию качества технической и тактической подготовленности. На основе результатов тестирования можно сравнивать подготовленность как отдельных учащихся, так и целых групп учеников, проживающих в разных регионах и странах; проводить соответствующий отбор для занятий тем или иным видом спорта, для участия в соревнованиях; осуществлять достаточно объективный контроль за обучением (тренировкой) школьников и юных спортсменов; выявлять преимущества и недостатки применяемых средств, методов обучения и форм организации занятий; наконец, обосновывать нормы (возрастные, индивидуальные) физической подготовленности детей и подростков.

а) научить самих школьников определять уровень своей физической подготовленности и планировать необходимые для себя комплексы физических упражнений;

б) стимулировать учащихся к дальнейшему улучшению своего физического состояния
(формы);

в) знать не столько исходный уровень развития двигательной способности, сколько его изменение за определённое время;

г) стимулировать учащихся, добившихся высоких результатов, но не столько за достигнутый высокий уровень физической подготовленности, сколько за реализацию запланированного повышения личных результатов.

Специалисты подчеркивают, что традиционный подход к тестированию, когда данные стандартизированных тестов и нормативов сравниваются с показанным результатом, вызывает у многих учеников, особенно с низким и средним уровнями физической подготовленности, негативное отношение. Тестирование же должно способствовать повышению интереса у школьников, приносить им радость, а не вести к развитию комплекса неполноценности. В этой связи предлагаем следующие подходы:

1) результаты тестов ученика определяют не исходя из сравнения с нормативами, а на основании изменений, произошедших за определённый период времени;

2) все компоненты теста модифицируются, используются облегчённые варианты упражнений (задания, составляющие содержание теста, должны быть достаточно лёгкими, чтобы вероятность их успешного выполнения была велика);

3) нулевая оценка или со знаком «минус» исключены, правомочно только получение положительных результатов.

Итак, при тестировании важно сближение научных (теоретических) задач и лично значимых, положительных для школьника мотивов участия в данной процедуре.

2. Понятие «тест» и классификация двигательных (моторных) тестов. Термин тест в переводе с английского языка означает проба, испытание. Тесты применяются для решения многих научных и практических задач. Среди способов оценки физического состояния человека (наблюдение, экспертные оценки) метод тестов (в нашем случае - двигательных, или моторных) является главным методом, используемым в спортивной метрологии и других научных дисциплинах - «учении о движениях», теории и методике физического воспитания.

Тест - это измерение или испытание, проводимое для определения способностей или состояния человека. Таких измерений может быть очень много, в том числе на основе использования самых разнообразных физических упражнений. Однако далеко не каждое физическое упражнение или испытание можно рассматривать как тест. В качестве тестов следует использовать лишь те испытания (пробы), которые отвечают специальным требованиям и в соответствии с которыми должны быть:

а) определена цель применения любого теста (или тестов);

б) разработаны стандартизированная методика измерения результатов в тестах и процедура тестирования;

в) определена надёжность и информативность тестов;

г) реализована возможность представления результатов тестов в соответствующей системе оценки.

Система использования тестов в связи с поставленной задачей, организацией условий, выполнением тестов испытуемыми, оценка и анализ результатов называется тестированием. Полученное в ходе измерений числовое значение - результатом тестирования (теста).

Например, прыжок в длину с места - это тест; процедура проведения прыжков и измерение результатов - тестирование; длина прыжка - результат теста.

В основе тестов, используемых в физическом воспитании, лежат двигательные действия (физические упражнения, двигательные задания). Такие тесты называются двигательными, или моторными.

В настоящее время еще не существует единой классификации двигательных тестов. Известна классификация тестов по их структуре и преимущественным показаниям (см. таблицу 1).

Различают единичный и комплексный тесты. Единичный тест служит для измерения и оценки одного признака(координационной или кондиционной способности). Поскольку структура каждой координационной или кондиционной способности является сложной, то с помощью такого теста оценивается обычно только один компонент данной способности (например, способность к равновесию, быстрота простой реакции, сила мышц рук).

С помощью учебного теста оценивают способность к двигательному обучению (по разности окончательной и начальной оценок за определенный период обучения технике движений).

Тестовая серия даёт возможность один и тот же тест использовать в течение длительного времени, когда измеряемая способность существенно улучшается. При этом задачи теста по своей трудности последовательно повышаются. К сожалению, данную разновидность единичного теста пока недостаточно широко используют как в науке, так и на практике.

С помощью комплексного теста оценивают несколько признаков или компонентов разных способностей или одной и той же способности (например, прыжок вверх с места - со взмахом рук, без взмаха рук, на заданную высоту). На основании такого теста можно получить информацию об уровне скоростно-силовых способностей (по высоте прыжка), координационных способностей (по точности дифференцирования силовых усилий, по разности высоты прыжка со взмахом и без взмаха рук).

Тестовый профиль состоит из нескольких отдельных тестов, на основании которых оценивают или несколько различных физических способностей (гетерогенный тестовый профиль), или несколько проявлений одной и той же физической способности (гомогенный тестовый профиль). Результаты теста могут быть представлены в форме профиля, что даёт возможность

Формы тестов и возможности их применения (по Д.-Д.Блюме, 1987)

Таблица 1

Тип	Измеряемая способность	Признак структуры	Пример
Единичный тест
Элементарный тест, содержащий одну двигательную задачу		Одна задача теста, одна окончательная оценка теста	Тест на равновесие, тре-мометрия, тест для оценки способности к соединению, тест на оценку ритма, прыжок на точность приземления
Учебный тест	Одна способность или аспект (компонент) способности	Одна или несколько задач теста. Одна окончательная оценка теста (педагогический период)	Общий учебный тест
Тестовая серия	Одна способность или аспект (компонент) способности	Одна задача тестов с вариантами или несколько задач повышающейся трудности	Тест для оценки способности к соединению (связи)
Комплексный тест
Комплексный тест, содержащий одну задачу	Несколько способностей или аспектов (компонентов) одной способности	Одна задача теста, несколько окончательных оценок	Прыжковый тест
Тест многоразовых задач		Несколько тестовых задач, выполняющихся последовательно, несколько окончательных оценок	Тест многоразовых реакций
Тестовый профиль	Несколько способностей или аспектов одной способности	Несколько тестов, несколько окончательных оценок	Координационная звезда
Тестовая батарея	Несколько способностей или аспектов одной способности	Несколько тестов, одна тестовая оценка	Тестовая батарея для оценки способности обучаться движениям

быстро сравнить индивидуальные и групповые результаты.

Тестовая батарея состоит также из нескольких отдельных тестов, результаты которых сводятся в одну окончательную оценку, рассматриваемую в одной из оценочных шкал (подробнее об этом во второй статье). Как и в тестовом профиле, здесь различают гомогенную и гетерогенную батареи.

Гомогенная батарея, или гомогенный профиль находят применение в оценке всех компонентов комплексной способности (например, способности к реагированию). При этом результаты отдельных тестов должны быть тесно взаимосвязаны (коррелировать).

Гетерогенный тестовый профиль или гетерогенная батарея служат оценке комплекса (совокупности) различных двигательных способностей. Например, такие батареи тестов используют для оценки силовых, скоростных способностей и способностей к выносливости - это батареи тестов физической подготовленности.

В тестах многоразовых задач испытуемые последовательно выполняют двигательные задания и за каждое решение двигательной задачи получают отдельные оценки. Эти оценки могут состоять в тесной связи друг с другом. Посредством соответствующих статистических расчетов можно получить дополнительную информацию об оцениваемых способностях. Примером могут служить последовательно выполняемые задания прыжкового теста (таблица 2).

В определении двигательных тестов указывается, что они служат оценке двигательных способностей и частично моторных навыков. Поэтому в самом общем виде выделяют кондиционные тесты, координационные тесты и тесты для оценки двигательных умений и навыков (техники движений). Такая систематизация является, однако, ещё слишком общей.

Классификация двигательных тестов по преимущественным их показаниям вытекает из систематизации физических (двигательных) способностей. В этой связи различают кондиционные тесты (для оценки силы: максимальной, скоростной, силовой выносливости; для оценки выносливости; для оценки скоростных способностей; для оценки гибкости: активной и пассивной) и координационные тесты (для оценки коор

динационных способностей, относящихся к отдельным самостоятельным группам двигательных действий, которые измеряют специальные координационные способности; для оценки специфических координационных способностей - способностей к равновесию, ориентированию в пространстве, реагированию, дифференцированию параметров движений, ритму, перестроению двигательных действий, согласованию (связи), вестибулярной устойчивости, произвольному расслаблению мышц.

Разработано большое число тестов для оценки двигательных навыков в разных видах спорта. Они приведены в соответствующих учебниках и пособиях и в настоящей статье не рассматриваются.

Таким образом, каждая классификация служит своеобразным ориентиром для выбора (или создания) того типа тестов, который в большей мере соответствует задачам тестирования.

3. Критерии добротности двигательных тестов. Как отмечалось выше, понятие «двигательный тест» отвечает своему назначению, если тест удовлетворяет соответствующим основным критериям: надежности, стабильности, эквивалентности, объективности, информативности, а также дополнительным критериям: нормированию, сопоставляемости и экономичности.

Тесты, удовлетворяющие требованиям надёжности и информативности, называют добротными или аутентичными (достоверными).

Под надёжностью теста понимают степень точности, с которой он оценивает определённую двигательную способность независимо от требований того, кто её оценивает. Надёжность проявляется в степени совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях; это стабильность или устойчивость результата теста индивида при повторном выполнении контрольного упражнения. Другими словами, школьник в группе обследуемых по результатам повторных тестирований (например, показателям прыжков, времени бега, дальности метания) устойчиво сохраняет своё ранговое место.

Надёжность теста определяется с помощью корреляционно-статистического анализа путем расчёта коэффициента надёжности. При этом используют различные способы, на основании которых судят о надёжности теста.

Стабильность теста основывается на зависимости между первой и второй попытками, повторенными через определённое время в одинаковых условиях одним и тем же экспериментатором. Способ повторного тестирования на определение надёжности называется ретестом. Стабильность теста зависит от вида теста, возраста и пола испытуемых, временного интервала между тестом и ретестом. Например, показатели кондиционных тестов или морфологических признаков при небольших временных интервалах более стабильны, чем результаты координационных тестов; у более старших школьников - результаты стабильнее, чем у более младших. Ретест обычно проводят не позднее, чем через одну неделю. При более длительных интервалах (например, через месяц) стабильность даже таких тестов, как бег на 1000 м или прыжок в длину с места, становится уже заметно ниже.

Эквивалентность теста заключается в корреляции результата теста с результатами других однотипных тестов. Например, критерий эквивалентности применяют, когда надо выбрать, какой тест более адекватно отражает скоростные способности: бег на 30, 50, 60 или 100 м.

То или иное отношение к эквивалентным (гомогенным) тестам зависит от многих причин. Если надо повысить надёжность оценок или выводов исследования, тогда целесообразно использовать два и более эквивалентных теста. А если стоит задача создать батарею, содержащую минимум тестов, то следует использовать только один из эквивалентных тестов.

Таблица 2 Последовательно выполняемые задания прыжкового теста (по Д.-Д.Блюме, 1987)

№№ п/п	Задача теста	Оценка результата	Способность
	Прыжок на максимальную высоту без взмаха рук	Высота, см	Прыжковая сила
	Прыжок на максимальную высоту со взмахом рук	Высота, см	Прыжковая сила и способность к соединению (связи)
	Прыжок на максимальную высоту со взмахом рук и подскоком	Высота, см	Способность к соединению (связи) и прыжковая сила
	10 прыжков со взмахом рук на расстояние, равное 2/3 от максимальной высоты прыжка, как в задаче 2	Сумма отклонений от заданной отметки	Способность к дифференцированию силовых параметров движений
	Разность между результатами решений одной задачи и двух задач	... см	Способность к соединению (связи)

Такая батарея, как отмечалось, является гетерогенной, поскольку входящие в неё тесты измеряют разные двигательные способности. Примером гетерогенной батареи тестов являются бег на 30 м, подтягивание на перекладине, наклон вперед, бег на 1000 м. Другие примеры подобных комплексов будут представлены в отдельной публикации.

Надёжность тестов определяют также по сопоставлению средних оценок чётных и нечётных попыток, входящих в тест. Например, среднюю точность бросков мяча в цель из 1, 3, 5, 7 и 9 попыток сравнивают со средней точностью бросков из 2, 4, 6, 8 и 10 попыток. Такой метод оценки надёжности называется методом удвоения, или расщеплением, и применяется он преимущественно при оценке координационных способностей и в том случае, если число попыток, образующих тестовый результат, не менее шести.

Под объективностью (согласованностью) теста понимают степень согласованности результатов, получаемых на одних и тех же испытуемых разными экспериментаторами (учителями, судьями, экспертами).

а) время тестирования, место, погодные условия;

б) единое материальное и аппаратурное обеспечение;

в) психофизиологические факторы (объем и интенсивность нагрузки, мотивация);

г) подача информации (точная словесная постановка задачи теста, объяснение и демонстрация).

Соблюдение данных условий создаёт так называемую объективность проведения теста. Говорят ещё об интерпретационной объективности, касающейся степени независимости интерпретации результатов тестирования разными экспериментаторами.

В целом, как отмечают специалисты, надёжность тестов можно повысить различными путями: более строгой стандартизацией тестирования (см. выше), увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов.

Фиксированных значений показателей надёжности теста не имеется. В большинстве случаев пользуются следующими рекомендациями: 0,95-0,99 - отличная надёжность; 0,90-0,94 - хорошая; 0,80-0,89 - приемлемая; 0,70-0,79 - плохая; 0,60-0,69 - для индивидуальных оценок сомнительная, тест пригоден только для характеристики группы испытуемых. Информативность теста - это степень точности, с какой он измеряет оцениваемую двигательную способность или навык. В иностранной и отечественной литературе используют вместо слова «информативность» термин «валидность» (от англ. validity - обоснованность, действительность, законность). Фактически, применительно к информативности, исследователь отвечает на два вопроса: что измеряет данный конкретный тест (батарея тестов) и какова при этом степень точности измерения.

Различают валидность логическую (содержательную), эмпирическую (на основании опытных данных) и предсказательную. Более подробная информация на эту тему содержится в ставших уже классическими учебниках для студентов физкультурных вузов (Спортивная метрология / Под ред. В.М.Зациорского. - М.: ФиС, 1982. - С. 73-80; Годик М.А. Спортивная метрология.- М.: ФиС, 1988), а также в ряде современных пособий.

Важными дополнительными критериями тестов, как отмечалось, являются нормирование, сопоставляемость и экономичность.

Суть нормирования состоит в том, что на основе результатов тестирования можно создать нормы, имеющие особое значение для практики (об этом речь пойдёт в отдельной статье).

Сопоставляемость теста заключается в возможности сравнивать результаты, полученные по одному тесту или нескольким формам параллельных (гомогенных) тестов. В практическом плане применение сопоставляемых моторных тестов снижает вероятность того, что в результате регулярного применения одного и того же теста оценивается не только и не столько уровень способности, сколько степень навыка. Одновременно сопоставляемые результаты тестов повышают достоверность выводов.

Суть экономичности как критерия добротности теста состоит в том, что проведение теста не требует длительного времени, больших материальных затрат и участия многих помощников. Например, батарею из шести тестов для определения физической подготовленности, рекомендованную в «Комплексной программе физического воспитания учащихся I-XI классов» (М.: Просвещение, 2005-2006), учитель с двумя помощниками может провести за один урок, обследовав 25-30 детей.

Организация тестирования физической подготовленности детей школьного возраста.Второй важной проблемой тестирования двигательных способностей (напомним, что первая - отбор информативных тестов - рассмотрена ранее) является организация их применения.

Учитель физической культуры должен определить: в какие сроки лучше организовать тестирование, как осуществлять его на уроке и как часто следует проводить тестирование.

Срони тестирования устанавливают в соответствии со школьной программой, которая предусматривает обязательное двухразовое тестирование физической подготовленности учащихся. Первое тестирование целесообразно проводить во вторую-третью неделю сентября (после того как учебный процесс войдёт в нормальное русло), а второе - за две недели до окончания учебного года (в более поздние сроки могут иметь место организационные трудности, вызванные приближающимися экзаменами и каникулами).

Знание годичных изменений в развитии двигательных способностей школьников позволяет учителю вносить соответствующие коррективы в процесс физического воспитания на следующий учебный год. Однако учитель может и должен проводить более частое тестирование, осуществлять так называемый оперативный контроль. Данную процедуру целесообразно выполнять, например, для того, чтобы определить изменение уровня скоростных, силовых способностей и выносливости под влиянием уроков лёгкой атлетики в течение I четверти и т.п. С этой целью учитель может применить тесты для оценки координационных способностей детей в начале и в конце освоения учебного материала школьной программы, например, по спортивным играм, для выявления изменения показателей развития этих способностей.

Следует учитывать, что разнообразие решаемых педагогических задач не даёт возможности предоставить учителю унифицированную методику тестирования, одинаковых правил проведения тестов и оценки результатов тестирования. Это требует от экспериментаторов (учителей) проявления самостоятельности в решении теоретико-методологических и организационных вопросов тестирования.

Тестирование на уроке необходимо увязать с его содержанием. Другими словами, применённый тест (или тесты) при соблюдении соответствующих требований к нему как к методу исследования должен (должны) органически входить в состав запланированных физических упражнений. Если, допустим, у школьников требуется определить уровень развития скоростных способностей или выносливости, то необходимые тесты следует запланировать в ту часть урока, в которой будут решаться задачи развития соответствующих физических способностей.

Частота проведения тестирования во многом определяется темпами развития конкретных физических способностей, возрастно-половыми и индивидуальными особенностями их развития.

Например, чтобы добиться существенного прироста быстроты, выносливости или силы, требуется несколько месяцев регулярных занятий (тренировок). В то же время, чтобы получить достоверный прирост гибкости или отдельных координационных способностей, требуется всего 4-12 тренировок. Достичь улучшения того или иного физического качества, если начинать «с нуля», можно и за более короткий срок. А вот чтобы улучшить это же качество, когда оно у школьника достигает высокого уровня, требуется больше времени. В данной связи учитель должен глубже изучить особенности развития и совершенствования различных двигательных способностей у детей в разные возрастнополовые периоды.

При оценке общей физической подготовленности учащихся, как отмечалось, можно использовать самые разнообразные батареи тестов, выбор которых зависит от конкретных задач тестирования и наличия необходимых условий. Однако в связи с тем, что полученные результаты тестирования можно оценивать лишь путем сравнения, целесообразно выбирать тесты, которые широко представлены в теории и практике физического воспитания детей. Например, опираться на те из них, которые рекомендованы в «Комплексной программе физического воспитания учащихся I-XI классов общеобразовательной школы» (М.: Просвещение, 2004-2006).

Для сравнения общего уровня физической подготовленности ученика или группы учащихся с помощью комплекса тестов прибегают к переводу результатов тестирования в очки или баллы (об этом подробнее поговорим в очередной статье). Изменение суммы очков при повторных тестированиях позволяет судить о прогрессе как отдельного ребенка, так и группы детей.

Физическая культура в школе,2007,№6

Введение

Актуальность. Проблема тестирования физической подготовленности человека - одна из наиболее разработанных в теории и методике физического воспитания. За последние десятилетия накоплен огромный и самый разнообразный материал: определение задач тестирования; обусловленность результатов тестирования разными факторами; разработка тестов для оценки отдельных кондиционных и координационных способностей; программы тестов, характеризующие физическую подготовленность детей и подростков от 11 до 15 лет, принятые в Российской Федерации, в других странах СНГ и во многих зарубежных странах.

Тестирование двигательных качеств школьников является одним из наиболее важных и основных методов педагогического контроля.

Оно помогает решению ряда сложных педагогических задач: выявлять уровни развития кондиционных и координационных способностей, оценивать качество технической и тактической подготовленности. На основе результатов тестирования можно:

сравнивать подготовленность как отдельных учащихся, так и целых групп, проживающих в разных регионах и странах;

проводить спортивный отбор для занятий тем или иным видом спорта, для участия в соревнованиях;

осуществлять в значительной степени объективный контроль за обучением (тренировкой) школьников и юных спортсменов;

выявлять преимущество и недостатки применяемых средств, методов обучения и форм организации занятий;

наконец, обосновывать нормы (возрастные, индивидуальные) физической подготовленности детей и подростков.

Наряду с научными задачами в практике разных стран задачи тестирования сводятся к следующему:

научить самих школьников определять уровень своей физической подготовленности и планировать необходимые для себя комплексы физических упражнений;

стимулировать учащихся к дальнейшему повышению своего физического состояния (формы);

знать не столько исходный уровень развития двигательной способности, сколько его изменение за определенное время;

стимулировать учащихся, добившихся высоких результатов, но не столько за высокий уровень, сколько за запланированное повышение личных результатов.

В данной работе мы будем опираться на те тесты, которые рекомендованы в «Комплексной программе физического воспитания учащихся 1 -- 11 классов общеобразовательной школы» подготовленные В.И. Ляхом и Г.Б. Мейксоном.

Цель исследования: обосновать методику тестирования физических качеств учащихся основной школы.

Гипотеза исследования: использование тестирования является точным, информативным методом определения развития физических качеств.

Объект исследования: тестирование как метод педагогического контроля.

Предмет исследования: тестирование качеств учащихся.

Глава 1. ПРЕДСТАВЛЕНИЯ О ТЕОРИИ ТЕСТОВ ФИЗИЧЕСКОЙ ПОДГОТОВЛЕННОСТИ

1.1 Краткие исторические сведения о теории тестирования двигательных способностей

Измерениями двигательных достижений человека люди интересуются с давних пор. Первые сведения об измерении расстояния, на которое совершали прыжки в длину, относятся к 664 г. до н. э. На XXIX Олимпийских играх древности в Олимпии Хионис из Спарты прыгнул на расстояние в 52 стопы, что равно примерно 16,66 м. Ясно, что здесь идет речь о неоднократном прыжке.

Известно, что один из родоначальников физического воспитания -- Гутс-Мутс (J. Ch. F. Guts-Muts, 1759--1839) измерял моторные достижения своих учеников и осуществлял точные записи их результатов. А за улучшение достижений награждал их «премиями» -- дубовыми венками (G. Sorm, 1977). В тридцатые годы XIX в. Эйселен (Е. Eiselen), сотрудник известного немецкого педагога Яна (F. L. Yahn), на основании выполненных измерений составил таблицу для определения достижений в прыжках. Как видно, она содержит три градации (табл. 1).

Таблица 1. - Результаты в прыжках (в см) мужчин (источник: К. Mekota, P. Blahus, 1983)

начальный

Через козла

Заметим, что уже в середине XIX в. в Германии при определении длины или высоты прыжка рекомендовали учитывать параметры тела.

Точные измерения спортивных достижений, в том числе рекордных, ведутся с середины XIX в., а регулярно -- с 1896 г., с Олимпийских игр современности.

Достаточно давно люди пытаются измерить и силовые способности. Первая любопытная информация по этому поводу относится к 1741 г., когда, используя простые приборы, удалось измерить силу борца Томаса Тофама. Он поднял вес, масса которого превышала 830 кг (G. Sorm, 1977). Силовые возможности учеников измеряли уже Гутс-Мутс и Ян, используя для этого простые силомеры. А вот первый динамометр, прародитель современного динамометра, сконструировал Райнигер во Франции в 1807 г. В практике физического воспитания учащихся гимназии в Париже его применил Ф. Аморос (F. Amoros) в 1821 г. В XIX в. для измерения силы использовали также поднимание туловища в висе на перекладине, сгибание и разгибание рук в упоре, поднимание тяжестей.

Предвестниками современных батарей тестов для определения физической подготовленности являются спортивно-гимнастические многоборья. В качестве первого выделяют античное пятиборье, введенное в практику на XVIII Олимпийских играх древности в 708 г. до н. э. В его состав входило метание диска, копья, прыжок, бег и борьба. Десятиборье, которое мы знаем, впервые было включено в программу соревнований на III Олимпийских играх (Сент-Луис, США, 1904), а современное пятиборье -- на V Олимпийских играх (Стокгольм, Швеция, 1912). Состав упражнений в этих конкуренциях гетерогенен; спортсмену нужно проявить подготовленность в разных дисциплинах. Итак, он должен быть разносторонне физически подготовлен.

Вероятно, с учетом этой идеи примерно в эти же сроки (начало XX в.) для детей, молодежи и взрослых ввели в практику комплексы упражнений, всесторонне определяющие физическую подготовленность человека. Впервые такие комплексные испытания были введены в Швеции (1906), затем в Германии (1913) и еще позднее -- в Австрии и СССР (России) -- комплекс «Готов к труду и обороне» (1931).

Предшественники современных двигательных тестов возникли в конце XIX -- начале XX в. В частности, Д. Саржент (D. A. Sargent) ввел в практику Гарвардского университета «силовой тест», который, кроме динамометрии и спирометрии, включал в себя отжимание рук в упоре, поднимание и опускание туловища. Уже с 1890 г. этот тест стал использоваться в 15 университетах США. Француз Г.Хеберт (G. Hebert) создал тест, публикация о котором появилась в 1911 г. В его состав входит 12 двигательных заданий: бег на разные дистанции, прыжок с места и с разбега, бросок, многократное поднимание 40-килограммового снаряда (веса), плавание и ныряние.

Кратко остановимся еще на источниках информации, в которых рассматриваются результаты научных исследований врачей и психологов. Исследования врачей вплоть до конца XIX в. были ориентированы чаще всего на изменение внешних морфологических данных, а также на идентификацию асимметрии. Используемая в этих целях антропометрия шла в ногу с применением динамометрии. Так, бельгийский врач А. Кветелет (A. Quetelet), проведя обширные исследования, в 1838 г. опубликовал работу, согласно которой средние результаты становой силы (позвоночника) 25-летних женщин и мужчин равны соответственно 53 и 82 кг. В 1884 г. итальянец А. Моссо (A. Mosso) исследовал мышечную выносливость. Для этого он применил эргограф, который позволил ему наблюдать развитие утомления при многократном сгибании пальца.

Современная эргометрия берет свое начало с 1707 г. Тогда уже был создан прибор, позволявший измерить пульс в минуту. Прототип сегодняшнего эргометра сконструировал Хирн (G. A. Him) в 1858 г. Циклоэргометры и беговые дорожки были созданы позднее, в 1889--1913 гг.

В конце XIX -- начале XX в. начинаются систематические исследования психологов. Изучается время реакции, разрабатываются тесты для определения координации движений и ритма. Понятие «время реакции» ввел в науку австрийский физиолог С. Экс-нер (S. Ехпег) в 1873 г. Ученики основателя экспериментальной психологии В. Вундта (W. Wundt) в созданной в 1879 г. лаборатории в Лейпциге провели обширные измерения времени простой и сложной реакций. Первые испытания координации движений включали в себя теппинг и разные виды прицеливания. Одной из первых попыток изучения прицеливания является тест X. Френкеля (Н. S. Frenkel), предложенный им в 1900 г. Суть его состояла в том, чтобы удерживать указательный палец во всякого рода отверстиях, кольцах и т. п. Это прототип современных тестов «на статический и динамический тремор».

Пытаясь определить музыкальный талант, в 1915 г. Сишор (С. Е. Seashore) исследовал способность к ритму.

Теория тестирования ведет свой отсчет, однако, с конца XIX -- начала XX в. Именно тогда были заложены основы математической статистики, без которой современная теория тестов обойтись не может. На этом пути несомненные заслуги принадлежат генетику и антропологу Ф. Гальтону (F. Galton), математикам Пирсону (Pearson) и У. Йоле (U. Youle), математику-психологу Спирмену (С. Spearman). Именно эти ученые создали новую ветвь биологии -- биометрию, в основе которой измерения и статистические методы, такие, как корреляция, регрессия и др. Созданный Пирсоном (1901) и Спирменом (1904) сложный математико-статический метод -- факторный анализ -- позволил английскому ученому Барту (С. Burt) применить его в 1925 г. к анализу результатов моторных тестов учащихся лондонских школ. В результате были идентифицированы такие физические способности, как сила, быстрота, ловкость и выносливость. Выделился также фактор, названный «общая физическая подготовленность». Несколько позднее вышла в свет одна из наиболее известных работ американского ученого Мак Клоя (С.Н.McCloy, 1934)-- «Измерение общих двигательных способностей». К началу 40-х гг. ученые приходят к выводу о сложной структуре двигательных способностей человека. Используя разные моторные тесты в сочетании с применением параллельно разрабатываемых математических моделей (одно- и многофакторный анализ), в теорию тестирования прочно вошли понятия о пяти двигательных способностях: силе, быстроте, координации движений, выносливости и гибкости.

Двигательные тесты в бывшем СССР были использованы для разработки контрольных нормативов комплекса «Готов к труду и обороне» (1931). Известен тест двигательных способностей (главным образом координации движений), который для детей и молодежи предложил Н. И. Озерецкий (1923). Работы по измерению двигательных способностей детей, молодежи примерно в эти же сроки появились в Германии, Польше, Чехословакии и других странах.

Значительные успехи в развитии теории тестирования физической подготовленности человека приходятся на конец 50-х и 60-е гг. XX в. Основоположником этой теории, вероятнее всего, является американец Мак Клой, выпустивший в соавторстве с М. Юнгом (М. D. Young) в 1954 г. монографию «Тесты и измерение в здравоохранении и физическом воспитании», на которую впоследствии опирались многие авторы подобных работ.

Большое теоретическое значение имела и до сих пор имеет книга «Структура и измерение физических способностей» известного американского исследователя Е.А. Флейшмана (1964). В книге не только отражены теоретические и методологические вопросы проблемы тестирования данных способностей, но и изложены конкретные результаты, варианты подходов, исследования надежности, информативности (валидности) тестов, а также представлен важный фактический материал по факторной структуре двигательных тестов различных двигательных способностей.

Большое значение для теории тестирования физических способностей имеют книги В.М. Зациорского «Физические качества спортсмена» (1966) и «Кибернетика, математика, спорт» (1969).

Краткие исторические сведения по тестированию физической подготовленности в бывшем СССР можно найти в публикациях Е.Я. Бондаревского, В. В. Кудрявцева, Ю.И. Сбруева, В.Г. Панаева, Б.Г. Фадеева, П.А. Виноградова и др.

Условно можно выделить три этапа тестирования в СССР (России):

1-й этап -- 1920--1940 гг.-- период массовых обследований с целью изучения основных показателей физического развития и уровня двигательной подготовленности, появление на этой основе нормативов комплекса «Готов к труду и обороне».

2-й этап -- 1946--1960 гг.-- изучение двигательной подготовленности в зависимости от морфофункциональных особенностей с целью создания предпосылок для научно-теоретического обоснования их взаимосвязи.

3-й этап -- с 1961 г. по настоящее время -- период комплексных исследований физического состояния населения в зависимости от климатогеографических особенностей регионов страны.

Исследования, выполненные в этот период, показывают, что показатели физического развития и двигательной подготовленности людей, проживающих в различных регионах страны, обусловлены влиянием биологических, климатогеографических, социально-экономических и других как постоянных, так и переменных факторов. По разработанной единой комплексной программе, состоящей из четырех разделов (физическая подготовленность, физическое развитие, функциональное состояние основных систем организма, социологическая информация), в 1981 г. было проведено комплексное обследование физического состояния населения разного возраста и пола различных регионов СССР.

Несколько позже наши специалисты отметили, что уже более 100 лет изучается уровень физического развития и подготовленности человека. Однако, несмотря на относительно большое число работ в этом направлении, провести глубокий и всесторонний анализ полученных данных не представляется возможным, так как исследования проводились с различными контингентами, в разные сезонные периоды, с использованием различных методик, программ тестирования и математико-статистической обработки полученной информации.

В этой связи основной упор был сделан на разработку методологии и организации унифицированной системы сбора данных с учетом метрологических и методических требований и создание банка данных на ЭВМ.

В середине 80-х гг. прошлого века было проведено массовое всесоюзное обследование около 200000 человек от 6 до 60 лет, которое подтвердило выводы предыдущего исследования.

С самого начала возникновения научных подходов к тестированию физической подготовленности человека исследователи стремились получить ответы на два основных вопроса:

какие тесты должны быть отобраны для оценки уровня развития конкретной двигательной (физической) способности и уровня физической подготовленности детей, подростков и взрослых;

сколько нужно тестов, чтобы получить минимальную и вместе с тем достаточную информацию о физическом состоянии человека?

Единых представлений в мире по этим вопросам пока не выработано. Вместе с тем представления о программах (батареях) тестов, характеризующих физическую подготовленность детей и подростков от 6 до 17 лет, принятые в разных странах, все более сближаются.

1.2 Понятие «тест» и классификация двигательных (моторных) тестов

Термин тест в переводе с английского языка означает «проба, испытание».

Тесты применяются для решения многих научных и практических задач. Среди других способов оценки физического состояния человека (наблюдение, экспертные оценки) метод тестов (в нашем случае -- двигательных или моторных) является главным методом, используемым в спортивной метрологии и других научных дисциплинах («учении о движениях», теории и методике физического воспитания).

Тест -- это измерение или испытание, проводимое для определения способностей или состояния человека. Таких измерений может быть очень много, в том числе на основе использования самых разнообразных физических упражнений. Однако далеко не каждое физическое упражнение или испытание можно рассматривать как тест. В качестве тестов могут использоваться лишь те испытания (пробы), которые отвечают специальным требованиям:

должна быть определена цель применения любого теста (или тестов);

следует разработать стандартизированную методику измерения результатов в тестах и процедуру тестирования;

необходимо определить надежность и информативность тестов;

результаты тестов могут быть представлены в соответствующей системе оценки.

Система использования тестов в соответствии с поставленной задачей, организацией условий, выполнением тестов испытуемыми, оценка и анализ результатов называются тестированием, а полученное в ходе измерений числовое значение -- результатом тестирования (теста). Например, прыжок в длину с места -- это тест; процедура проведения прыжков и измерение результатов -- тестирование; длина прыжка -- результат теста.

В основе тестов, используемых в физическом воспитании, лежат двигательные действия (физические упражнения, двигательные задания). Такие тесты называются двигательными или моторными.

В настоящее время еще не существует единой классификации двигательных тестов. Известна классификация тестов по их структуре и по их преимущественным показаниям (табл. 2).

Как следует из таблицы, различают единичный и комплексный тесты. Единичный тест служит для измерения и оценки одного признака (координационной или кондиционной способности). Поскольку, как видим, структура каждой координационной или кондиционной способности является сложной, то с помощью такого теста оценивается, как правило, только один компонент такой способности (например, способность к равновесию, быстрота простой реакции, сила мышц рук).

Таблица 2. - Формы тестов и возможности их применения (по Д.Д. Блюме, 1987)

Измеряемая способность

Признак структуры

Единичный тест

Элементарный тест, содержащий одну двигательную задачу

Одна способность или аспект (компонент) способности

Одна задача теста, одна окончательная оценка теста

Тест на равновесие, тремометрия, тест для оценки способности к соединению, тест на оценку ритма

Учебный тест

Одна или несколько задач теста. Одна окончательная оценка теста

Общий учебный тест

Тестовая серия

Одна задача тестов с вариантами или несколько задач повышенной трудности

Тест для оценки способности к соединению (связи)

Комплексный тест

Комплексный тест, содержащий одну задачу

Несколько способностей или аспектов (компонентов) одной способности

Одна задача теста, несколько окончательных оценок

Прыжковый тест

Тест многоразовых задач

Несколько тестовых задач, выполняющихся последовательно, несколько окончательных оценок

Тест многоразовых реакций

Тестовый профиль

Несколько тестов, несколько окончательных оценок

Координационная задача

Тестовая батарея

Несколько тестов, одна тестовая оценка

Тестовая батарея для оценки способности обучаться движения

С помощью учебного теста оценивается способность к двигательному обучению (по разности окончательной и начальной оценок за определенный период обучения технике движений).

Тестовая серия дает возможность один и тот же тест использовать в течение длительного времени, когда измеряемая способность существенно улучшается. При этом задачи теста по своей трудности последовательно повышаются. К сожалению, эта разновидность теста пока недостаточно используется как в науке, так и на практике.

С помощью комплексного теста оценивается несколько признаков или компонентов разных или одной и той же способности, например прыжок вверх с места (со взмахом рук, без взмаха рук, на заданную высоту). На основании этого теста можно получить информацию об уровне скоростно-силовых способностей (по высоте прыжка), координационных способностей (по точности дифференцирования силовых усилий, по разности высоты прыжка со взмахом и без взмаха рук).

Тестовый профиль состоит из отдельных тестов, на основании которых оцениваются или несколько различных физических способностей (гетерогенный тестовый профиль), или разные проявления одной и той же физической способности (гомогенный тестовый профиль). Результаты теста могут быть представлены в форме профиля, что дает возможность сравнивать индивидуальные и групповые результаты.

Тестовая батарея состоит также из нескольких отдельных тестов, результаты которых сводятся в одну окончательную оценку, рассматриваемую в одной из оценочных шкал (см. главу 2). Как и в тестовом профиле, различают гомогенную и гетерогенную батареи. Гомогенная батарея, или гомогенный профиль, находит применение в оценке всех компонентов комплексной способности (например, способности к реакции). При этом результаты отдельных тестов должны быть тесно взаимосвязаны (должны коррелировать).

В тестах многоразовых задач испытуемые последовательно выполняют двигательные задания и за каждое решение двигательной задачи получают отдельные оценки. Эти оценки могут состоять в тесной связи друг с другом. Посредством соответствующих статистических расчетов можно получить дополнительную информацию об оцениваемых способностях. Примером могут служить последовательно решаемые задания прыжкового теста (табл. 3).

Таблица 3. - Последовательно решаемые задания прыжкового теста

Задача теста

Оценка результата

Способность

Максимальный прыжок без взмаха рук

Прыжковая сила

Максимальный прыжок вверх со взмахом рук

Прыжковая сила и способность к соединению (связи)

Максимальный прыжок вверх со взмахом рук и подскоком

Способность к соединению (связи) и прыжковая сила

10 прыжков со взмахом рук на расстояние, равное 2/3 от максимальной высоты прыжка, как в задаче 2

Сумма отклонений от заданной отметки

Способность к дифференцированию силовых параметров движений

Разность между результатами за решение одной задачи и двух задач

Способность к соединению (связи)

(по Д.Д. Блюме, 1987)

В определении двигательных тестов указывается, что они служат оценке двигательных способностей и частично моторных навыков. В самом общем виде выделяют кондиционные тесты, координационные тесты и тесты для оценки двигательных умений и навыков (техники движений). Такая систематизация является, однако, еще слишком общей. Классификация двигательных тестов по преимущественным их показаниям вытекает из систематизации физических (двигательных) способностей.

В этой связи различают:

1) кондиционные тесты:

для оценки силы: максимальной, скоростной, силовой выносливости;

для оценки выносливости;

для оценки скоростных способностей;

для оценки гибкости -- активной и пассивной;

2) координационные тесты:

для оценки координационных способностей, относящихся к отдельным самостоятельным группам двигательных действий, которые измеряют специальные координационные способности;

для оценки специфических координационных способностей -- способностей к равновесию, ориентированию в пространстве, реагированию, дифференцированию параметров движений, ритму, перестроению двигательных действий, согласованию (связи),

вестибулярной устойчивости, произвольному расслаблению мышц.

Понятие «тесты для оценки двигательных навыков» в настоящей работе не рассматриваются. Примеры тестов приведены в Приложении 2.

Таким образом, каждая классификация -- это своеобразные ориентиры для выбора (или создания) того типа тестов, которые в большей мере соответствуют задачам тестирования.

1.3 Критерии добротности двигательных тестов

Понятие «двигательный тест» отвечает своему назначению тогда, когда тест удовлетворяет соответствующим требованиям.

Тесты, удовлетворяющие требованиям надежности и информативности, называют добротными или аутентичными (достоверными).

Под надежностью теста понимают степень точности, с которой он оценивает определенную двигательную способность независимо от требований того, кто ее оценивает. Надежность проявляется в степени совпадения результатов при повторном тестировании одних и тех же людей в одинаковых условиях; это стабильность или устойчивость результата теста индивида при повторном проведении контрольного упражнения. Другими словами, ребенок в группе обследуемых по результатам повторных тестирований (например, показателей прыжков, времени бега, дальности метания) устойчиво сохраняет свое ранговое место.

Надежность теста определяется с помощью корреляционно-статистического анализа путем расчета коэффициента надежности. При этом используют различные способы, на основании которых судят о надежности теста.

Стабильность теста основывается на зависимости между первой и второй попытками, повторенными через определенное время в одинаковых условиях одним и тем же экспериментатором. Способ повторного тестирования на определение надежности называется ретестом. Стабильность теста зависит от вида теста, возраста и пола испытуемых, временного интервала между тестом и ретестом. Например, показатели кондиционных тестов или морфологических признаков при небольших временных интервалах более стабильны, чем результаты координационных тестов; у более старших детей результаты стабильнее, чем у более младших. Ретест обычно проводится не позднее чем через неделю. При более длительных интервалах (например, через месяц) стабильность даже таких тестов, как бег на 1000 м или прыжок в длину с места, становится уже заметно ниже.

Эквивалентность теста заключается в корреляции результата теста с результатами других однотипных тестов (например, когда надо выбрать, какой тест более адекватно отражает скоростные способности: бег на 30, 50, 60 или 100 м).

Отношение к эквивалентным (гомогенным) тестам зависит от многих причин. Если надо повысить надежность оценок или выводов исследования, то целесообразно использовать два и больше эквивалентных теста. А если стоит задача создать батарею, содержащую минимум тестов, следует применять только один из эквивалентных тестов. Такая батарея, как отмечалось, является гетерогенной, так как входящие в нее тесты измеряют разные двигательные способности. Примером гетерогенной батареи тестов является бег на 30 м, подтягивание на перекладине, наклон вперед, бег на 1000 м.

Надежность тестов определяют также по сопоставлению средних оценок четных и нечетных попыток, входящих в тест. Например, среднюю точность бросков в цель из 1, 3, 5, 7 и 9 попыток сравнивают со средней точностью бросков из 2, 4, 6, 8 и 10 попыток. Такой метод оценки надежности называется методом удвоения или расщеплением. Он используется преимущественно при оценке координационных способностей и в том случае, если количество попыток, образующих тестовый результат, не меньше 6.

Под объективностью (согласованностью) теста понимают степень согласованности результатов, получаемых на одних и тех же испытуемых разными экспериментаторами (учителями, судьями, экспертами).

Для повышения объективности тестирования необходимо соблюдение стандартных условий проведения теста:

время тестирования, место, погодные условия;

единое материальное и аппаратурное обеспечение;

психофизиологические факторы (объем и интенсивность нагрузки, мотивация);

подача информации (точная словесная постановка задачи теста, объяснение и демонстрация).

Это так называемая объективность проведения теста. Говорят еще об интерпретационной объективности, касающейся степени независимости интерпретации результатов тестирования разными экспериментаторами.

В целом, как отмечают специалисты, надежность тестов можно повысить различными путями: более строгой стандартизацией тестирования (см. выше), увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов.

Фиксированных значений показателей надежности теста не имеется. В большинстве случаев пользуются следующими рекомендациями: 0,95--0,99 -- отличная надежность; 0,90--0,94 -- хорошая; 0,80--0,89 -- приемлемая; 0,70--0,79 -- плохая; 0,60-- 0,69 -- для индивидуальных оценок сомнительная, тест пригоден только для характеристики группы испытуемых.

Информативность теста -- это степень точности, с какой он измеряет оцениваемую двигательную способность или навык. В иностранной (и отечественной) литературе используют вместо слова «информативность» термин «валидность» (от англ. validity -- обоснованность, действительность, законность). Фактически, говоря об информативности, исследователь отвечает на два вопроса: что измеряет данный конкретный тест (батарея тестов) и какова при этом степень точности измерения?

Различают несколько видов валидности: логическую (содержательную), эмпирическую (на основании опытных данных) и предсказательную (2)

Важными дополнительными критериями тестов, являются нормирование, сопоставляемость и экономичность.

Суть нормирования состоит в том, что на основе результатов тестирования можно создать нормы, имеющие особое значение для практики.

Сопоставляемость теста заключается в возможности сравнивать результаты, полученные по одной или нескольким формам параллельных (гомогенных) тестов. В практическом плане применение сопоставляемых моторных тестов снижает вероятность того, что в результате регулярного применения одного и того же теста оценивается не только и не столько уровень способности, сколько степень навыка. Одновременно сопоставляемые результаты тестов повышают достоверность выводов.

Суть экономичности как критерия добротности теста состоит в том, что проведение теста не требует длительного времени, больших материальных затрат и участия многих помощников.

Заключение

Предшественники современных двигательных тестов возникли в конце XIX -- начале XX в. С 1920 года в нашей стране проводились массовые обследования с целью изучения основных показателей физического развития и уровня двигательной подготовленности. На этой основе этих данных были разработаны нормативы комплекса «Готов к труду и обороне».

В теорию тестирования прочно вошли понятия о пяти двигательных способностях: силе, быстроте, координации движений, выносливости и гибкости. Для их оценки разработан целый ряд различных тестовых батарей.

Среди способов оценки физического состояния человека метод тестов является главным. Различают единичный и комплексный тесты. Также в связи со систематизацией физических (двигательных) способностей тесты классифицируют на кондиционные и координационные.

Все тесты должны отвечать специальным требованиям. К основным критериям относятся: надежность, стабильность, эквивалентность, объективность, информативность (валидность). К дополнительным критериям относятся: нормирование, сопоставляемость и экономичность.

Поэтому при выборе определенных тестов необходимо соблюдать все эти требования. Для повышения объективности тестов следует придерживаться более строгой стандартизацией тестирования, увеличением числа попыток, лучшей мотивацией испытуемых, увеличением числа оценщиков (судей, экспертов), повышением согласованности их мнений, увеличением числа эквивалентных тестов.

Глава 2. Задачи, методы и организация исследования

2.1 Задачи исследования:

1. Изучить сведения о теории тестирования по данным литературных источников;

2. Проанализировать методику тестирования физических качеств;

3. Сравнить показатели двигательной подготовленности учащихся 7а и 7б классов.

2.2 Методы исследования:

1. Анализ и обобщение литературных источников.

Осуществлялся на протяжении всего исследования. Решение данных задач на теоретическом уровне осуществляется на изучении литературы по: теории и методики физического воспитания и спорта, воспитанию физических качеств, спортивной метрологии. Было проанализировано 20 литературных источников.

2. Словесное воздействие.

Проводился инструктаж о последовательности выполнения двигательных тестов и мотивационная беседа для настроя на достижение лучшего результата.

3. Тестирование физических качеств.

бег 30 метров (с высокого старта),

челночный бег 3 х 10 метров,

прыжки в длину с места,

6-минутный бег (м),

наклон вперёд из положения сидя (см),

подтягивания на перекладине (девочки на низкой).

4. Методы математической статистики.

Использовались для проведения расчетов, которые использовались при сравнительном анализе учащихся 7а и 7б классов.

2.3 Организация исследования