Параметрические методы анализа данных. Параметрические и непараметрические методы оценивания

В современных исследованиях по проблемам педагогики широко используются методы математической обработки данных. К методам обработки количественных данных относятся статистические приемы подведения итогов исследования, выявления определенных связей между ними, проверки достоверности выдвинутой гипотезы.

Математическая обработка результатов исследования обеспечивает их доказательность, репрезентативность. В сочетании с качественными показателями количественная обработка данных значительно повышает объективность исследования. Статистическая обработка результатов, регистрирующая изучение отдельных явлений позволяет сделать обобщения и выводы относительно всей совокупности изучаемых явлений. Важной особенностью использования статистических методов в педагогических исследованиях состоит в том, что это позволяет применять количественное изучение даже там, где невозможно определить сами свойства изучаемых объектов. Например, невозможно прямо измерить уровень развития нравственных качеств обучаемых, степень эффективности конкретного метода обучения и пр. Но, регистрируя соответствующие события, поступки, проявления, можно получить определенные качественные характеристики всех этих признаков, определить возможные закономерности их проявления, подтвердить правильность высказанных гипотез.

В статистике проверка гипотез осуществляется с помощью критериев статической оценки различий. Статистический критерий – это решающее правило, обеспечивающее надежное поведение, т.е. принятие истинной и отклонение ложной гипотезы с высокой вероятностью (Г.В.Суходольский). Статистические критерии обозначают также метод расчета определенного числа и само это число.

Статистические критерии, применяемые в педагогике, делятся на параметрические и непараметрические. К параметрическим относятся критерии, включающие в формулу расчета параметры распределения, т.е. среднее и дисперсии (критерии Стьюдента, Фишера, Хи-квадрат). К непараметрическим относят критерии, основанные на оперировании частотами или рангами и не включающие в формулу расчета параметров распределения (критерии знаков, Колмогорова-Смирнова, Уилкоксона, Манна-Уитни). Обе группы критериев имеют свои преимущества и недостатки. Сравнительная характеристика возможностей и ограничений параметрических и непараметрических критериев дана в следующей таблице.



Параметрические критерии Непараметрические критерии
Позволяют прямо оценить различия в средних, полученных в двух выборках (критерий Стьюдента) Позволяют оценить лишь средние тенденции (напр., ответить на вопрос, чаще ли в выборке А встречаются более высокие, а в выборке Б – более низкие значения признака (критерии Q,U и др.)
Позволяют прямо оценить различия в дисперсиях (критерий Фишера) Позволяют оценить лишь различия в диапазонах вариативности признака
Позволяют выявить тенденции изменения признака при переходе от условия к условию (дисперсионный однофакторный анализ), но лишь при условии нормального распределения признака Позволяют выявить тенденции изменения признака при переходе от условия к условию при любом распределении признака (критерии тенденций L и S)
Позволяют оценить взаимодействие двух и более факторов в их влиянии на изменения признака (двухфакторный дисперсионный анализ) Эта возможность отсутствует
Экспериментальные данные должны отвечать двум, а иногда трем условиям: а) значения признака измерены по интервальной шкале; б)распределение признака является нормальным; в)в дисперсионном анализе должно соблюдаться требование равенства дисперсий в ячейках комплекса Экспериментальные данные могут не отвечать ни одному из условий: а) значения признака могут быть представлены в любой шкале, начиная от шкалы наименований; б)распределение признака может быть любым и совпадение его с каким-либо теоретическим законом распределения необязательно и не нуждается в проверке; в)требование равенства дисперсий отсутствует
При выполнении указанных условий параметрические критерии являются более мощными по сравнению с непараметрическими критериями При несоблюдении указанных условий непараметрические критерии более надежны, т.к. они менее чувствительны к «засорениям»
Математические расчеты довольно сложны Математические расчеты большей частью просты и занимают мало времени

Параметрические методы

Критерий Стьюдента

Для сравнения выборочных средних величин, принадлежащих к двум совокупностям данных, и для решения вопроса о том, отличаются ли средние значения статистически достоверно друг от друга в психолого-педагогических экспериментах часто используют t -критерий Стьюдента, расчетное значение которого определяется по формуле:

,

где ‑ среднее выборочное значение переменной по одной выборке данных; ‑среднее выборочное значение по другой выборке данных; m 1 и m 2 ‑ интегрированные показатели отклонений частных значений из двух выборок от соответствующих их средних величин.

Если t расч больше или равно табличному, то делают вывод о том, что сравниваемые средние значения из двух выборок действительно статистически достоверно различаются с вероятностью допустимой ошибки.

Такая методика применяется тогда, когда необходимо установить, удался или не удался эксперимент, оказал или не оказал он влияние на уровень того качества, для изменения которого он предназначался.

Если t расчетное меньше t табличного, то в этом случае нет убедительных оснований для того, что эксперимент удался, даже если сами средние величины в начале и в конце эксперимента по своим абсолютным значениям различны.

Критерий φ*- угловое преобразование Фишера

Данный метод описан во многих руководствах (Плохинский Н.А., 1970; Гублер Е.В., 1978; Ивантер Э.В., Коросов А.В., 1992 и др.) Настоящее описание опирается на тот вариант метода, который был разработан и изложен Е.В. Гублером.

Критерий Фишера предназначен для сопоставления двух выборок по частоте встречаемости интересующего исследователя эффекта. Критерий оценивает достоверность различий между процентными долями двух выборок, в которых зарегистрирован интересующий исследователя эффект.

Суть углового преобразования Фишера состоит в переводе процентных долей в величины центрального угла, который измеряется в радианах. Большей процентной доле будет соответствовать больший угол φ, а меньшей доле - меньший угол, но соотношения здесь не линейные:

φ = 2·arcsin(),

где - процентная доля, выраженная в долях единицы.

При увеличении расхождения между углами φ 1 и φ 2 и увеличения численности выборок значение критерия возрастает. Чем больше величина φ*, тем более вероятно, что различия достоверны.

Все параметрические методы статистики работают с интервальной шкалой, в отличие от непараметрических методов, ориентированных прежде всего на первые две шкалы. Поясним отличия этих методов.

При рассмотрении большинства статистических методов предполагается, что наблюдения, о которых идет речь, выражены в интервальной шкале и являются реализациями случайной величины, распределение которой принадлежит некоторому параметрическому семейству распределений. Например, случайная величина имеет нормальное, или пуассоновское, или другое распределение. То есть, мы предполагаем, что известна форма распределения, например, мы можем предполагать нормальную N (μ, δ ) модель, но с неизвестными параметрами μ и δ . Методы оценивания и проверки гипотез позволяют делать выводы о неизвестных параметрах, при этом ценность любых заключений до некоторой степени должна зависеть от адекватности исходного предположения о параметрическом семействе, то есть о форме распределения. Однако существуют случайные величины, которые не подчиняются одной из распространенных форм распределения. Следовательно, к ним нельзя применить те математические методы, которые разработаны для параметрических распределений. Поэтому для таких признаков разработаны специальные математические модели, которые получили название непараметрических или свободных от распределения.

Таким образом, можно выделить две группы методов статистики: параметрические и непараметрические.

Преимущество параметрических методов состоит в том, что для них существует хорошо разработанный математический аппарат. Однако применение этих методов, кроме прочего, предполагает большой объем выборки. Параметрические методы используют для количественных признаков.

Для анализа номинальных и ранговых переменных используются только непараметрические методы, которые не требуют предварительных предположений относительно вида исходного распределения. В этом их достоинство. Но есть и недостаток – снижение т.н. мощности (чувствительности к различиям объектов). Поясним это.

Напомним, что прежде чем приступить к анализу результатов эксперимента, исследователь выдвигает две взаимоисключающие гипотезы. Одна из них - статистическая гипотеза, которую исследователь обычно предполагает отклонить (т.н. нулевая гипотеза Н 0 : например, изучаемые сорта не отличаются по урожайности). Альтернативная гипотеза (Н 1 ) фактически отрицает нулевую гипотезу. В альтернативной гипотезе обычно содержатся выдвигаемые исследователем предположения (есть отличия).

Выделяют два типа статистических ошибок анализа. Ошибка первого рода (ошибка α – типа): отклоняется нулевая гипотеза, которая в действительности верна. Ошибка второго рода (ошибка β – типа): принимаем нулевую гипотезу, которая в действительности ложная.

Мощностью или чувствительностью статистического критерия (метода) называется вероятность того, что в результате его применения будет принято правильное решение (Н 1 ) при действительно ложной нулевой гипотезе. Мощность критерия зависит от объема выборки, уровня значимости, направленности нулевой и альтернативной гипотез, надежности экспериментальных данных, приборов и от самого статистического метода. При равных условиях параметрические методы более мощные, чем непараметрические. Но мощность непараметрических методов возрастает с увеличением объема выборки.

Каждому типу шкалы соответствует своя статистическая техника. Для номинальных шкал часто используется критерий χ 2 (хи-квадрат). Для порядковых шкал – ранговые статистики. Для интервальных шкал – весь арсенал статистических критериев.

Алгоритмы и примеры вычисления непараметрических критериев.

Одним из факторов, ограничивающих применения статистических критериев, основанных на предположении нормальности, является объем выборки. До тех пор, пока выборка достаточно большая (например, 100 или больше наблюдений), можно считать, что выборочное распределение нормально, даже если нет уверенности в том, что распределение переменной в генеральной совокупности является нормальным. Тем не менее, если выборка мала, то параметрические критерии следует использовать только при наличии уверенности, что переменная действительно имеет нормальное распределение. Однако и для таких переменных нет способа проверить это предположение на малой выборке (статистические критерии проверки на нормальность эффективно начинают работать на выборке содержащей не менее чем 51 наблюдение).

Непараметрические методы наиболее приемлемы, когда объем выборок мал и данные отнесены к порядковым или номинальным шкалам. Если же эмпирических данных достаточно много (например, n>100), то часто не имеет смысла и даже видится некорректным использовать непараметрическую статистику. Если размер выборки очень мал (например, n=10 или меньше), то уровни значимости р для тех непараметрических критериев, которые используют нормальное приближение, можно рассматривать только как грубые оценки.



Применение критериев, основанных на предположении нормальности, кроме того, ограничено принадлежностью исследуемых признаков к определенной шкале измерений. Такие статистические методы, как, например, t-критерий Стьюдента (для зависимых и независимых выборок), линейная корреляция Пирсона, а также регрессионный, кластерный и факторный анализ предполагают, что исходные данные непрерывны (значения изучаемых переменных отнесены к интервальной шкале или шкале отношений). Однако имеются случаи, когда данные, скорее, просто ранжированы (измерены в порядковой шкале), чем измерены точно. Тогда целесообразным видится использовать такие статистические критерии, как, например, Т-критерий Вилкоксона, G-критерий знаков, U-критерий Манна‑Уитни, Z-критерий Валъда‑Волъфовица, ранговая корреляция Спирмена и др. На номинальных данных будут работать свои статистические методы, например, корреляция качественных признаков, ХИ-квадрат критерий, Q-критерий Кохрена и др. Выбор того или иного критерия сопряжен с гипотезой, которую выдвигает исследователь в ходе научных изысканий, и далее пытается ее доказать на эмпирическом уровне.

Итак, для каждого параметрического критерия имеется, по крайней мере, одна непараметрическая альтернатива. В общем, эти процедуры попадают в одну из следующих категорий: (1) оценка степени зависимости между переменными; (2) критерии различия для независимых выборок; (3) критерии различия для зависимых выборок.

Для оценки зависимости (взаимосвязи), или степени тесноты (плотности, силы) связи, вычисляют коэффициент корреляции Пирсона (r). Строго говоря, его применение имеет также ограничения, связанные, например, с типом шкалы, в которой измерены данные и нелинейностью зависимости. Поэтому в качестве альтернативы используются непараметрические, или так называемые ранговые коэффициенты корреляции (например, коэффициент ранговой корреляции Спирмена (ρ), статистики тау Кендалла (τ), Гамма (Gamma)), применяемые для порядковых (ранжированных) данных. Если имеется более двух переменных, то используют коэффициент конкордации Кендалла (Kendall Coeff. of Concordance). Он применяется, например, для оценки согласованности мнений независимых экспертов (например, баллов, выставленных одному и тому же испытуемому, участнику конкурса).

Если данные измерены в номинальной шкале, то их естественно представлять в таблицах сопряженности, в которых используется критерий ХИ‑квадрат Пирсона с различными вариациями и поправками на точность.

Различия между независимыми группами . Если имеются две выборки (например, юноши и девушки), которые нужно сравнить относительно некоторого среднего значения, например, креативного мышления, то можно использовать t-критерий для независимых выборок (t-test for independent samples). Непараметрическими альтернативами этому тесту являются критерий серий Валъда‑Волъфовица (Wald-Wolfowitz runs test), U-критерий Манна-Уитни (Mann‑Whitney U test) и двухвыборочный критерий Колмогорова-Смирнова (Kolmogorov‑Smirnov two‑sample test). Следует помнить, что двухвыборочный критерий Колмогорова-Смирнова чувствителен не только к различию в положении двух распределений, но также и к форме распределения. Фактически он чувствителен к любому отклонению от гипотезы однородности, но не указывает, с каким именно отклонением исследователь имеет дело.

Различия между зависимыми группами . Если надо сравнить две переменные, относящиеся к одной и той же выборке, например, показатели агрессивности одних и тех же испытуемых до и после коррекционной работы, то обычно используется t-критерий для зависимых выборок (t-test for dependent samples). Альтернативными непараметрическими тестами являются критерий знаков (Sign Test) и критерий Вилкоксона парных сравнений (Wilcoxon matched pair test). Критерий Вилкоксона предполагает, что можно ранжировать различия между сравниваемыми наблюдениями. Если этого сделать нельзя, то используют критерий знаков, который учитывает лишь знаки разностей сравниваемых величин.

Если рассматриваемые переменные категориальные (номинальные), то подходящим является ХИ-квадрат Макнемара (McNemar Chi-square). Если же имеются две категориальные переменные, то для оценки степени зависимости используют стандартные статистики и соответствующие критерии для таблиц сопряженности: ХИ-квадрат (Chi-square), ФИ-коэффициент (Phi-square), точный критерий Фишера (Fisher exact).

В ниже приведенной таблице представлены параметрические критерии и их непараметрические альтернативы с учетом следующих категорий: 1) оценка степени зависимости между переменными; 2) критерии различия.

Таблица 4.1 - Параметрические и непараметрические критерии

Параметрические критерии Непараметрические критерии
оценка зависимости (взаимосвязи)
коэффициент корреляции Пирсона (r) ранговые коэффициенты корреляции (коэффициент ранговой корреляции Спирмена ρ), статистики тау Кендалла (τ), Гамма (Gamma)); ХИ‑квадрат Пирсона (для номинальных данных)
различия между независимыми группами
t-критерий Стьюдента для независимых выборок (t-test for independent samples) Z-критерий серий Валъда‑Волъфовица (Wald-Wolfowitz runs test), U-критерий Манна-Уитни (Mann‑Whitney U test), двухвыборочный критерий Колмогорова-Смирнова (Kolmogorov-Smirnov two‑sample test)
различия между зависимыми группами
t-критерий Стьюдента для зависимых выборок (t-test for dependent samples) G-критерий знаков (Sign Test), T-критерий Вилкоксона парных сравнений (Wilcoxon matched pair test); ХИ-квадрат Макнемара (McNemar Chi-square), ХИ-квадрат (Chi-square), коэффициент ФИ-квадрат (Phi-square), точный критерий Фишера (Fisher exact) (для номинальных данных)

Если рассматривается более двух переменных, относящихся к одной и той же выборке (например, до коррекции, после коррекции-1 и после коррекции-2), то обычно используется дисперсионный анализ с повторными измерениями, который можно рассматривать как обобщение t-критерия для зависимых выборок, позволяющее увеличить чувствительность анализа. Английское сокращение дисперсионного анализа - ANOVA (Analysis of Variation). Дисперсионный анализ позволяет одновременно контролировать не только базовый уровень зависимой переменной, но и другие факторы, а также включать в план эксперимента более одной зависимой переменной. Альтернативными непараметрическими методами являются дисперсионный анализ Краскела-Уоллиса и медианный тест (Kruskal-Wallis ANOVA, median test), ранговый дисперсионный анализ Фридмана (Friedman ANOVA by Ranks).

Параметрические методы оценивания

Применение параметрических методов предполагает априор­ное знание теоретического закона распределения исследуемой ве­личины или его определение по эмпирическим данным, что обусловливает необходимость проверки согласованности ЭД и выбранного теоретического закона. Параметрическая оценка по цензурированным выборкам основывается на традиционных методах математической статистики (максимального правдоподобия, моментов, квантилей), методах линейных оценок и ряде других.

Обработка многократно цензурированных выборок ме­тодом максимального правдоподобия допускается при следующих условиях:

6 < N <10, 10 < = N <20, 20 < = N <50, 50 < = N <100, r /N > = 0,5; r / N > = 0,3; r / N > = 0,2; r / N >= 0,1.

Когда эти ограничения не выполняются, можно вычислять только нижнюю доверительную границу параметров распределения.

Оценки, получаемые по методу максимального правдоподобия, при относительно нежестких ограничениях асимптотически эффективны, не смещены и распределены асимптотически нормально. Если непрерывная переменная с функцией плотности f (x , t ) цензурирована в точках а и b (a <b ), то функция плотности распреде­ления при цензурировании определяется как

Функция правдоподобия при N наблюдениях

.

Если переменная дважды цензурирована в фиксированных точках a и b , так, что не наблюдаются k 1 наименьших и k 2 наибольших элементов выборки, то функция правдоподобия

где k 1 и k 2 являются случайными величинами.

При цензурировании с постоянными величинами k =r 1 и k 2=r 2 функция правдоподобия равна

где v1=x r 1+1, v2 =x N - r 2

Решение уравнения правдоподобия при различных схемах цензурирования является достаточно сложной задачей. В явном виде такие решения можно получить только для однопараметрических законов распределения. Известны уравне­ния для нахождения параметров типовых законов распределения показателей надежности по цензурированным слева выборкам.

Экспоненциальное распределение . Точечные оценки параметра распределения l при различных планах наблюдения:

где Ф(х ) – функция нормального распределения, f (x ) – функция плотности нормального распределения.

Система уравнений (8.7) допускает только численное решение. При таком решении уравнений в качестве начальных приближений неизвестных параметров обычно берут оценки математического ожидания и среднеквадратического отклонения, вычисленные по объединенной выборке.

Логарифмически нормальное распределение . Оценки параметров вычисляют по формулам для нормального закона распределения с заменой значений наработок их натуральными логарифмами.

Р аспределение Вейбулла . Оценки параметров d и b для плана [NUz ] вычисляются на основе системы уравнений

где t m = t r для плана [NUr ], t m = Т для плана [ NUT ].

Системы уравнений (8.8) – (8.9) не имеют аналитического решения и требуют применения численных методов: вначале находится корень первого уравнения (оценка параметра b), затем прямой подстановкой значение оценки параметра d. Для двухпараметрического распределения Вейбулла большие (b>4) или малые (b<0,5) значения параметра свидетельствуют о том, что ЭД не подчиняются этому закону или отношение r /N мало. В таких случаях следует применить непараметрические методы оценивания или перейти к трехпараметрическому закону распределения Вейбулла.

Трудности применения метода максимального правдопо­добия обусловливают разработку других методов. Метод моментов обычно приводит к простым вычислительным процедурам, позволяет получить асимптотически эффективные, несмещенные и нормально распределенные оценки, но требует учета типа цензурирования и применим при относительно большом объеме выборки (не менее 30). Использование метода квантилей для оценок параметров законов распределений менее критично к типу цензурирования. Высокая точность оценок достигается оптимальным подбором квантилей, хотя такой подбор не всегда удается осуществить.

Метод линейных оценок применяют при небольшом объеме выборки, он обеспечивает высокую эффективность, состоятельность и несмещенность оценок параметров распределения. Этот метод основан на нахождении линейной функции от порядковых статистик (упорядоченных элементов выборки), которая была бы несмещенной оценкой искомого параметра. Применение связано с необходимос­тью использования специальных видов распределений, что вызывает определенные неудобства и затрудняет автоматизацию расчетов.

Приступая к статистической обработке своих исследований, психо-лог должен решить, какие методы ему более подходят по особенностям его материала -- параметрические или непараметрические. Раз-личие между ними легко понять.

Ранее уже говорилось об измерении двигательной скорости детей-шес-тиклассников.

Как обработать эти данные?

Нужно записать все произведенные измерения -- в данном случае это будет число точек, поставленных каждым испытуемым, -- затем вычис-лить для каждого испытуемого среднее арифметическое по его резуль-татам. После этого расположить все данные в их последовательности, например начиная с наименьших к наибольшим. Для облегчения обозри-мости этих данных их обычно объединяют в группы; в этом случае можно объединить по 5-9 измерений в группе. Вообще же при таком объеди-нении желательно, если общее число случаев не более ста, чтобы общее число групп было порядка двенадцати.

Далее нужно установить, сколько раз в опытах встретились числовые значения, соответствующие каждой группе. Сделав это, для каждой группы записать ее численность. Полученные в такой таблице данные носят назва-ние распределения численностей или частот. Рекомендуется предста-вить это распределение в виде диаграммы, на которой изображается по-лигон распределения, или гистограмма распределения. Контуры этого полигона помогут решить вопрос о статистических методах обработки.

Нередко эти контуры напоминают контуры колокола, с наивысшей точкой в центре полигона и с симметричными ветвями, отходящими в ту и другую сторону. Такой контур соответствует кривой нормально-го распределения. Это понятие было введено в математическую ста-тистику К. Ф. Гауссом (1777-1855), поэтому кривую именуют также кривой Гаусса . Он же дал математическое описание этой кривой. Для построения кривой Гаусса (или кривой нормального распределения) теоретически требуется бесчисленное количество случаев. Практиче-ски же приходится довольствоваться тем фактическим материалом, который накоплен в исследовании. Если данные, которыми распола-гает исследователь, при их внимательном рассмотрении или после пе-реноса их на диаграмму лишь в незначительной степени расходятся с кривой нормального распределения, то это дает право исследователю применять в статистической обработке параметрические методы, ис-ходные положения которых основываются на нормальной кривой рас-пределения Гаусса.

Нормальное распределение называют параметрическим потому, что для построения и анализа кривой Гаусса достаточно иметь всего два параметра: среднее значение, которое должно соответствовать высоте перпендикуляра, восстановленного в центре кривой, и так называемое среднее квадратическое, или стандартное, отклонение величины, ха-рактеризующей рассеивание значений вокруг среднего значения; о спо-собах вычисления той и другой величины будет рассказано ниже.

Параметрические методы обладают для исследователя многими преимуществами, но нельзя забывать о том, что применение их право-мерно только тогда, когда обрабатываемые данные показывают рас-пределение, лишь несущественно отличающееся от гауссовского.

При невозможности применить параметрические надлежит обра-титься к непараметрическим методам . Эти методы успешно разраба-тывались в последние 3-4 десятилетия, и их разработка была вызвана прежде всего потребностями ряда наук, в частности психологии. Они показали свою высокую эффективность. Вместе с тем они не требуют сложной вычислительной работы.

Современному психологу-исследователю нужно исходить из того, что «...имеется большое количество данных, которые либо вообще не поддаются анализу с помощью кривой нормального распределения, либо не удовлетворяют основным предпосылкам, необходимым для ее использования».

Генеральная совокупность и выборка . Психологу постоянно при-ходится иметь дело с этими двумя понятиями.



Понравилась статья? Поделитесь с друзьями!