Для чего нужны критерии согласия. Критерий согласия

Критерии согласия (соответствия)

Для проверки гипотезы о соответствии эмпирического распределения теоретическому закону распределения используются особые статистические показатели - критерии согласия (или критерии соответствия). К ним относятся критерии Пирсона, Колмогорова, Романовского, Ястрем- ского и др. Большинство критериев согласия базируется на использовании отклонений эмпирических частот от теоретических. Очевидно, что чем меньше эти отклонения, тем лучше теоретическое распределение соответствует эмпирическому (или описывает его).

Критерии согласия - это критерии проверки гипотез о соответствии эмпирического распределения теоретическому распределению вероятностей. Такие критерии подразделяются на два класса: общие и специальные. Общие критерии согласия применимы к самой общей формулировке гипотезы, а именно к гипотезе о согласии наблюдаемых результатов с любым априорно предполагаемым распределением вероятностей. Специальные критерии согласия предполагают специальные нулевые гипотезы, формулирующие согласие с определенной формой распределения вероятностей.

Критерии согласия, опираясь на установленный закон распределения, дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными (случайными), а когда - существенными (неслучайными). Из этого следует, что критерии согласия позволяют отвергнуть или иодтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду и дать ответ, можно ли принять для данного эмпирического распределения модель, выраженную некоторым теоретическим законом распределения.

Критерий согласия Пирсона х 2 (хи-квадрат) - один из основных критериев согласия. Предложен английским математиком Карлом Пирсоном (1857-1936) для оценки случайности (существенности) расхождений между частотами эмпирического и теоретического распределений:

где k - число групп, на которые разбито эмпирическое распределение; fi - эмпирическая частота признака в i -й группе; / тс °р - теоретическая частота признака в i-й группе.

Схема применения критерия у} к оценке согласованности теоретического и эмпирического распределений сводится к следующему.

  • 1. Определяется расчетная мера расхождения % 2 асч.
  • 2. Определяется число степеней свободы.
  • 3. По числу степеней свободы v с помощью специальной таблицы определяется %^бл
  • 4. Если % 2 асч >х 2 абл, то при заданном уровне значимости а и числе степеней свободы v гипотезу о несущественности (случайности) расхождений отклоняют. В противном случае гипотезу можно признать не противоречащей полученным экспериментальным данным и с вероятностью (1 - а) можно утверждать, что расхождения между теоретическими и эмпирическими частотами случайны.

Уровень значимости - это вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. В статистических исследованиях в зависимости от важности и ответственности решаемых задач пользуются следующими тремя уровнями значимости:

  • 1) а = 0,1, тогда Р = 0,9;
  • 2) а = 0,05, тогда Р = 0,95;
  • 3) а = 0,01, тогда Р = 0,99.

Используя критерий согласия у}, необходимо соблюдать следующие условия.

  • 1. Объем исследуемой совокупности должен удовлетворять условию п > 50, при этом частота или численность группы должна быть не менее 5. Если это условие нарушается, необходимо предварительно объединить небольшие частоты (меньше 5).
  • 2. Эмпирическое распределение должно состоять из данных, полученных в результате случайного отбора, т.е. они должны быть независимыми.

Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений. В связи с этим рекомендуется дополнять проверку соответствия распределений но критерию у} другими критериями. Особенно это необходимо при объеме выборки п ~ 100.

В статистике критерий согласия Колмогорова (также известный как критерий согласия Колмогорова - Смирнова) используется для того, чтобы определить, подчиняются ли два эмпирических распределения одному закону, либо определить, подчиняется ли полученное распределение предполагаемой модели. Критерий Колмогорова основан на определении максимального расхождения между накопленными частотами или частостями эмпирических или теоретических распределений. Критерий Колмогорова исчисляется по следующим формулам:

где D и d - соответственно максимальная разность между накопленными частотами (/-/") и между накопленными частостями (р-р ") эмпирического и теоретического рядов распределений; N - число единиц в совокупности.

Рассчитав значение X, по специальной таблице определяется вероятность, с которой можно утверждать, что отклонения эмпирических частот от теоретических случайны. Если признак принимает значения до 0,3, то это означает, что происходит полное совпадение частот. При большом числе наблюдений критерий Колмогорова способен обнаружить любое отступление от гипотезы. Это означает, что любое отличие распределения выборки от теоретического будет с его помощью обнаружено, если наблюдений будет достаточно много. Практическая значимость этого свойства несущественна, так как в большинстве случаев трудно рассчитывать на получение большого числа наблюдений в неизменных условиях, теоретическое представление о законе распределения, которому должна подчиняться выборка, всегда приближенное, а точность статистических проверок не должна превышать точность выбранной модели.

Критерий согласия Романовского основан на использовании критерия Пирсона, т.е. уже найденных значений х 2 > и числа степеней свободы:

где v - число степеней свободы вариации.

Критерий Романовского удобен при отсутствии таблиц для х 2 . Если К р К? > 3, то неслучайны и теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.

Б. С. Ястремский использовал в критерии согласия не число степеней свободы, а число групп (k ), особую величину 0, зависящую от числа групп, и величину хи-квадрат. Критерий согласия Ястремского имеет тот же смысл, что и критерий Романовского, и выражается формулой

где х 2 - критерий согласия Пирсона; /е гр - число групп; 0 - коэффициент, для числа групп меньше 20 равный 0,6.

Если 1ф акт > 3, расхождения между теоретическими и эмпирическими распределениями неслучайны, т.е. эмпирическое распределение не отвечает требованиям нормального распределения. Если 1ф акт

Так как все предположения о характере того или иного распределения - это гипотезы, а не категорические утверждения, то они, естественно, должны быть подвергнуты статистической проверке с помощью так называемых критериев согласия.

Критерии согласия, опираясь на установленный закон распределения, дают возможность установить, когда расхождения между теоретическими и эмпирическими частотами следует признать несущественными (случайными), а когда - существенными (неслучайными). Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы

о характере распределения в эмпирическом ряду и дать ответ, можно ли принять для данного эмпирического распределения модель, выраженную некоторым теоретическим законом распределения.

Существует ряд критериев согласия. Чаще других применяют критерии Пирсона, Романовского и Колмогорова. Рассмотрим их.

Критерий согласия Пирсона %2 (хи-квадрат) - один из основных критериев согласия. Критерий предложен английским математиком Карлом Пирсоном (1857-1936) для оценки случайности (существенности) расхождений между частотами эмпирического и теоретического распределений. Критерий Пирсона где к

число групп, на которые разбито эмпирическое распределение;

наблюдаемая частота признака в і-й группе; теоретическая частота, рассчитанная по предполагаемому распределению. Для распределения у} составлены таблицы, где указано критическое значение критерия согласия %2 для выбранного уровня значимости а и данного числа степеней свободы V (см. Приложение 4).

Уровень значимости а - вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. В статистических исследованиях в зависимости от важности и ответственности решаемых задач пользуются следующими тремя уровнями значимости: 1)

а = 0,10, тогда Р = 0,90; 2)

а = 0,05, тогда Р = 0,95; 3)

а = 0,01, тогда Р = 0,99.

Например, вероятность 0,01 означает, что в одном случае из 100 может быть отвергнута правильная гипотеза. В экономических исследованиях считается практически приемлемой вероятность ошибки 0,05, т.е. в 5 случаях из 100 может быть отвергнута правильная гипотеза.

Кроме того, %2-критерий, определяемый по таблице, зависит и от числа степеней свободы. Число степеней свободы V определяется как число групп в ряду распределения к минус число связей с V

Под числом связей понимается число показателей эмпирического ряда, использованных при исчислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретичес- / л

кие частоты

Так, в случае выравнивания по кривой нормального распределения имеется три связи:

х ~ х" " СУ = а" * х Ш = У

ЭМП теор’ ЭМП ТеОр> ^ 1ЭМП ^ /теор*

Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как V = к - 3, где к - число групп в ряду.

В случае выравнивания по кривой Пуассона V = к - 2, так как при построении частот используются две ограничивающие связи: х, 1тг /

Для оценки существенности расчетное значение %2расч сравнивается с табличным %2табл.

При полном совпадении теоретического и эмпирического распределений %2 = 0, в противном случае %2 > 0.

Если Храсч > Xтабл’ Т0 ПРИ заданном уровне значимости а и числе степеней свободы V гипотезу о несущественности (случайности) расхождений отклоняем.

В случае если %2асч ^ Х2табЛ’ заключаем, что эмпирический ряд хорошо согласуется с гипотезой о предполагаемом распределении и с вероятностью (1 - а) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно.

Используя критерий согласия?2, необходимо соблюдать следующие условия: 1)

объем исследуемой совокупности должен быть достаточно большим (УУ> 50), при этом частота или численность каждой группы должна быть не менее 5. Если это условие нарушается, необходимо предварительно объединить маленькие частоты; 2)

эмпирическое распределение должно состоять из данных, полученных в результате случайного отбора, т.е. они должны быть независимыми.

Если в эмпирическом ряду распределение задано частостями / \ т.

то у} следует исчислять по формуле

Критерий Романовского Кр основан на использовании критерия Пирсона %2, т.е. уже найденных значений %2, и числа степеней свободы v:

Он весьма удобен при отсутствии таблиц для %2.

Если Кр 3, то не случайны

и, соответственно, теоретическое распределение не может служить моделью для изучаемого эмпирического распределения.

Критерий Колмогорова X основан на определении максимального расхождения между накопленными частотами или частостями эмпирических и теоретических распределений:

X = -2= или X = , iN

где Dud- соответственно максимальная разность между накопленными частотами (F - F") и между накоплен-

ными частостями (р - р") эмпирического и теоретического рядов распределений;

N - число единиц в совокупности.

Рассчитав значение X, по таблице Р(к) (см.

Приложение 6) определяют вероятность, с которой можно утверждать, что отклонения эмпирических частот от теоретических случайны. Вероятность Р(к) может изменяться от 0 до 1. При Р(к) = 1 происходит полное совпадение частот, при Р(к) = 0 - полное расхождение. Если А, принимает значения до 0,3, то Р(к) = 1.

Основное условие для использования критерия Колмогорова - достаточно большое число наблюдений.

Пример. Используя данные табл. 5.17, проверить правильность выдвинутой гипотезы о распределении призывников района по закону нормального распределения. Величины, необходимые для расчета критериев согласия, приведены в табл. 5.19.

Таблица 5.19

Расчет величин для определения критериев согласия Пирсона х2 и Колмогорова X Рост, см Частоты ряда распределения (/п - т")2 т" F F" к- р,\ т т" А 1 2 3 4 5 6 156-160 8 5 1,8 8 5 3 161-165 17 16 0,1 25 21 4 166-170 42 40 0,1 67 61 6 171-175 54 65 1,9 121 126 5 176-180 73 73 0 194 199 5 181-185 57 57 0 251 256 5 186-190 38 30 2,1 289 286 3 191-195 11 11 0 300 297 3 X 300 297 6,0 Сначала рассчитаем критерий Пирсона

Затем выберем уровень значимости а = 0,05 и определим число степеней свободы V. В данном распределении 8 групп и число связей (параметров) равно 3, следовательно, V = 8 - 3 = 5. По таблице Приложения 4 найдем при а = 0,05 и V = 5 критерий Пирсона %2 = 11,07.

Так как %2расч Проверим выдвинутую гипотезу, используя критерий Романовского:

I X2 - V I 16,0 - 5 I 1

кр = ] Г=^ = 1 = --г = 0,3.

Так как Кр Критерий Романовского также подтверждает, что расхождения между эмпирическими и теоретическими частотами несущественны.

Рассмотрим теперь применение критерия Колмогорова А,. Как видно из табл. 5.19, максимальная разность между кумулятивными частотами равна 6, т.е. Б = шах!/1- Р"\ = 6. Следовательно, критерий Колмогорова

X = -?= = = 0,35.

По таблице Приложения 6 находим значение вероятности при X = 0,35: Р(Х) = 0,9997. Это означает, что с вероятностью, близкой к единице, можно утверждать, что гипотеза о нормальном распределении не отвергается, а расхождения эмпирического и теоретического распределений носят случайный характер.

Теперь, подтвердив правильность выдвинутой гипотезы с помощью известных критериев согласия, можно использовать результаты распределения для практической деятельности.

Пример. Используя данные табл. 5.18, проверить гипотезу о подчинении распределения числа неисправностей в автомобилях закону Пуассона.

Исходные данные и расчет величин, необходимых для определения критериев согласия, приведены в табл. 5.20.

Подсчитаем величину %2: 2

Дфасч ^ / 9

(см. табл. 5.20). хХтабл = 9>49

(см. Приложение 4).

Поскольку %2расч Таким образом, выдвинутая гипотеза о распределении числа неисправностей в автомобилях по закону Пуассона не отвергается.

Статистические гипотезы. Критерии согласия.

Нулевой (основной) называют выдвинутую гипотезу о виде неизвестного распределения, или о параметрах известных распределений. Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.

Например, если нулевая гипотеза состоит в предположении, что случайная величина X распределена по закону , то конкурирующая гипотеза может состоять в предположении, что случайная величина Х распределена по другому закону.

Статистическим критерием (или просто критерием ) называют некоторую случайную величину К , которая служит для проверки нулевой гипотезы.

После выбора определенного критерия, например критерия , множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другое - при которых она принимается.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы называют совокупность значений критерия, при которых гипотезу принимают. Критическими точками называют точки, отделяющие критическую область от области принятия нулевой гипотезы.

Для нашего примера, при значении , вычисленное по выборке значение соответствует области принятия гипотезы: случайная величина распределена по закону . Если же вычисленное значение , то оно попадает в критическую область, то есть гипотеза о распределении случайной величины по закону отвергается.

В случае распределения критическая область определяется неравенством , область принятия нулевой гипотезы – неравенством .

2.6.3. Критерий согласия Пирсона.

Одна из задач зоотехнии и ветеринарной генетики – выведение новых пород и видов с требуемыми признаками. Например, повышение иммунитета, резистентность к болезням или изменение окраски мехового покрова.

На практике, при анализе результатов, очень часто оказывается, что фактические результаты в большей или меньшей степени соответствуют некоторому теоретическому закону распределения. Возникает необходимость оценить степень соответствия фактических (эмпирических) данных и теоретических (гипотетических). Для этого выдвигают нулевую гипотезу : полученная совокупность распределена по закону «А». Проверка гипотезы о предполагаемом законе распределения производится при помощи специально подобранной случайной величины – критерия согласия.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Имеется несколько критериев согласия: Пирсона, Колмогорова, Смирнова и д.р. Критерий согласия Пирсона используется наиболее часто.

Рассмотрим применение критерия Пирсона на примере проверки гипотезы о нормальном законе распределения генеральной совокупности. С этой целью будем сравнивать эмпирические и теоретические (вычисленные в продолжении нормального распределения) частоты.

Обычно между теоретическими и эмпирическими частотами есть некоторое различие. Например :

Эмпирические частоты 7 15 41 93 113 84 25 13 5

Теоретические частоты 5 13 36 89 114 91 29 14 6

Рассмотрим два случая:

Расхождение теоретических и эмпирических частот случайно (незначимо), т.е. можно сделать предложение о распределении эмпирических частот по нормальному закону;

Расхождение теоретических и эмпирических частот неслучайно (значимо), т.е. теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности.

С помощью критерия согласия Пирсона можно определить случайно или нет расхождение теоретических и эмпирических частот, т.е. с заданной доверительной вероятностью определить, распределена генеральная совокупность по нормальному закону или нет.

Итак, пусть по выборке объема n получено эмпирическое распределение:

Варианты ……

Эмпирические частоты …….

Допустим, что в предположении нормального распределения вычислены теоретические частоты . При уровне значимости требуется проверить нулевую гипотезу : генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы примем случайную величину

(*)

Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.

Доказано, что при закон распределения случайной величины (*), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения с степенями свободы. Поэтому, случайная величина (*) обозначается через , а сам критерий называют критерий согласия «хи-квадрат».

Обозначим значение критерия, вычисленное по данным наблюдений, через . Табулированные критические значения критерия для данного уровня значимости и числа степеней свободы обозначают . При этом число степеней свободы определяют из равенства , где число групп (частичных интервалов) выборки или классов; - число параметров предполагаемого распределения. У нормального распределения два параметра – математическое ожидание и среднее квадратическое отклонение. Поэтому число степеней свободы для нормального распределения находят из равенства

Если для вычисленного значения и табличного значения выполняется неравенство , принимается нулевая гипотеза о нормальном распределении генеральной совокупности. Если же , нулевую гипотезу отвергают и принимают гипотезу, альтернативную ей (генеральная совокупность не распределена по нормальному закону).

Замечание. При использовании критерия согласия Пирсона объем выборки должен быть не менее 30. Каждая группа должна содержать не менее 5 вариант. Если же в группах окажется менее 5 частот, их объединяют с соседними группами.

В общем случае число степеней свободы для распределения хи-квадрат определяется как общее число величин, по которым вычисляют соответствующие показатели, минус число тех условий, которые связывают эти величины, т.е. уменьшают возможность вариации между ними. В простейших случаях при вычислении число степеней свободы будет равно числу классов, уменьшенному на единицу. Так, например, при дигибридном, расщеплении получают 4 класса, но не связанным получается лишь первый класс, последующие уже связаны с предыдущими. Поэтому для дигибридного расщепления число степеней свободы .



Пример 1. Определить степень соответствия фактического распределения групп по количеству больных туберкулезом коров с теоретически ожидаемым, которое было вычислено при рассмотрении нормального распределения. Исходные данные сведены в таблицу:

Решение.

По уровню значимости и числу степеней свободы из таблицы критических точек распределения (см. приложение 4) находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами носит случайный характер. Таким образом, фактическое распределение групп по количеству больных туберкулезом коров соответствует теоретически ожидаемому.

Пример 2. Теоретическое распределение по фенотипу особей, полученных во втором поколении при дигибридном скрещивании кроликов по закону Менделя составляет 9: 3: 3: 1. Требуется вычислить соответствие эмпирического распределения кроликов от скрещивания черных особей с нормальной шерстью с пуховыми животными – альбиносами. При скрещивании во втором поколении было получено 120 потомков, в том числе – 45 черных с короткой шерстью, 30 черных пуховых, 25 белых с короткой шерстью, 20 белых пуховых кроликов.

Решение. Теоретически ожидаемое расщепление в потомстве должно соответствовать соотношению четырех фенотипов (9: 3: 3: 1). Рассчитаем теоретические частоты (количество голов) для каждого класса:

9+3+3+1=16, значит можно ожидать, что черных короткошерстных будет ; черных пуховых - ; белых короткошерстных - ; белых пуховых - .

Эмпирическое (фактическое) распределение по фенотипам было следующим 45; 30; 25; 20.

Сведем все эти данные в следующую таблицу:

Используя критерий согласия Пирсона вычислим значение :

Число степеней свободы при дигибридном скрещивании . Для уровня значимости находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами является неслучайным. Следовательно, полученная группа кроликов отклоняется по распределению фенотипов от закона Менделя при дигибридном скрещивании и отражает влияние неких факторов, изменяющих тип расщепления по фенотипу у второго поколения помесей.

Критерий согласия хи- квадрат Пирсона можно использовать и для сравнения друг с другом двух однородных эмпирических распределений, т.е. таких, у которых одни и те же границы классов. В качестве нулевой гипотезы принимается гипотеза о равенстве двух неизвестных функций распределения. Критерий хи-квадрат в таких случаях определяется по формуле

(**)

где и - объемы сравниваемых распределений; и - частоты соответствующих классов.

Рассмотрим сравнение двух эмпирических распределений на следующем примере.

Пример 3. Проводился промер длины яиц кукушек по двум территориальным зонам. В первой зоне была обследована выборка из 76 яиц (), во второй из 54 (). Получены следующие результаты:

Длина (мм)
Частоты
Частоты - - -

При уровне значимости требуется проверить нулевую гипотезу, что обе выборки яиц принадлежат одной популяции кукушек.

Критерием согласия называется критерий значимости, применяемый для проверки гипотезы о законе распределения генеральной совокупности, из которой взята выборка.

Чаще всего исследователя интересует, соответствует ли распределение экспериментальных данных нормальному закону. Поэтому примеры будут связаны с проверкой экспериментального распределения на нормальность.

  • Критерий Шапиро-Уилки
  • Критерий хи-квадрат
  • Критерий лямбда Колмогорова-Смирнова

КРИТЕРИЙ ШАПИРО-УИЛКИ

Условия применения: выборка небольшого объема

Н 0 – распределение генеральной совокупности из которой получена выборка совокупности соответствует нормальному закону.

Н 1 - распределение генеральной совокупности из которой получена выборка совокупности не соответствует нормальному закону.

Таблица 1 – Алгоритм расчета критерия Шапиро-Уилки.

x x Δk k ank ankΔk
1 2 3 4 5 6 7
1 11,8 13,8 2 1 0,5739 1,1478
2 12 13,2 1,2 2 0,3291 0,39492
3 12,1 13 0,9 3 0,2141 0,19269
4 12,3 12,8 0,5 4 0,1224 0,0612
5 12,6 12,6 0 5 0,0399 0
6 12,6 12,6
7 12,8 12,3 Сумма=b = 17966
8 13 12,1
9 13,2 12
10 13,8 11,8

Порядок расчета критерия Шапиро-Уилки

  1. Формулируем гипотезу Н 0 о соответствии распределения генеральной совокупности, из которой получены данные нормальному закону. Назначаем уровень значимости α=0,05.
  2. Получаем выборку экспериментальных данных (столбец 1 табл.1). В нашем случае n=10.
  3. Рассчитываем значение выборочной дисперсии. Для примера S 2 =0, 37.
  4. Ранжируем выборку в возрастающем и убывающем порядке (столбцы 2 и 3)
  5. Считаем разности Δk (столбец 5)
  6. Из таблицы 6 Приложения(см. В.С.Иванов, 1990) находим значения коэффициентов ank (столбец 6)
  7. Находим произведение ankΔk
  8. Вычисляем b=сумма ankΔk= 1,7966
  9. Рассчитываем значение критерия Wф по формуле:
  1. Из табл. 7 Приложения (см. В.С.Иванов, 1990) находим критическое значение критерия Шапиро-Уилки для α=0,05 Wкрит= 0,842.
  2. Вывод. Так как Wф>Wкрит, можно говорить, что экспериментальные данные соответствуют нормальному закону на уровне значимости 0,05.

КРИТЕРИЙ ХИ-КВАДРАТ

Разработан Карлом Пирсоном . Основан на построении интервального вариационного ряда и сравнении эмпирических (n эм) и теоретических (n т) частот (Рис.1).

Рис.1. Гистограмма, характеризующая эмпирическое распределение и функция плотности вероятностей нормального распределения.

Статистическая гипотеза : плотность распределения генеральной совокупности, из которой взята выборка, соответствует теоретической модели нормального распределения.

Значение фактического критерия хи-квадрат вычисляется по формуле:

Если фактическое значение критерия хи-квадрат больше или равно чем критическое значение критерия хи-квадрат, можно сделать вывод, что эмпирическое распределение не соответствует нормальному закону на уровне значимости α.

КРИТЕРИЙ ЛЯМБДА КОЛМОГОРОВА-СМИРНОВА

Разработан Андреем Николаевичем Колмогоровым и Николаем Васильевичем Смирновым .

Статистическая гипотеза : функция распределения генеральной совокупности (рис. 2), из которой взята выборка, соответствует функции распределения нормального закона.

Рис.2. Красные точки - кумулята, построенная на основе экспериментальных данных, синяя кривая - теоретическая функция распределения (нормальное распределение).

Значение критерия λ ф вычисляется по формуле:

Вывод: если λ ф > λ крит – эмпирическое распределение не соответствует нормальному на уровне значимости α.

ЛИТЕРАТУРА

  1. Высшая математика и математическая статистика: учебное пособие для вузов / Под общ. ред. Г. И. Попова. – М. Физическая культура, 2007.– 368 с.
  2. Основы математической статистики: Учебное пособие для ин-тов физ. культ / Под ред. В.С. Иванова.– М.: Физкультура и спорт, 1990. 176 с.

Определение 51. Критерии, которые позволяют судить, согласуются ли значения х 1 , х 2 ,…, х n случайной величины Х с гипотезой относительно ее функции распределения, называются критериями согласия.

Идея применения критериев согласия

Пусть на основании данного статистического материала предстоит проверить гипотезу Н , состоящую в том, что СВ Х подчиняется некоторому определенному закону распределения. Этот закон может быть задан либо в виде функция распределения F (x ), либо в виде плотности распределения f (x ), или же в виде совокупности вероятностей p i . Так как из всех этих форм функция распределения F (x ) является наиболее общей (существует и для ДСВ и для НСВ) и определяет собой любую другую, будем формулировать гипотезу Н , как состоящую в том, что величина Х имеет функцию распределения F (x ).

Для того, чтобы принять или опровергнуть гипотезу Н , рассмотрим некоторую величину U , характеризующую степень расхождения (отклонения) теоретического и статистического распределений. Величина U может быть выбрана различными способами : 1) сумма квадратов отклонений теоретических вероятностей p i от соответствующих частот , 2) сумма тех же квадратов с некоторыми коэффициентами (весами), 3) максимальное отклонение статистической (эмпирической) функции распределения от теоретической F (x ).

Пусть величина U выбрана тем или иным способом. Очевидно, что это есть некоторая случайная величина. Закон распределения U зависит от закона распределения случайной величины Х , над которой производились опыты, и от числа опытов n . Если гипотеза Н верна, то закон распределения величины U определяется законом распределения величины Х (функцией F (x )) и числом n .

Допустим, что этот закон распределения известен. В результате данной серии опытов обнаружено, что выбранная мера расхождения U приняла некоторое значение u . Вопрос: можно ли объяснить это случайными причинами или же это расхождение слишком велико и указывает на наличие существенной разницы между теоретическим и статистическим (эмпирическим) распределениями и, следовательно, на непригодность гипотезы Н ? Для ответа на этот вопрос предположим, что гипотеза Н верна, и вычислим в этом предположении вероятность того, что за счет случайных причин, связанных с недостаточным объемом опытного материала, мера расхождения U окажется не меньше, чем наблюдаемое в опыте значение u , то есть вычислим вероятность события: .

Если эта вероятность мала, то гипотезу Н следует отвергнуть как мало правдоподобную, если же эта вероятность значительна, то делаем вывод, что экспериментальные данные не противоречат гипотезе Н .

Возникает вопрос: каким же способом следует выбирать меру расхождения (отклонения) U ? Оказывается, что при некоторых способах ее выбора закон распределения величины U обладает весьма простыми свойствами и при достаточно большом n практически не зависит от функции F (x ). Именно такими мерами расхождения и пользуются в математической статистике в качестве критериев согласия.

Определение 51 / . Критерием согласия называется критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Для количественных данных при распределениях, близких к нормальным, используют параметрические методы, основанные на таких показателях, как математическое ожидание и стандартное отклонение. В частности, для определения достоверности разницы средних для двух выборок применяют метод (критерий) Стьюдента, а для того чтобы судить о различиях между тремя или большим числом выборок, - тест F , или дисперсионный анализ. Если же имеем дело с неколичественными данными или выборки слишком малы для уверенности в том, что популяции, из которых они взяты, подчиняются нормальному распределению, тогда используют непараметрические методы - критерий χ 2 (хи-квадрат) или Пирсона для качественных данных и критерии знаков, рангов, Манна-Уитни, Вилкоксона и др. для порядковых данных.

Кроме того, выбор статистического метода зависит от того, являются ли те выборки, средние которых сравниваются, независимыми (т. е., например, взятыми из двух разных групп испытуемых) или зависимыми (т. е. отражающими результаты одной и той же группы испытуемых до и после воздействия или после двух различных воздействий).

Пп. 1. Критерий Пирсона (- хи-квадрат)

Пусть произведено n независимых опытов, в каждом из которых случайная величина Х приняла определенное значение, то есть дана выборка наблюдений случайной величины Х (генеральной совокупности) объема n . Рассмотрим задачу по проверке близости теоретической и эмпирической функций распределения для дискретного распределения, то есть требуется проверить, согласуются ли экспериментальные данные с гипотезой Н 0 , утверждающей, что случайная величина Х имеет закон распределения F (x ) при уровне значимости α . Назовем этот закон «теоретическим».

При получении критерия согласия для проверки гипотезы определяют меру D отклонения эмпирической функции распределения данной выборки от предполагаемой (теоретической) функции распределения F (x ).

Наиболее употребительной является мера, введенная Пирсоном. Рассмотрим эту меру. Разобьем множество значений случайной величины Х на r множеств - групп S 1 , S 2 ,…, S r , без общих точек. Практически такое разбиение осуществляется с помощью (r - 1) чисел c 1 < c 2 < … < c r -1 . При этом конец каждого интервала исключают из соответствующего множества, а левый – включают.

S 1 S 2 S 3 …. S r -1 S r

c 1 c 2 c 3 c r -1

Пусть p i , , - вероятность того, что СВ Х принадлежит множеству S i (очевидно ). Пусть n i , , - количество величин (вариант) из числа наблюдаемых, принадлежащих множеству S i (эмпирические частоты). Тогда относительная частота попадания СВ Х во множество S i при n наблюдениях. Очевидно, что , .

Для разбиения, приведенного выше, p i есть приращение F (x ) на множестве S i , а приращение на этом же множестве. Cведем результаты опытов в таблицу в виде группированного статистического ряда.

Границы группы Относительная частота
S 1: x 1 – x 2
S 2: x 2 – x 3
S r : x r x r +1

Зная теоретический закон распределения, можно найти теоретические вероятности попадания случайной величины в каждую группу: р 1 , р 2 , …, p r . Проверяя согласованность теоретического и эмпирического (статистического) распределений, будем исходить из расхождений между теоретическими вероятностями p i и наблюдаемыми частотами .

За меру D расхождения (отклонения) эмпирической функции распределения от теоретической принимают сумму квадратов отклонений теоретических вероятностей p i от соответствующих частот , взятых с некоторыми «весами» c i : .

Коэффициенты c i вводятся потому, что в общем случае отклонения, относящиеся к разным группам, нельзя считать равноправными по значимости: одно и то же по абсолютной величине отклонение может быть мало значительным, если сама вероятность p i велика, и очень заметным, если она мала. Поэтому естественно «веса» c i взять обратно пропорциональным вероятностям. Как выбрать этот коэффициент?

К.Пирсон показал, что если положить , то при больших n закон распределения величины U обладает весьма простыми свойствами: он практически не зависит от функции распределения F (x ) и от числа опытов n , а зависит только от количества групп r , а именно, этот закон при увеличении n приближается к так называемому распределению «хи-квадрат» .

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:



Понравилась статья? Поделитесь с друзьями!