Критерием согласия является. Критерий согласия пирсона

Статистические гипотезы. Критерии согласия.

Нулевой (основной) называют выдвинутую гипотезу о виде неизвестного распределения, или о параметрах известных распределений. Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.

Например, если нулевая гипотеза состоит в предположении, что случайная величина X распределена по закону , то конкурирующая гипотеза может состоять в предположении, что случайная величина Х распределена по другому закону.

Статистическим критерием (или просто критерием ) называют некоторую случайную величину К , которая служит для проверки нулевой гипотезы.

После выбора определенного критерия, например критерия , множество всех его возможных значений разбивают на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза отвергается, а другое - при которых она принимается.

Критической областью называют совокупность значений критерия, при которых нулевую гипотезу отвергают. Областью принятия гипотезы называют совокупность значений критерия, при которых гипотезу принимают. Критическими точками называют точки, отделяющие критическую область от области принятия нулевой гипотезы.

Для нашего примера, при значении , вычисленное по выборке значение соответствует области принятия гипотезы: случайная величина распределена по закону . Если же вычисленное значение , то оно попадает в критическую область, то есть гипотеза о распределении случайной величины по закону отвергается.

В случае распределения критическая область определяется неравенством , область принятия нулевой гипотезы – неравенством .

2.6.3. Критерий согласия Пирсона.

Одна из задач зоотехнии и ветеринарной генетики – выведение новых пород и видов с требуемыми признаками. Например, повышение иммунитета, резистентность к болезням или изменение окраски мехового покрова.

На практике, при анализе результатов, очень часто оказывается, что фактические результаты в большей или меньшей степени соответствуют некоторому теоретическому закону распределения. Возникает необходимость оценить степень соответствия фактических (эмпирических) данных и теоретических (гипотетических). Для этого выдвигают нулевую гипотезу : полученная совокупность распределена по закону «А». Проверка гипотезы о предполагаемом законе распределения производится при помощи специально подобранной случайной величины – критерия согласия.

Критерием согласия называют критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Имеется несколько критериев согласия: Пирсона, Колмогорова, Смирнова и д.р. Критерий согласия Пирсона используется наиболее часто.

Рассмотрим применение критерия Пирсона на примере проверки гипотезы о нормальном законе распределения генеральной совокупности. С этой целью будем сравнивать эмпирические и теоретические (вычисленные в продолжении нормального распределения) частоты.

Обычно между теоретическими и эмпирическими частотами есть некоторое различие. Например :

Эмпирические частоты 7 15 41 93 113 84 25 13 5

Теоретические частоты 5 13 36 89 114 91 29 14 6

Рассмотрим два случая:

Расхождение теоретических и эмпирических частот случайно (незначимо), т.е. можно сделать предложение о распределении эмпирических частот по нормальному закону;

Расхождение теоретических и эмпирических частот неслучайно (значимо), т.е. теоретические частоты вычислены, исходя из неверной гипотезы о нормальном распределении генеральной совокупности.

С помощью критерия согласия Пирсона можно определить случайно или нет расхождение теоретических и эмпирических частот, т.е. с заданной доверительной вероятностью определить, распределена генеральная совокупность по нормальному закону или нет.

Итак, пусть по выборке объема n получено эмпирическое распределение:

Варианты ……

Эмпирические частоты …….

Допустим, что в предположении нормального распределения вычислены теоретические частоты . При уровне значимости требуется проверить нулевую гипотезу : генеральная совокупность распределена нормально.

В качестве критерия проверки нулевой гипотезы примем случайную величину

(*)

Эта величина случайная, так как в различных опытах она принимает различные, заранее неизвестные значения. Ясно, что чем меньше различаются эмпирические и теоретические частоты, тем меньше величина критерия и, следовательно, он в известной степени характеризует близость эмпирического и теоретического распределений.

Доказано, что при закон распределения случайной величины (*), независимо от того, какому закону распределения подчинена генеральная совокупность, стремится к закону распределения с степенями свободы. Поэтому, случайная величина (*) обозначается через , а сам критерий называют критерий согласия «хи-квадрат».

Обозначим значение критерия, вычисленное по данным наблюдений, через . Табулированные критические значения критерия для данного уровня значимости и числа степеней свободы обозначают . При этом число степеней свободы определяют из равенства , где число групп (частичных интервалов) выборки или классов; - число параметров предполагаемого распределения. У нормального распределения два параметра – математическое ожидание и среднее квадратическое отклонение. Поэтому число степеней свободы для нормального распределения находят из равенства

Если для вычисленного значения и табличного значения выполняется неравенство , принимается нулевая гипотеза о нормальном распределении генеральной совокупности. Если же , нулевую гипотезу отвергают и принимают гипотезу, альтернативную ей (генеральная совокупность не распределена по нормальному закону).

Замечание. При использовании критерия согласия Пирсона объем выборки должен быть не менее 30. Каждая группа должна содержать не менее 5 вариант. Если же в группах окажется менее 5 частот, их объединяют с соседними группами.

В общем случае число степеней свободы для распределения хи-квадрат определяется как общее число величин, по которым вычисляют соответствующие показатели, минус число тех условий, которые связывают эти величины, т.е. уменьшают возможность вариации между ними. В простейших случаях при вычислении число степеней свободы будет равно числу классов, уменьшенному на единицу. Так, например, при дигибридном, расщеплении получают 4 класса, но не связанным получается лишь первый класс, последующие уже связаны с предыдущими. Поэтому для дигибридного расщепления число степеней свободы .



Пример 1. Определить степень соответствия фактического распределения групп по количеству больных туберкулезом коров с теоретически ожидаемым, которое было вычислено при рассмотрении нормального распределения. Исходные данные сведены в таблицу:

Решение.

По уровню значимости и числу степеней свободы из таблицы критических точек распределения (см. приложение 4) находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами носит случайный характер. Таким образом, фактическое распределение групп по количеству больных туберкулезом коров соответствует теоретически ожидаемому.

Пример 2. Теоретическое распределение по фенотипу особей, полученных во втором поколении при дигибридном скрещивании кроликов по закону Менделя составляет 9: 3: 3: 1. Требуется вычислить соответствие эмпирического распределения кроликов от скрещивания черных особей с нормальной шерстью с пуховыми животными – альбиносами. При скрещивании во втором поколении было получено 120 потомков, в том числе – 45 черных с короткой шерстью, 30 черных пуховых, 25 белых с короткой шерстью, 20 белых пуховых кроликов.

Решение. Теоретически ожидаемое расщепление в потомстве должно соответствовать соотношению четырех фенотипов (9: 3: 3: 1). Рассчитаем теоретические частоты (количество голов) для каждого класса:

9+3+3+1=16, значит можно ожидать, что черных короткошерстных будет ; черных пуховых - ; белых короткошерстных - ; белых пуховых - .

Эмпирическое (фактическое) распределение по фенотипам было следующим 45; 30; 25; 20.

Сведем все эти данные в следующую таблицу:

Используя критерий согласия Пирсона вычислим значение :

Число степеней свободы при дигибридном скрещивании . Для уровня значимости находим значение . Поскольку , можно сделать вывод, что различие между теоретическими и фактическими частотами является неслучайным. Следовательно, полученная группа кроликов отклоняется по распределению фенотипов от закона Менделя при дигибридном скрещивании и отражает влияние неких факторов, изменяющих тип расщепления по фенотипу у второго поколения помесей.

Критерий согласия хи- квадрат Пирсона можно использовать и для сравнения друг с другом двух однородных эмпирических распределений, т.е. таких, у которых одни и те же границы классов. В качестве нулевой гипотезы принимается гипотеза о равенстве двух неизвестных функций распределения. Критерий хи-квадрат в таких случаях определяется по формуле

(**)

где и - объемы сравниваемых распределений; и - частоты соответствующих классов.

Рассмотрим сравнение двух эмпирических распределений на следующем примере.

Пример 3. Проводился промер длины яиц кукушек по двум территориальным зонам. В первой зоне была обследована выборка из 76 яиц (), во второй из 54 (). Получены следующие результаты:

Длина (мм)
Частоты
Частоты - - -

При уровне значимости требуется проверить нулевую гипотезу, что обе выборки яиц принадлежат одной популяции кукушек.

Опр Критерий проверки гипотезы о предполагаемом законе неизвестного распределения называется критерием согласия.

Имеется несколько критериев согласия: $\chi ^2$ { хи-квадрат } К. Пирсона, Колмогорова, Смирнова и др.

Обычно теоретические и эмпирические частоты различаются. Случай расхождения может быть не случайным, значит и объясняется тем, что не верно выбрана гипотеза. Критерий Пирсона отвечает на поставленный вопрос, но как любой критерий он ничего не доказывает, а лишь устанавливает на принятом уровне значимости её согласие или несогласие с данными наблюдений.

Опр Достаточно малую вероятность, при которой событие можно считать практически невозможным называют уровнем значимости.

На практике обычно принимают уровни значимости, заключённые между 0,01 и 0,05, $\alpha =0,05$ - это $5 { \% } $ уровень значимости.

В качестве критерия проверки гипотезы примем величину \begin{equation} \label { eq1 } \chi ^2=\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } \qquad (1) \end{equation}

здесь $n_i -$ эмпирические частоты, полученные из выборки, $n_i" -$ теоретические частоты, найденные теоретическим путём.

Доказано, что при $n\to \infty $ закон распределения случайной величины { 1 } независимо от того, по какому закону распределена генеральная совокупность, стремится к закону $\chi ^2$ { хи-квадрат } с $k$ степенями свободы.

Опр Число степеней свободы находят по равенству $k=S-1-r$ где $S-$ число групп интервалов, $r-$ число параметров.

1) равномерное распределение: $r=2, k=S-3 $

2) нормальное распределение: $r=2, k=S-3 $

3) показательное распределение: $r=1, k=S-2$.

Правило . Проверка гипотезы по критерию Пирсона.

  1. Для проверки гипотезы вычисляют теоретические частоты и находят $\chi _ { набл } ^2 =\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $
  2. По таблице критических точек распределения $\chi ^2$ по заданному уровню значимости $\alpha $ и числу степеней свободы $k$ находят $\chi _ { кр } ^2 ({ \alpha ,k })$.
  3. Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 $ то нет оснований отвергать гипотезу, если не выполняется данное условие - то отвергают.

Замечание Для контроля вычислений применяют формулу для $\chi ^2$ в виде $\chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } $

Проверка гипотезы о равномерном распределении

Функция плотности равномерного распределения величины $X$ имеет вид $f(x)=\frac { 1 } { b-a } x\in \left[ { a,b }\right]$.

Для того, чтобы при уровне значимости $\alpha $ проверить гипотезу о том, что непрерывная случайная величина распределена по равномерному закону, требуется:

1) Найти по заданному эмпирическому распределению выборочное среднее $\overline { x_b } $ и $\sigma _b =\sqrt { D_b } $. Принять в качестве оценки параметров $a$ и $b$ величины

$a = \overline x _b -\sqrt 3 \sigma _b $, $b = \overline x _b +\sqrt 3 \sigma _b $

2) Найти вероятность попадания случайной величины $X$ в частичные интервалы $({ x_i ,x_ { i+1 } })$ по формуле $ P_i =P({ x_i

3) Найти теоретические { выравнивающие } частоты по формуле $n_i" =np_i $.

4) Приняв число степеней свободы $k=S-3$ и уровень значимости $\alpha =0,05$ по таблицам $\chi ^2$ найдём $\chi _ { кр } ^2 $ по заданным $\alpha $ и $k$, $\chi _ { кр } ^2 ({ \alpha ,k })$.

5) По формуле $\chi _ { набл } ^2 =\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ где $n_i -$ эмпирические частоты, находим наблюдаемое значение $\chi _ { набл } ^2 $.

6) Если $\chi _ { набл } ^2 <\chi _ { кр } ^2 -$ нет оснований, отвергать гипотезу.

Проверим гипотезу на нашем примере.

1) $\overline x _b =13,00\,\,\sigma _b =\sqrt { D_b } = 6,51$

2) $a=13,00-\sqrt 3 \cdot 6,51=13,00-1,732\cdot 6,51=1,72468$

$b=13,00+1,732\cdot 6,51=24,27532$

$b-a=24,27532-1,72468=22,55064$

3) $P_i =P({ x_i

$ P_2 =({ 3

$ P_3 =({ 7

$ P_4 =({ 11

$ P_5 =({ 15

$ P_6 =({ 19

В равномерном распределении если одинакова длина интервала, то $P_i -$ одинаковы.

4) Найдём $n_i" =np_i $.

5) Найдём $\sum { \frac { ({ n_i -n_i" })^2 } { n_i" } } $ и найдём $\chi _ { набл } ^2 $.

Занесём все полученные значения в таблицу

\begin{array} { |l|l|l|l|l|l|l| } \hline i& n_i & n_i" =np_i & n_i -n_i" & ({ n_i -n_i" })^2& \frac { ({ n_i -n_i" })^2 } { n_i" } & Контроль~ \frac { n_i^2 } { n_i" } \\ \hline 1& 1& 4,43438& -3.43438& 11,7950& 2,659898& 0,22551 \\ \hline 2& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 3& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 4& 3& 4,43438& -1,43438& 2,05744& 0,471463& 2,0296 \\ \hline 5& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline 6& 6& 4,43438& 1,56562& 2,45117& 0,552765& 8,11838 \\ \hline & & & & & \sum = \chi _ { набл } ^2 =3,261119& \chi _ { набл } ^2 =\sum { \frac { n_i^2 } { n_i" } -n } =3,63985 \\ \hline \end{array}

$\chi _ { кр } ^2 ({ 0,05,3 })=7,8$

$\chi _ { набл } ^2 <\chi _ { кр } ^2 =3,26<7,8$

Вывод отвергать гипотезу нет оснований.

ЦЕЛЬ РАБОТЫ

Целью данной лабораторной работы является:

· построение по результатам эксперимента законов распределения случайной величины разброса параметров непроволочных резисторов;

· проверка гипотезы о нормальном законе рас­преде­ления отклонений параметров элементов;

· экспериментальное исследование изменения па­ра­метров непроволочных резисторов при воз­действии темпе­ратуры.

ПРОДОЛЖИТЕЛЬНОСТЬ РАБОТЫ

Лабораторная работа выполняется в течение 4-ча­сового занятия, включая 1 час на коллоквиум для оценки знаний студентов по теоретической части.

ТЕОРЕТИЧЕСКАЯ ЧАСТЬ

Радиоэлектронные средства постоянно находятся под воздействием внешних и внутренних возмущающих слу­чайных факторов, под влиянием которых изменя­ются па­раметры элементов устройства. Изменение па­раметров элементов (резисторов, конденсаторов, полу­проводнико­вых приборов, интегральных схем и др.) связано с различ­ными физическими процессами, проис­ходящими в мате­риалах за счёт внешних воздействий и старения. Кроме того, параметры элементов РЭС имеют производственный разброс, который является результа­том воздействия случайных факторов при их изготовлении. Спроектированная из таких элементов аппаратура реаги­рует на все разбросы изменением своих выходных пара­метров. Для прогнозирования надежности РЭС возни­кает необходимость установления законов распределения случайной величины разброса параметров элементов, обус­ловленных их производством и возмущающими внеш­ними условиями (в частности, температурой окружаю­щей среды).

В лабораторной работе с помощью критериев согласия (Пирсона или Колмогорова) проверяется гипотеза о нормальном законе распределения случайной величины Х – разброса параметров элементов.

КРИТЕРИИ СОГЛАСИЯ, ПРИМЕНЯЕМЫЕ ДЛЯ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Критерии согласия позволяют оценить вероятность предположения о том, что полученная из эксперимента выборка не противоречит априорно выбранному закону распределения рассматриваемой случайной величины. Решение этой задачи основано на использовании фундаментального положения математической статистики, согласно которому эмпирическая (статистическая) функция распределения сходится по вероятности к априорной (сравниваемой теоретической) функции распределения, когда размер выборки неограниченно возрастает, если только выборка принадлежит рассматриваемому априорному распределению . При конечном значении выборки эмпирическая и априорная функции распределения будут, вообще говоря, отличаться друг от друга. Поэтому для выборки х 1 , х 2 ,… х n случайной величины Х вводится некоторая числовая мера расхождения (критерий согласия) () эмпирической функции распределения

, l =1, 2, …, n , (1)

где

= х 1 , х 2 ,… х n – выборка экспериментальных данных

и априорной – функции распределения.

Правило проверки гипотезы о согласии априорного и эмпирического распределения формулируется следующим образом: если

то гипотеза о том, что априорное распределение, которому принадлежит выборка х 1 , х 2 ,…,х n равна F (х ) должна быть отвергнута. Для определения порогового значения величины С устанавливается некоторая допустимая вероятность a отклонения гипотезы о том, что выборка принадлежит распределению F . Вероятность a называют уровнем значимости критерия согласия. Тогда

т.е. С – пороговое значение критерия равно a-процентной точке функции распределения меры расхождения .

Событие , может произойти и при справедливости выдвинутой гипотезы о законе распределения. Однако если a достаточно мало, то возможностью появления таких ситуаций практически можно пренебречь. Часто задаваемыми значениями a являются a = 0.05 и a = 0.01.

Если закон распределения меры расхождения () не зависит от F , то правило отклонения гипотезы о согласии и F

(4)

не зависит от априорного распределения. Такие критерии называются непараметрическими (см. п. 3.1.2).

Проверку гипотезы о характере распределения с помощью критерия согласия можно вести и в другой последовательности: по полученному значению необходимо определить вероятность a n = Р { n }. Если полученное значение a n < a , то отклонения значимые; если a n ³ a, то отклонения не значимые. Значения a n , весьма близкие к 1 (очень хорошее согласие), могут указывать на недоброкачественность выборки (например, из первоначальной выборки без основания выброшены элементы, дающие большие отклонения от среднего).

Используемые в статистике критерии согласия отличаются друг от друга различными мерами расхождения статистического и теоретического законов распределения (). Некоторые из них рассмотрены ниже.

3.1.1. Критерий согласия c 2

При использовании критерия согласия c 2 (критерий Пирсона) меру расхождения между эмпирическим и априорным распределениями определяют следующим образом.

Область возможных значений, на которой определена F (x ) - априорная функция распределения разбивается на конечное число непересекающихся интервалов – , i = 1, 2,…, L .

Введем обозначение: – априорная вероятность попадания выборочного значения в интервал .

Очевидно, что . Пусть элементов наблюдаемой выборки х 1 , х 2 ,…, х n принадлежат интервалу .

Ясно, что .

Примем в качестве меры расхождения эмпирического и априорного распределений величину

, (5)

где - экспериментальное число попадания значений случайной величины x в интервал,

L – число интервалов, на которые разбиты все опытные значения величины x ,

n – объем выборки,

p i – вероятность попадания случайной величины x в -й интервал, вычисленная для теоретического закона распределения (произведение определяет число попаданий в - интервал для теоретического закона).

Как доказал Пирсон, при n ® ¥ закон распределения величины (5) стремится к - распределению с S = L - 1 степенями свободы, если только верна гипотеза о распределении .

Если проверяется сложная гипотеза о том, что выборка принадлежит распределению , где неизвестный параметр (скалярный или векторный) распределения , то из эксперимента (по полученной выборке) определяется оценка неизвестного параметра – . При этом S - число степеней свободы c 2 - распределения равно L – r – 1 , где r – количество оцениваемых параметров распределения. .

Правило проверки гипотезы о принадлежности выборки распределению может быть сформулировано следующим образом: при достаточно большом n ( n > 50)и для заданного уровня значимости a гипотеза отклоняется, если

где - a - процентная точка - распределения с степенями свободы.

Критерий Колмогорова

Примем в качестве меры расхождения априорного и эмпирического распределения статистику

().= , (7)

где – верхняя граница модуля разности для всех полученных значений х .

Распределение этой статистики (случайной величины) при любом n не зависит от

Если только выборка х 1 , х 2 ,… х n по которой построена принадлежит и эта последняя – непрерывная функция. Однако точное выражение для функции распределения при конечном значении n очень громоздко. А.Н. Колмогоров нашел достаточно простое асимптотическое выражение (при ) для функций :

, z > 0. (8) Таким образом, для больших размеров выборки (при n > 50), используя (8) , получаем

Теоретические и эмпирические частоты. Проверка на нормальность распределения

При анализе вариационных рядов распределения большое значение имеет, насколько эмпирическое распределение признака соответствует нормальному . Для этого частоты фактического распределения нужно сравнить с теоретическими, которые характерны для нормального распределения. Значит, нужно по фактическим данным вычислить теоретические частоты кривой нормального распределения, являющиеся функцией нормированных отклонений.

Иначе говоря, эмпирическую кривую распределения нужно выровнять кривой нормального распределения.

Объективная характеристика соответствия теоретических и эмпирических частот может быть получена при помощи специальных статистических показателей, которые называют критериями согласия .

Критерием согласия называют критерий, который позволяет установить, является ли расхождение эмпирического и теоретического распределений случайным или значимым, т. е. согласуются ли данные наблюдений с выдвинутой статистической гипотезой или не согласуются. Распределение генеральной совокупности, которое она имеет в силу выдвинутой гипотезы, называют теоретическим.

Возникает необходимость установить критерий (правило), которое позволяло бы судить, является ли расхождение между эмпирическим и теоретическим распределениями случайным или значимым. Если расхождение окажется случайным , то считают, что данные наблюдений (выборки) согласуются с выдвинутой гипотезой о законе распределения генеральной совокупности и, следовательно, гипотезу принимают; если же расхождение окажется значимым , то данные наблюдений не согласуются с гипотезой и ее отвергают.

Обычно эмпирические и теоретические частоты различаются в силу того, что:

    расхождение случайно и связано с ограниченным количеством наблюдений;

    расхождение неслучайно и объясняется тем, что статистическая гипотеза о том, что генеральная совокупность распределена нормально - ошибочна.

Таким образом, критерии согласия позволяют отвергнуть или подтвердить правильность выдвинутой при выравнивании ряда гипотезы о характере распределения в эмпирическом ряду.

Эмпирические частоты получают в результате наблюдения. Теоретические частоты рассчитывают по формулам.

Для закона нормального распределения их можно найти следующим образом:

    Σƒ i- сумма накопленных (кумулятивных) эмпирических частот

    h - разность между двумя соседними вариантами

    σ - выборочное среднеквадратическое отклонение

    t–нормированное (стандартизированное) отклонение

    φ(t)–функция плотности вероятности нормального распределения (находят по таблице значений локальной функции Лапласа для соответствующего значения t)

Имеется несколько критериев согласия, наиболее распространенными из которых являются: критерий хи-квадрат (Пирсона), критерий Колмогорова, критерий Романовского.

Критерий согласия Пирсона χ 2 – один из основных, который можно представить как сумму отношений квадратов расхождений между теоретическими (f Т) и эмпирическими (f) частотами к теоретическим частотам:

    k–число групп, на которые разбито эмпирическое распределение,

    f i –наблюдаемая частота признака в i-й группе,

    f T –теоретическая частота.

Для распределения χ 2 составлены таблицы, где указано критическое значение критерия согласия χ 2 для выбранного уровня значимости α и степеней свободы df (или ν). Уровень значимости α – вероятность ошибочного отклонения выдвинутой гипотезы, т.е. вероятность того, что будет отвергнута правильная гипотеза. Р - статистическая достоверность принятия верной гипотезы. В статистике чаще всего пользуются тремя уровнями значимости:

α=0,10, тогда Р=0,90 (в 10 случаях из 100)

α=0,05, тогда Р=0,95 (в 5 случаях из 100)

α=0,01, тогда Р=0,99 (в 1 случае из 100) может быть отвергнута правильная гипотеза

Число степеней свободы df определяется как число групп в ряду распределения минус число связей: df = k –z. Под числом связей понимается число показателей эмпирического ряда, использованных при вычислении теоретических частот, т.е. показателей, связывающих эмпирические и теоретические частоты. Например, при выравнивании по кривой нормального распределения имеется три связи. Поэтому при выравнивании по кривой нормального распределения число степеней свободы определяется как df =k–3. Для оценки существенности, расчетное значение сравнивается с табличным χ 2 табл

При полном совпадении теоретического и эмпирического распределений χ 2 =0, в противном случае χ 2 >0. Если χ 2 расч > χ 2 табл, то при заданном уровне значимости и числе степеней свободы гипотезу о несущественности (случайности) расхождений отклоняем. В случае, если χ 2 расч < χ 2 табл то гипотезу принимаем и с вероятностью Р=(1-α) можно утверждать, что расхождение между теоретическими и эмпирическими частотами случайно. Следовательно, есть основания утверждать, что эмпирическое распределение подчиняется нормальному распределению . Критерий согласия Пирсона используется, если объем совокупности достаточно велик (N>50), при этом, частота каждой группы должна быть не менее 5.

Критерий согласия Колмогорова основан на определении максимального расхождения между накопленными эмпирическими и теоретическими частотами:

где D и d – соответственно, максимальная разность между накопленными частотами и накопленными частостями эмпирического и теоретического распределений. По таблице распределения статистики Колмогорова определяют вероятность, которая может изменяться от 0 до 1. При Р(λ)=1- происходит полное совпадение частот, Р(λ)=0 – полное расхождение. Если величина вероятности Р значительна по отношению к найденной величине λ, то можно предположить, что расхождения между теоретическим и эмпирическим распределениями несущественны, т. е. носят случайный характер. Основное условие использования критерия Колмогорова – достаточно большое число наблюдений.

Критерий согласия Колмогорова

Рассмотрим как критерий Колмогорова (λ) применяется при проверке гипотезы о нормальном распределении генеральной совокупности. Выравнивание фактического распределения по кривой нормального распределения состоит из нескольких этапов:

    Сравнивают фактические и теоретические частоты.

    По фактическим данным определяют теоретические частоты кривой нормального распределения, которая является функцией нормированного отклонения.

    Проверяют на сколько распределение признака соответствует нормальному.

Для IV колонки таблицы:

В MS Excel нормированное отклонение (t) рассчитывается с помощью функции НОРМАЛИЗАЦИЯ. Необходимо выделить диапазон свободных ячеек по количеству вариант (строк электронной таблицы). Не снимая выделения, вызвать функцию НОРМАЛИЗАЦИЯ. В появившемся диалоговом окне указать следующие ячейки, в которых размещены, соответственно, наблюдаемые значения (X i), средняя (X) и среднеквадратическое отклонение Ϭ. Операцию обязательно завершить одновременным нажатием клавиш Ctrl+Shift+Enter

Для V колонки таблицы:

Функцию плотности вероятности нормального распределения φ(t) находим по таблице значений локальной функции Лапласа для соответствующего значения нормированного отклонения (t)

Для VI колонки таблицы:

Критерий согласия Колмогорова (λ) определяется путем деления модуля max разности между эмпирическими и теоретическими кумулятивными частотами на корень квадратный из числа наблюдений:

По специальной таблице вероятности для критерия согласия λ определяем, что значению λ=0,59 соответствует вероятность 0,88 (λ

Распределение эмпирических и теоретических частот, плотности вероятности теоретического распределения

Применяя критерии согласия для проверки соответствия наблюдаемого (эмпирического) распределения теоретическому, следует различать проверку простых и сложных гипотез.

Одновыборочный критерий нормальности Колмогорова-Смирнова основан на максимуме разности между кумулятивным эмпирическим распределением выборки и предполагаемым (теоретическим) кумулятивным распределением. Если D статистика Колмогорова-Смирнова значима, то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.

Проверяемую гипотезу обычно называют нулевой H 0 , правило, по которому гипотеза принимается или отвергается называется статистическим критерием.. Статистические критерии, служащие для проверки гипотез о виде законов распределения называются критериями согласия. Т.е. критерии согласия устанавливают, когда полученные в действительности расхождения между предполагаемыми теоретическим и опытным распределением:несущественно - случайные и когда существенно - неслучайные.

Рассмотрим случайную величину, которая характеризует вид или функцию расхождения между предполагаемым теоретическим и опытным распределением признака, тогда по имеющемуся опытному распределению, можно определить значение a , которое приняла случайная величина, если известен ее закон распределения, то не трудно найти вероятность того, что случайная величина примет значение не меньшее a . Если величина a получена как результат наблюдения случайной величины x , т.е. при распределении рассматриваемого признака, по предполагаемому теоретическому закону, то вероятность не должна быть малой. Если же вероятность оказалась малой, то это объясняется тем, что фактически полученному значение не случайной величины x , а какой-то другой с другим законом распределения, т.е. изучаемый признак распределен не по предполагаемому закону. Таким образом, в случае, когда не мала -расхождения между эмпирическими и теоретическими распределениями следует признать не существенным- случайным, а опытное и теоретическое распределение не противоречащими, т.е. согласующимися друг с другом.

Если вероятность мала, то расхождения между опытным и теоретическим распределениями существенны, объяснить их случайностью нельзя, а гипотезу о распределении признака по предполагаемому теоретическому закону следует считать не подтвердившейся, она не согласуется с опытными данными. Необходимо тщательно изучив опытные данные попытаться найти новый закон о качестве предполагаемого признака, который лучше, полнее бы отражал особенности опытного распределения, такие вероятности считаются малыми и их берут не превосходящими 0,1.

Критерии согласия Пирсона или критерии c 2 .

Пусть анализ опытных данных привел к выбору некоторого закона распределения, в качестве предполагаемого для рассматриваемого признака, а по опытным данным в результате n-наблюдений, найдены параметры (если они не были известны раннее). Обозначим через n i - эмпирические частоты случайной величины x.

n×P i -теоретические частоты, представляющие произведение числа наблюдений n на вероятности P i - рассчитанные по предполагаемому теоретическому распределению. Критерии согласия c 2 за меру расхождения теоретического и эмпирического рядов частот принимают величину


;

c 2 -величина, которую называют c 2 распределение или распределение Пирсона. Она равна 0 лишь при совпадении всех эмпирических и теоретических частот, в остальных случаях отлична от 0 и тем больше, чем больше расхождение между указанными частотами. Доказано, что выбранная характеристика c 2 или статистика при n®¥ имеет распределение Пирсона со степенями свободы

k=m-s- 1.

где m -число интервалов эмпирического распределения вариационного ряда или число групп.

s -число параметров теоретического распределения, определяемых по опытным данным, (например в случае нормального распределения число оцениваемых по выборке параметров равно 2).

Схема применения критерия сводится к следующему:

1. По опытным данным выбирают в качестве предполагаемого закон распределения признака и находят его параметры.

2. С помощью полученного распределения определяют теоретические частоты, соответствующие опытным частотам.

3. Малочисленные опытные частоты, если они есть, объединяют с соседними, затем по формуле определяют величину c 2 .

4. Определяют число степеней свободы k .

5. Из таблиц приложения для выбранного уровня значимости a находят критическое значение при числе степеней свободы равным k .

6. Формулируем вывод, руководствуясь общим принципом применения критериев согласия, а именно если вероятность >0,01, то имеющиеся расхождения между теоретическими и опытными частотами признаются не существенными.

Если фактически наблюдаемое значение больше критического, то H 0 отвергается, если то гипотеза не противоречит опытным данным. Критерий c 2 дает удовлетворительные результаты, если в каждом группировочном интервале достаточное число наблюдений n i .

Замечание: Если в каком-нибудь интервале число наблюдений <5, то имеет смысл объединить соседние интервалы с тем, чтобы в объединенных интервалах n i было не меньше 5. При этом при вычислении числа степеней свободы k в качестве m -берется соответственно уменьшенное число интервалов.

Получено следующее распределение 100 рабочих цеха по выработке в отчетном году

(в %-тах к предыдущему году).



Понравилась статья? Поделитесь с друзьями!