Дисперсионный анализ позволяет оценить. Дисперсионный анализ

Для чего применяется дисперсионный анализ? Цель дисперсионного анализа - исследование наличия или отсутствия существенного влияния какого-либо качественного или количественного фактора на изменения исследуемого результативного признака. Для этого фактор, предположительно имеющий или не имеющий существенного влияния, разделяют на классы градации (говоря иначе, группы) и выясняют, одинаково ли влияние фактора путём исследования значимости между средними в наборах данных, соответствующих градациям фактора. Примеры: исследуется зависимость прибыли предприятия от типа используемого сырья (тогда классы градации - типы сырья), зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия (тогда классы градации - характеристики величины подразделения: большой, средний, малый).

Минимальное число классов градации (групп) - два. Классы градации могут быть качественными либо количественными.

Почему дисперсионный анализ называется дисперсионным? При дисперсионном анализе исследуется отношение двух дисперсий. Дисперсия, как мы знаем - характеристика рассеивания данных вокруг среднего значения. Первая - дисперсия, объяснённая влиянием фактора, которая характеризует рассеивание значений между градациями фактора (группами) вокруг средней всех данных. Вторая - необъяснённая дисперсия, которая характеризует рассеивание данных внутри градаций (групп) вокруг средних значений самих групп. Первую дисперсию можно назвать межгрупповой, а вторую - внутригрупповой. Отношение этих дисперсий называется фактическим отношением Фишера и сравнивается с критическим значением отношения Фишера. Если фактическое отношение Фишера больше критического, то средние классов градации отличаются друг от друга и исследуемый фактор существенно влияет на изменение данных. Если меньше, то средние классов градации не отличаются друг от друга и фактор не имеет существенного влияния.

Как формулируются, принимаются и отвергаются гипотезы при дисперсионном анализе? При дисперсионном анализе определяют удельный вес суммарного воздействия одного или нескольких факторов. Существенность влияния фактора определяется путём проверки гипотез:

  • H 0 : μ 1 = μ 2 = ... = μ a , где a - число классов градации - все классы градации имеют одно значение средних,
  • H 1 : не все μ i равны - не все классы градации имеют одно значение средних.

Если влияние фактора не существенно, то несущественна и разница между классами градации этого фактора и в ходе дисперсионного анализа нулевая гипотеза H 0 не отвергается. Если влияние фактора существенно, то нулевая гипотеза H 0 отвергается: не все классы градации имеют одно и то же среднее значение, то есть среди возможных разниц между классами градации одна или несколько являются существенными.

Ещё некоторые понятия дисперсионного анализа. Статистическим комплексом в дисперсионном анализе называется таблица эмпирических данных. Если во всех классах градаций одинаковое число вариантов, то статистический комплекс называется однородным (гомогенным), если число вариантов разное - разнородным (гетерогенным).

В зависимости от числа оцениваемых факторов различают однофакторный, двухфакторый и многофакторный дисперсионный анализ.

Однофакторный дисперсионный анализ: суть метода, формулы, примеры

Суть метода, формулы

основан на том, что сумму квадратов отклонений статистического комплекса возможно разделить на компоненты:

SS = SS a + SS e ,

SS

SS a a сумма квадратов отклонений,

SS e - необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки.

Если через n i обозначить число вариантов в каждом классе градации (группе) и a - общее число градаций фактора (групп), то - общее число наблюдений и можно получить следующие формулы:

общее число квадратов отклонений: ,

объяснённая влиянием фактора a сумма квадратов отклонений: ,

необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки: ,

- общее среднее наблюдений,

(группе).

Кроме того,

где - дисперсия градации фактора (группы).

Чтобы провести однофакторный дисперсионный анализ данных статистического комплекса, нужно найти фактическое отношение Фишера - отношение дисперсии, объяснённой влиянием фактора (межрупповой), и необъяснённой дисперсии (внутригрупповой):

и сравнить его с критическим значением Фишера .

Дисперсии рассчитываются следующим образом:

Объяснённая дисперсия,

Необъяснённая дисперсия,

v a = a − 1 - число степеней свободы объяснённой дисперсии,

v e = n a - число степеней свободы необъяснённой дисперсии,

v = n

Критическое значение отношения Фишера с определёнными значениями уровня значимости и степеней свободы можно найти в статистических таблицах или рассчитать с помощью функции MS Excel F.ОБР (рисунок ниже, для его увеличения щёлкнуть по нему левой кнопкой мыши).


Функция требует ввести следующие данные:

Вероятность - уровень значимости α ,

Степени_свободы1 - число степеней свободы объяснённой дисперсии v a ,

Степени_свободы2 - число степеней свободы необъяснённой дисперсии v e .

Если фактическое значение отношения Фишера больше критического (), то нулевая гипотеза отклоняется с уровнем значимости α . Это означает, что фактор существенно влияет на изменение данных и данные зависимы от фактора с вероятностью P = 1 − α .

Если фактическое значение отношения Фишера меньше критического (), то нулевая гипотеза не может быть отклонена с уровнем значимости α . Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α .

Однофакторный дисперсионный анализ: примеры

Пример 1. Требуется выяснить, влияет ли тип используемого сырья на прибыль предприятия. В шести классах градации (группах) фактора (1-й тип, 2-й тип и т.д.) собраны данные о прибыли от производства 1000 единиц продукции в миллионах рублей в течении 4 лет.

Тип сырья 2014 2015 2016 2017
1-й 7,21 7,55 7,29 7,6
2-й 7,89 8,27 7,39 8,18
3-й 7,25 7,01 7,37 7,53
4-й 7,75 7,41 7,27 7,42
5-й 7,7 8,28 8,55 8,6
6-й 7,56 8,05 8,07 7,84
Среднее
Дисперсия
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

a = 6 и в каждом классе (группе) n i = 4 наблюдения. Общее число наблюдений n = 24 .

Числа степеней свободы:

v a = a − 1 = 6 − 1 = 5 ,

v e = n a = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

Вычислим дисперсии:

.

.

Так как фактическое отношение Фишера больше критического:

с уровнем значимости α = 0,05 делаем вывод, что прибыль предприятия в зависимости от вида сырья, использованного в производстве, существенно отличается.

Или, что то же самое, отвергаем основную гипотезу о равенстве средних во всех классах градации фактора (группах).

В только что рассмотренном примере в каждом классе градации фактора было одинаковое число вариантов. Но, как говорилось во вступительной части, число вариантов может быть и разным. И это ни в коей мере не усложняет процедуру дисперсионного анализа. Таков следующий пример.

Пример 2. Требуется выяснить, существует ли зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия. Фактор (величина подразделения) делится на три класса градации (группы): малые, средние, большие. Обобщены соответствующие этим группам данные о себестоимости выпуска единицы одного и того же вида продукции за некоторый период.

малый средний большой
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Среднее 58,6 54,0 51,0
Дисперсия 128,25 65,00 107,60

Число классов градации фактора (групп) a = 3 , число наблюдений в классах (группах) n 1 = 4 , n 2 = 7 , n 3 = 6 . Общее число наблюдений n = 17 .

Числа степеней свободы:

v a = a − 1 = 2 ,

v e = n a = 17 − 3 = 14 ,

v = n − 1 = 16 .

Вычислим суммы квадратов отклонений:

Вычислим дисперсии:

,

.

Вычислим фактическое отношение Фишера:

.

Критическое значение отношения Фишера:

Так как фактическое значение отношения Фишера меньше критического: , делаем вывод, что размер подразделения предприятия не оказывает существенного влияния на себестоимость выпуска продукции.

Или, что то же самое, с вероятностью 95% принимаем основную гипотезу о том, что средняя себестоимость выпуска единицы одной и той же продукции в малых, средних и крупных подразделениях предприятия существенно не различается.

Однофакторный дисперсионный анализа в MS Excel

Однофакторный дисперсионный анализ можно провести с помощью процедуры MS Excel Однофакторный дисперсионный анализ . Используем его для анализа данных о связи типа используемого сырья и прибыли предприятия из примера 1.

Сервис/Анализ данных и выбираем средство анализа Однофакторный дисперсионный анализ .

В окошке Входной интервал указываем область данных (в нашем случае это $A$2:$E$7). Указываем, как сгруппирован фактор - по столбцам или по строкам (в нашем случае по строкам). Если первый столбец содержит названия классов фактора, помечаем галочкой окно Метки в первом столбце . В окне Альфа указываем уровень значимости α = 0,05 .

Во второй таблице - Дисперсионный анализ - содержатся данные о величинах для фактора между группами и внутри групп и итоговых. Это сумма квадратов отклонений (SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах - фактическое значение отношения Фишера(F), p-уровень (P-value) и критическое значение отношения Фишера (F crit).

MS F P-value F crit
0,58585 6,891119 0,000936 2,77285
0,085017

Так как фактическое значение отношения Фишера (6,89) больше критического (2,77), с вероятностью 95% отклоняем нулевую гипотезу о равенстве средних производительности при использовании всех типов сырья, то есть делаем вывод о том, что тип используемого сырья влияет на прибыль предприятия.

Двухфакторный дисперсионный анализ без повторений: суть метода, формулы, пример

Двухфакторный дисперсионный анализ применяется для того, чтобы проверить возможную зависимость результативного признака от двух факторов - A и B . Тогда a - число градаций фактора A и b - число градаций фактора B . В статистическом комплексе сумма квадратов остатков разделяется на три компоненты:

SS = SS a + SS b + SS e ,

- общая сумма квадратов отклонений,

- объяснённая влиянием фактора A сумма квадратов отклонений,

- объяснённая влиянием фактора B сумма квадратов отклонений,

- общее среднее наблюдений,

Среднее наблюдений в каждой градации фактора A ,

B .

A ,

Дисперсия, объяснённая влиянием фактора B ,

v a = a − 1 A ,

v b = b − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора B ,

v e = (a − 1)(b − 1)

v = ab − 1 - общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов выдвигаются две нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора A :

H 0 : μ 1A = μ 2A = ... = μ aA ,

H 1 : не все μ iA равны;

для фактора B :

H 0 : μ 1B = μ 2B = ... = μ aB ,

H 1 : не все μ iB равны.

A

Чтобы определить влияние фактора B , нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

α P = 1 − α .

α P = 1 − α .

Двухфакторный дисперсионный анализ без повторений: пример

Пример 3. Дана информация о среднем потреблении топлива на 100 километров в литрах в зависимости от объёма двигателя и вида топлива.

Требуется проверить, зависит ли потребление топлива от объёма двигателя и вида топлива.

Решение. Для фактора A число классов градации a = 3 , для фактора B число классов градации b = 3 .

Вычисляем суммы квадратов отклонений:

,

,

,

.

Соответствующие дисперсии:

,

,

.

A . Так как фактическое отношение Фишера меньше критического, с вероятностью 95% принимаем гипотезу о том, что объём двигателя не влияет на потребление топлива. Однако, если мы выбираем уровень значимости α = 0,1 , то фактическое значение отношения Фишера и тогда с вероятностью 95% можем принять, что объём двигателя влияет на потребление топлива.

Фактическое отношение Фишера для фактора B , критическое значение отношения Фишера: . Так как фактическое отношение Фишера больше критического значения отношения Фишера, с вероятностью 95% принимаем, что вид топлива влияет на его потребление.

Двухфакторный дисперсионный анализ без повторений в MS Excel

Двухфакторный дисперсионный анализ без повторений можно провести с помощью процедуры MS Excel . Используем его для анализа данных о связи типа вида топлива и его потребления из примера 3.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Двухфакторный дисперсионный анализ без повторений .

Заполняем данные также, как и в случае с однофакторным дисперсионным анализом.


В результате действия процедуры выводятся две таблицы. Первая таблица - Итоги. В ней содержатся данные обо всех классах градации фактора: число наблюдений, суммарное значение, среднее значение и дисперсия.

Во второй таблице - Дисперсионный анализ - содержатся данные об источниках вариации: рассеивании между строками, рассеивании между столбцами, рассеивании ошибки, общем рассеивании, сумма квадратов отклонений (SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах - фактическое значение отношения Фишера(F), p-уровень (P-value) и критическое значение отношения Фишера (F crit).

MS F P-value F crit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Фактор A (объём двигателя) сгурппирован в строках. Так как фактическое отношение Фишера 5,28 меньше критического 6,94, с вероятностью 95% принимаем, что потребление топлива не зависит от объёма двигателя.

Фактор B (вид топлива) сгруппирован в столбцах. Фактическое отношение Фишера 13,56 больше критического 6,94, поэтому с вероятностью 95% принимаем, что потребление топлива зависит от его вида.

Двухфакторный дисперсионный анализ с повторениями: суть метода, формулы, пример

Двухфакторный дисперсионный анализ с повторениями применяется для того, чтобы проверить не только возможную зависимость результативного признака от двух факторов - A и B , но и возможное взаимодействие факторов A и B . Тогда a - число градаций фактора A и b - число градаций фактора B , r - число повторений. В статистическом комплексе сумма квадратов остатков разделяется на четыре компоненты:

SS = SS a + SS b + SS ab + SS e ,

- общая сумма квадратов отклонений,

- объяснённая влиянием фактора A сумма квадратов отклонений,

- объяснённая влиянием фактора B сумма квадратов отклонений,

- объяснённая влиянием взаимодействия факторов A и B сумма квадратов отклонений,

- необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки,

- общее среднее наблюдений,

- среднее наблюдений в каждой градации фактора A ,

- среднее число наблюдений в каждой градации фактора B ,

Среднее число наблюдений в каждой комбинации градаций факторов A и B ,

n = abr - общее число наблюдений.

Дисперсии вычисляются следующим образом:

Дисперсия, объяснённая влиянием фактора A ,

Дисперсия, объяснённая влиянием фактора B ,

- дисперсия, объяснённая взаимодействием факторов A и B ,

- необъяснённая дисперсия или дисперсия ошибки,

v a = a − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора A ,

v b = b − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора B ,

v ab = (a − 1)(b − 1) - число степеней свободы дисперсии, объяснённой взаимодействием факторов A и B ,

v e = ab (r − 1) - число степеней свободы необъяснённой дисперсии или дисперсии ошибки,

v = abr − 1 - общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов выдвигаются три нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора A :

H 0 : μ 1A = μ 2A = ... = μ aA ,

H 1 : не все μ iA равны;

для фактора B :

Чтобы определить влияние взаимодействия факторов A и B , нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Если фактическое отношение Фишера больше критического отношения Фишера, то следует отклонить нулевую гипотезу с уровнем значимости α . Это означает, что фактор существенно влияет на данные: данные зависят от фактора с вероятностью P = 1 − α .

Если фактическое отношение Фишера меньше критического отношения Фишера, то следует принять нулевую гипотезу с уровнем значимости α . Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α .

Двухфакторный дисперсионный анализ с повторениями: пример

о взаимодействии факторов A и B : фактическое отношение Фишера меньше критического, следовательно, взаимодействие рекламной кампании и конкретного магазина не существенно.

Двухфакторный дисперсионный анализ с повторениями в MS Excel

Двухфакторный дисперсионный анализ с повторениями можно провести с помощью процедуры MS Excel . Используем его для анализа данных о связи доходов магазина с выбором конкретного магазина и рекламной кампанией из примера 4.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Двухфакторный дисперсионный анализ с повторениями .

Заполняем данные также, как и в случае с двухфакторным дисперсионным анализом без повторений, с тем дополнением, что в окне число строк для выборки нужно ввести число повторений.

В результате действия процедуры выводятся две таблицы. Первая таблица состоит из трёх частей: две первые соответствуют каждой из двух рекламных кампаний, третья содержит данные об обеих рекламных кампаниях. В столбцах таблицы содержится информация обо всех классах градации второго фактора - магазина: число наблюдений, суммарное значение, среднее значение и дисперсия.

Во второй таблице - данные о сумме квадратов отклонений (SS), числе степеней свободы (df), дисперсии (MS), фактическом значение отношения Фишера(F), p-уровне (P-value) и критическом значении отношения Фишера (F crit) для различных источниках вариации: двух факторах, которые даны в строках (выборка) и столбцах, взаимодействии факторов, ошибки (внутри) и суммарных показателях (итого).

MS F P-value F crit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

Для фактора B фактическое отношение Фишера больше критического, следовательно, с вероятностью 95% доходы существенно различаются между магазинами.

Для взаимодействия факторов A и B фактическое отношение Фишера меньше критического, следовательно, с вероятностью 95% взаимодействие рекламной кампании и конкретного магазина не существенно.

Всё по теме "Математическая статистика"

В данной статье рассмотрен дисперсионный анализ. Проанализированы характерные особенности его применения, предоставлены методы дисперсионного анализа,условия применения дисперсионного анализа. Выявлена и обоснована необходимость использования данного метода. На основе проведенного исследования предоставляются этапы классического дисперсионного анализа.

  • К вопросу обеспечением контроля качества автомобилей после проведения ремонтных мероприятий в предприятиях автомобильного сервиса с учетом требований системы сертификации
  • Проблемы внедрения информационных технологий в логистике на примере российских организаций
  • Повышение эффективности волновой генераторной установки
  • Учебно-методическое пособие «Система Земля-Луна» в системе дистанционного обучения Moodle

Основной целью дисперсионного анализа является исследование значимости различия между средними. Если вы просто сравниваете средние в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t- критерий для независимых выборок (это если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (это если сравниваются две переменные на одном и том же множестве объектов или наблюдений).

Дисперсионный анализ имеет такое название в связи с некоторыми факторами. Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.

Дисперсионный анализ - метод в математической статистике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий в средних значениях. В отличие от t-критерия позволяет сравнивать средние значения трёх и более групп. Разработан Р. Фишером для анализа результатов экспериментальных исследований. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of Variance ).

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, на сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята дисперсия. Дисперсия σ 2 – мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с.-х. продукции.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы.

Методы дисперсионного анализа

  1. Метод по Фишеру (Fisher) - критерий F; Метод применяется в однофакторном дисперсионном анализе, когда совокупная дисперсия всех наблюдаемых значений раскладывается на дисперсию внутри отдельных групп и дисперсию между группами.
  2. Метод "общей линейной модели". В его основе лежит корреляционный или регрессионный анализ, применяемый в многофакторном анализе.

Однофакторная дисперсионная модель имеет вид: x ij = μ + F j + ε ij ,
где х ij – значение исследуемой переменой, полученной на i-м уровне фактора (i=1,2,...,т) c j-м порядковым номером (j=1,2,...,n); F i – эффект, обусловленный влиянием i-го уровня фактора; ε ij – случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменой внутри отдельного уровня.

Простейшим случаем дисперсионного анализа является одномерный однофакторный анализ для двух или нескольких независимых групп, когда все группы объединены по одному признаку. В ходе анализа проверяется нулевая гипотеза о равенстве средних. При анализе двух групп дисперсионный анализ тождественен двухвыборочному t -критерию Стьюдента для независимых выборок, и величина F -статистики равна квадрату соответствующей t -статистики.

Для подтверждения положения о равенстве дисперсий обычно применяется критерий Ливена (Levene"s test ). В случае отвержения гипотезы о равенстве дисперсий основной анализ неприменим. Если дисперсии равны, то для оценки соотношения межгрупповой и внутригрупповой изменчивости применяется F -критерий Фишера.Если F -статистика превышает критическое значение, то нулевая гипотеза отвергается и делается вывод о неравенстве средних. При анализе средних двух групп результаты могут быть интерпретированы непосредственно после применения критерия Фишера.

Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t- критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен. Вам нужно сделать определенные усилия, чтобы овладеть техникой дисперсионного анализа, реализованной на STATISTICA, и ощутить все ее преимущества в конкретных исследованиях.

Двухфакторная дисперсионная модель имеет вид:

x ijk =μ+F i +G j +I ij +ε ijk ,

где x ijk - значение наблюдения в ячейке ij с номером k; μ - общая средняя; F i - эффект, обусловленный влиянием i-го уровня фактора А; G j - эффект, обусловленный влиянием j-го уровня фактора В; I ij - эффект, обусловленный взаимодействием двух факторов, т.е. отклонение от средней по наблюдениям в ячейке ij от суммы первых трех слагаемых в модели; ε ijk - возмущение, обусловленное вариацией переменной внутри отдельной ячейки. Предполагается, что ε ijk имеет нормальный закон распределения N(0; с 2), а все математические ожидания F * , G * , I i * , I * j равны нулю.

Существуют условия применения дисперсионного анализа:

  1. Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).
  2. Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.
  3. Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. - random), т.е. выбранные наугад.
  4. Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

  1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.
  2. Независимость (не связанность) распределения наблюдений в группах.
  3. Наличие частоты (повторность) наблюдений.

Нормальность распределения определяется кривой Гаусса (Де Мавура), которую можно описать функцией у=f(х), так как она относится к числу законов распределения, используемых для приближенного описания явлений, которые носят случайный, вероятностный характер. Предмет медико-биологических исследований - явления вероятностного характера, нормальное распределение в таких исследованиях встречается весьма часто.

Классический дисперсионный анализ проводится по следующим этапам:

  1. Построение дисперсионного комплекса.
  2. Вычисление средних квадратов отклонений.
  3. Вычисление дисперсии.
  4. Сравнение факторной и остаточной дисперсий.
  5. Оценка результатов с помощью теоретических значений распределения Фишера-Снедекора
  6. Современные приложения дисперсионного анализа охватывают широкий круг задач экономики, биологии и техники и трактуются обычно в терминах статистической теории выявления систематических различий между результатами непосредственных измерений, выполненных при тех или иных меняющихся условиях.
  7. Благодаря автоматизации дисперсионного анализа исследователь может проводить различные статистические исследования с применение ЭВМ, затрачивая при этом меньше времени и усилий на расчеты данных. В настоящее время существует множество пакетов прикладных программ, в которых реализован аппарат дисперсионного анализа. Наиболее распространенными являются такие программные продукты как: MS Excel, Statistica; Stadia; SPSS.

В современных статистических программных продуктах реализованы большинство статистических методов. С развитием алгоритмических языков программирования стало возможным создавать дополнительные блоки по обработке статистических данных.

Дисперсионный анализ является мощным современным статистическим методом обработки и анализа экспериментальных данных в психологии, биологии, медицине и других науках. Он очень тесно связан с конкретной методологией планирования и проведения экспериментальных исследований.

Дисперсионный анализ применяется во всех областях научных исследований, где необходимо проанализировать влияние различных факторов на исследуемую переменную.

Список литературы

  1. Аблеева, А. М. Формирование фонда оценочных средств в условиях ФГОС [Текст] / А. М. Аблеева, Г. А. Салимова // Актуальные проблемы преподавания социально-гуманитарных, естественно - научных и технических дисциплин в условиях модернизации высшей школы: материалы международной научно-методической конференции, 4-5 апреля 2014 г. / Башкирский ГАУ, Факультет информационных технологий и управления. - Уфа, 2014. - С. 11-14.
  2. Ганиева, А.М. Статистический анализ занятости и безработицы [Текст] / А.М. Ганиева, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 315-316.
  3. Исмагилов, Р. Р. Творческая группа - эффективная форма организации научных исследований в высшей школе [Текст] / Р. Р. Исмагилов, М. Х. Уразлин, Д. Р. Исламгулов // Научно-технический и научно-образовательный комплексы региона: проблемы и перспективы развития: материалы научно-практической конференции / Академия наук РБ, УГАТУ. - Уфа, 1999. - С. 105-106.
  4. Исламгулов, Д.Р. Компетентностный подход в обучении: оценка качества образования [Текст] / Д.Р. Исламгулов, Т.Н. Лубова, И.Р. Исламгулова // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 62-69.
  5. Исламгулов, Д. Р. Научно-исследовательская работа студентов - важнейший элемент подготовки специалистов в аграрном вузе [Текст] / Д. Р. Исламгулов // Проблемы практической подготовки студентов в вузе на современном этапе и пути их решения: сб. материалов науч.-метод. конф., 24 апреля 2007 года / Башкирский ГАУ. - Уфа, 2007. - С. 20-22.
  6. Лубова, Т.Н. Основа реализации федерального государственного образовательного стандарта – компетентностный подход [Текст] / Т.Н. Лубова, Д.Р. Исламгулов, И.Р. Исламгулова// БЪДЕЩИТЕ ИЗСЛЕДОВАНИЯ – 2016: Материали за XII Международна научна практична конференция, 15-22 февруари 2016. – София: Бял ГРАД-БГ ООД, 2016. – Том 4 Педагогически науки. – C. 80-85.
  7. Лубова, Т.Н. Новые образовательные стандарты: особенности реализации [Текст] / Т.Н. Лубова, Д.Р. Исламгулов // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 79-84.
  8. Лубова, Т.Н. Организация самостоятельной работы обучающихся [Текст] / Т.Н. Лубова, Д.Р. Исламгулов // Реализация образовательных программ высшего образования в рамках ФГОС ВО: материалы Всероссийской научно-методической конференции в рамках выездного совещания НМС по природообустройству и водопользованию Федерального УМО в системе ВО. / Башкирский ГАУ. - Уфа, 2016. - С. 214-219.
  9. Лубова, Т.Н. Основа реализации федерального государственного образовательного стандарта – компетентностный подход [Текст] / Т.Н. Лубова, Д.Р. Исламгулов, И.Р. Исламгулова // Современный научный вестник. – 2015. – Т. 7. - № 1. – С. 85-93.
  10. Саубанова, Л.М. Уровень демографической нагрузки [Текст] / Л.М. Саубанова, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 321-322.
  11. Фахруллина, А.Р. Статистический анализ инфляции в России [Текст] / А.Р. Фахруллина, Т.Н. Лубова // Актуальные вопросы экономико-статистического исследования и информационных технологий: сб. науч. ст.: посвящается к 40-летию создания кафедры "Статистики и информационных систем в экономике" / Башкирский ГАУ. - Уфа, 2011. - С. 323-324.
  12. Фархутдинова, А.Т. Рынок труда в Республике Башкортостан в 2012 году [Электронный ресурс] / А.Т. Фархутдинова, Т.Н. Лубова // Студенческий научный форум. Материалы V Международной студенческой электронной научной конференции: электронная научная конференция (электронный сборник). Российская академия естествознания. 2013.

Дисперсионный анализ

1. Понятие дисперсионного анализа

Дисперсионный анализ -это анализ изменчивости признака под влиянием каких-либо контролируемых переменных факторов. В зарубежной литературе дисперсионный анализ часто обозначается как ANOVA, что переводится как анализ вариативности (Analysis of Variance).

Задача дисперсионного анализа состоит в том, чтобы из общей вариативности признака вычленить вариативность иного рода:

а) вариативность обусловленную действием каждой из исследуемых независимых переменных;

б) вариативность, обусловленную взаимодействием исследуемых независимых переменных;

в) случайную вариативность, обусловленную всеми другими неизвестными переменными.

Вариативность, обусловленная действием исследуемых переменных и их взаимодействием, соотносится со случайной вариативностью. Показателем этого соотношения является критерий F Фишера.

В формулу расчета критерия F входят оценки дисперсий, то есть параметров распределения признака, поэтому критерий F является параметрическим критерием.

Чем в большей степени вариативность признака обусловлена исследуемыми переменными (факторами) или их взаимодействием, тем выше эмпирические значения критерия .

Нулевая гипотеза в дисперсионном анализе будет гласить, что средние величины исследуемого результативного признака во всех гра­дациях одинаковы.

Альтернативная гипотеза будет утверждать, что средние вели­чины результативного признака в разных градациях исследуемого фак­тора различны.

Дисперсионный анализ позволяет нам констатировать изменение признака, но при этом не указывает направление этих изменений.

начнем рассмотрение дисперсионного анализа с простей­шего случая, когда исследуется действие только одной переменной (одного фактора).

2. Однофакторный дисперсионный анализ для несвязан­ных выборок

2.1. Назначение метода

Метод однофакторного дисперсионного анализа применяется в тех случаях, когда исследуются изменения результативного признака под влиянием изменяющихся условий или градаций какого-либо фактора. В данном варианте метода влиянию каждой из градаций фактора подвер­гаются разные выборки испытуемых. Градаций фактора должно быть не менее трех. (Градаций может быть и две, но в этом случае мы не сможем установить нели­нейных зависимостей и более разумным представляется использование более про­стых).

Непараметрическим вариантом этого вида анализа является критерий Н Крускала-Уоллиса.

Гипотезы

H 0: Различия между градациями фактора (разными условиями) являются не более выраженными, чем случайные различия внутри каждой группы.

H 1: Различия между градациями фактора (разными условиями) являются более выраженными, чем случайные различия внутри каждой группы.

2.2. Ограничения метода однофакторного дисперсионного анали­за для несвязанных выборок

1. Однофакторный дисперсионный анализ требует не менее трех града­ций фактора и не менее двух испытуемых в каждой градации.

2. Результативный признак должен быть нормально распределен в ис­следуемой выборке.

Правда, обычно не указывается, идет ли речь о распределении признака во всей обследованной выборке или в той ее части, которая составляет дисперсионный комплекс.

3. Пример решения задачи методом однофакторного дисперсионного анализа для несвязанных выборок на примере:

Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты представлены в Табл. 1.

Количество воспроизведенных слов Таблица 1

№ испытуемого

низкая скорость

средняя скорость

высокая скорость

Общая сумма

H 0: Различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы.

H 1: Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы. Используя экспериментальные значения, представленные в Табл. 1, установим некоторые величины, которые будут необходимы для расчета критерия F.

Расчет основных величин для однофакторного дисперсионного анализа представим в таблице:

Таблица 2

Таблица 3

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок

Часто встречающееся в этой и последующих таблицах обозначе­ние SS - сокращение от "суммы квадратов" (sum of squares). Это со­кращение чаще всего используется в переводных источниках.

SS факт означает вариативность признака, обусловленную действи­ем исследуемого фактора;

SS общ - общую вариативность признака;

S CA -вариативность, обусловленную неучтенными факторами, "случайную" или "остаточную" вариативность.

MS - "средний квадрат", или математическое ожидание суммы квадратов, усредненная величина соответствующих SS.

df - число степеней свободы, которое при рассмотрении непара­метрических критериев мы обозначили греческой буквой v .

Вывод: H 0 отклоняется. Принимается H 1 . Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (α=0,05). Итак, скорость предъявления слов влияет на объем их воспроизведения.

Пример решения задачи в Excel представлен ниже:

Исходные данные:

Используя команду: Сервис->Анализ данных->Однофакторный дисперсионный анализ, получим следующие результаты:

Однофакторный дисперсионный анализ.

Понятие и модели дисперсионного анализа.

Тема 13. Дисперсионный анализ

Лекция 1. Вопросы:

Дисперсионный анализ, как метод исследования, появился в работах Р. Фишера (1918-1935 гг.) в связи с исследованиями в сельском хозяйстве для выявления условий, при которых испытываемый сорт с/х культуры даёт максимальный урожай. дальнейшее развитие дисперсионный анализ получил в работах Йеитса. Дисперсионный анализ позволяет ответить на вопрос о наличии существенного влияния некоторых факторов на изменчивость фактора, значения которого могут быть получены в результате опыта. При проверке статистических гипотез предполагается случайность вариации изучаемых факторов. В дисперсионном анализе один или несколько факторов изменяются заданным образом, причём, эти изменения могут влиять на результаты наблюдений. Исследование такого влияния и является целью дисперсионного анализа.

В настоящее время наблюдается все более широкое использование дисперсионного анализа в экономике, социологии, биологии и др., особенно, после появления программных средств, снявших проблемы громоздкости статистических вычислений.

В практической деятельности, в различных областях науки мы часто сталкиваемся с необходимостью оценить влияние различных факторов на те или иные показатели. Часто эти факторы имеют качественный характер (например, качественным фактором, влияющим на экономический эффект, может быть введение новой системы управления производством) и тогда дисперсионный анализ приобретает особую ценность, так как становится единственным статистическим способом исследования, дающим такую оценку.

Дисперсионный анализ дает возможность установить, существенное ли влияние оказывает тот или иной из рассматриваемых факторов на изменчивость признака, а также определить количественно «удельный вес» каждого из источников изменчивости в их общей совокупности. Но дисперсионный анализ позволяет дать положительный ответ лишь о наличии существенного влияния, в противном случае вопрос остается открытым и требует дополнительных исследований (чаще всего – увеличения числа опытов).

В дисперсионном анализе используются следующие термины.

Фактор (Х) – то, что как мы считаем, должно оказывать влияние на результат (результативный признак) Y.

Уровень фактора (или способ обработки, иногда буквально, например – способ обработки почвы) – значения (Х , i = 1,2,…I), которые может принимать фактор.

Отклик – значение измеряемого признака (величина результата Y ).

Техника дисперсионного анализа меняется в зависимости от числа изучаемых независимых факторов. Если факторы, вызывающие изменчивость среднего значения признака, принадлежат одному источнику, то мы имеем простую группировку, или однофакторный дисперсионный анализ и далее, соответственно, двойная группировка – двухфакторный дисперсионный анализ, трехфакторный дисперсионный анализ,…, m- факторный. Факторы в многофакторном анализе принято обозначать латинскими буквами: А, В, С и т.д.



Задача дисперсионного анализа - исследование влияния тех или иных факторов (или уровней факторов) на изменчивость средних значений наблюдаемых случайных величин.

Сущность дисперсионного анализа. Дисперсионный анализ состоит в выделении и оценке отдельных факторов, вызывающих изменчивость. С этой целью производят разложение общей дисперсии наблюдаемой частичной совокупности (общей дисперсии признака), вызванной всеми источниками изменчивости, на составляющие дисперсии, порожденные независимыми факторами. Каждая из этих составляющих дает оценку дисперсии , ,…, вызванную конкретным источником изменчивости, в общей совокупности. Для проверки значимости этих составляющих оценок дисперсии их сравнивают с общей дисперсией в общей совокупности (по критерию Фишера).

Например, в двухфакторном анализе мы получим разложение вида:

Общая дисперсия изучаемого признака C;

Доля дисперсии, вызванная влиянием фактора А;

Доля дисперсии, вызванная влиянием фактора В;

Доля дисперсии, вызванная взаимодействием факторов А и В;

Доля дисперсии, вызванная неучтёнными случайными причинами (случайная дисперсия);

В дисперсионном анализе рассматривается гипотеза: Н 0 – ни один из рассматриваемых факторов не оказывает влияния на изменчивость признака. Значимость каждой из оценок дисперсии проверяется по величине её отношения к оценке случайной дисперсии и сравнивается с соответствующим критическим значением, при уровне значимости a, с помощью таблиц критических значений F-распределения Фишера-Снедекора (прил.4). Гипотеза Н 0 относительно того или иного источника изменчивости отвергается, если F расч. >F кр. (например, для фактора В: S B 2 /S ε 2 >F кр.).

В дисперсионном анализе рассматриваются эксперименты 3-х видов:

а) эксперименты, в которых все факторы имеют систематические (фиксированные) уровни;

б) эксперименты, в которых все факторы имеют случайные уровни;

в) эксперименты, в которых есть факторы, имеющие случайные уровни, а так же факторы, имеющие фиксированные уровни.

Случаи а), б), в) соответствуют трем моделям, которые рассматриваются в дисперсионном анализе.

Исходные данные для дисперсионного анализа обычно представляются в виде следующей табдицы:

Номер наблюдения j Уровни фактора
А 1 А 2 А р
X 11 X 21 X p1
X 12 X 22 X p2
X 13 X 23 X p3
. . .
. . .
. . .
n X 1n X 2n X pn
ИТОГИ

Рассмотрим единичный фактор, который принимает р различных уровней, и предположим, что на каждом уровне сделано n наблюдений, что дает N=np наблюдений. (Ограничимся рассмотрением первой модели дисперсионного анализа – все факторы имеют фиксированные уровни.)

Пусть результаты представлены в виде X ij (i=1,2…,р; j=1,2,…,n).

Предполагается, что для каждого уровня n наблюдений имеется средняя, которая равна сумме общей средней и ее вариации обусловленной выбранным уровнем:

где m - общая средняя;

A i - эффект, обусловленный i – м уровнем фактора;

e ij – вариация результатов внутри отдельного уровня фактора. С помощью члена e ij принимаются в расчет все неконтролируемые факторы.

Пусть наблюдения на фиксированном уровне фактора нормально распределены относительно среднего значения m + A i с общей дисперсией s 2 .

Тогда (точка вместо индекса обозначает усреднения соответствующих наблюдений по этому индексу):

А.X ij – X.. = (X i . – X..) + (X ij – X i .). (12.3)

После возведения обеих частей уравнения в квадрат и суммирования по i и j получим:

так как , но

Иначе сумму квадратов можно записать: S = S 1 + S 2 . Величина S 1 вычисляется по отклонениям p средних от общей средней X.., поэтому S 1 имеет (p-1) степеней свободы. Величина S 2 вычисляется по отклонениям N наблюдений от р выборочных средних и, следовательно, имеет N-р = np - p=p(n-1) степеней свободы. S имеет (N-1) степеней свободы. По результатам вычислений строится таблица дисперсионного анализа.

Таблица дисперсионного анализа

Если гипотеза о том, что влияние всех уровней одинаково, справедлива, то обе величины М 1 и М 2 (средние квадраты) будут несмещенными оценками s 2 . Значит, гипотезу можно проверить, вычислив отношение (М 1 /М 2) и сравнив его с F кр. с ν 1 = (р-1) и ν 2 = (N-p) степенями свободы.

Если F расч. >F кр. , то гипотеза о незначимом влиянии фактора А на результат наблюдений не принимается.

Для оценки существенности различий при F расч. F табл. вычисляют:

а) ошибку опыта

б) ошибку разности средних

в) наименьшую существенную разность

Сравнивая разность средних значений по вариантам с НСР, делают вывод о существенности различий в уровне средних.

Замечание. Применение дисперсионного анализа предполагает, что:

2) D(ε ij)=σ 2 = const,

3) ε ij → N (0, σ) или x ij → N (a, σ).

Дисперсионный анализ

Курсовая работа по дисциплине: «Системный анализ»

Исполнитель студент гр. 99 ИСЭ-2 Жбанов В.В.

Оренбургский государственный университет

Факультет информационных технологий

Кафедра прикладной информатики

г. Оренбург-2003

Введение

Цель работы: познакомится с таким статистическим методом, как дисперсионный анализ.

Дисперсионный анализ (от латинского Dispersio – рассеивание) – статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Р. Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации /1/.

При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

При проведении исследования рынка часто встает вопрос о сопоставимости результатов. Например, проводя опросы по поводу потребления какого-либо товара в различных регионах страны, необходимо сделать выводы, на сколько данные опроса отличаются или не отличаются друг от друга. Сопоставлять отдельные показатели не имеет смысла и поэтому процедура сравнения и последующей оценки производится по некоторым усредненным значениям и отклонениям от этой усредненной оценки. Изучается вариация признака. За меру вариации может быть принята дисперсия. Дисперсия σ 2 – мера вариации, определяемая как средняя из отклонений признака, возведенных в квадрат.

На практике часто возникают задачи более общего характера – задачи проверки существенности различий средних выборочных нескольких совокупностей. Например, требуется оценить влияние различного сырья на качество производимой продукции, решить задачу о влиянии количества удобрений на урожайность с/х продукции.

Иногда дисперсионный анализ применяется, чтобы установить однородность нескольких совокупностей (дисперсии этих совокупностей одинаковы по предположению; если дисперсионный анализ покажет, что и математические ожидания одинаковы, то в этом смысле совокупности однородны). Однородные же совокупности можно объединить в одну и тем самым получить о ней более полную информацию, следовательно, и более надежные выводы /2/.

1 Дисперсионный анализ

1.1 Основные понятия дисперсионного анализа

В процессе наблюдения за исследуемым объектом качественные факторы произвольно или заданным образом изменяются. Конкретная реализация фактора (например, определенный температурный режим, выбранное оборудование или материал) называется уровнем фактора или способом обработки. Модель дисперсионного анализа с фиксированными уровнями факторов называют моделью I, модель со случайными факторами - моделью II. Благодаря варьированию фактора можно исследовать его влияние на величину отклика. В настоящее время общая теория дисперсионного анализа разработана для моделей I.

В зависимости от количества факторов, определяющих вариацию результативного признака, дисперсионный анализ подразделяют на однофакторный и многофакторный.

Основными схемами организации исходных данных с двумя и более факторами являются:

Перекрестная классификация, характерная для моделей I, в которых каждый уровень одного фактора сочетается при планировании эксперимента с каждой градацией другого фактора;

Иерархическая (гнездовая) классификация, характерная для модели II, в которой каждому случайному, наудачу выбранному значению одного фактора соответствует свое подмножество значений второго фактора.

Если одновременно исследуется зависимость отклика от качественных и количественных факторов, т.е. факторов смешанной природы, то используется ковариационный анализ /3/.

Таким образом, данные модели отличаются между собой способом выбора уровней фактора, что, очевидно, в первую очередь влияет на возможность обобщения полученных экспериментальных результатов. Для дисперсионного анализа однофакторных экспериментов различие этих двух моделей не столь существенно, однако в многофакторном дисперсионном анализе оно может оказаться весьма важным.

При проведении дисперсионного анализа должны выполняться следующие статистические допущения: независимо от уровня фактора величины отклика имеют нормальный (Гауссовский) закон распределения и одинаковую дисперсию. Такое равенство дисперсий называется гомогенностью. Таким образом, изменение способа обработки сказывается лишь на положении случайной величины отклика, которое характеризуется средним значением или медианой. Поэтому все наблюдения отклика принадлежат сдвиговому семейству нормальных распределений.

Говорят, что техника дисперсионного анализа является "робастной". Этот термин, используемый статистиками, означает, что данные допущения могут быть в некоторой степени нарушены, но несмотря на это, технику можно использовать.

При неизвестном законе распределения величин отклика используют непараметрические (чаще всего ранговые) методы анализа.

В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Вариацию, обусловленную влиянием фактора, положенного в основу группировки, характеризует межгрупповая дисперсия σ 2 . Она является мерой вариации частных средних по группам

вокруг общей средней и определяется по формуле: ,

где k - число групп;

n j - число единиц в j-ой группе;

- частная средняя по j-ой группе; - общая средняя по совокупности единиц.

Вариацию, обусловленную влиянием прочих факторов, характеризует в каждой группе внутригрупповая дисперсия σ j 2 .

.

Между общей дисперсией σ 0 2 , внутригрупповой дисперсией σ 2 и межгрупповой дисперсией

1.2 Однофакторный дисперсионный анализ

Однофакторная дисперсионная модель имеет вид:

x ij = μ + F j + ε ij , (1)

где х ij – значение исследуемой переменой, полученной на i-м уровне фактора (i=1,2,...,т) c j-м порядковым номером (j=1,2,...,n);

F i – эффект, обусловленный влиянием i-го уровня фактора;

ε ij – случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменой внутри отдельного уровня.

Основные предпосылки дисперсионного анализа:

Математическое ожидание возмущения ε ij равно нулю для любых i, т.е.

M(ε ij) = 0; (2)

Возмущения ε ij взаимно независимы;

Дисперсия переменной x ij (или возмущения ε ij) постоянна для

любых i, j, т.е.

D(ε ij) = σ 2 ; (3)

Переменная x ij (или возмущение ε ij) имеет нормальный закон

распределения N(0;σ 2).

Влияние уровней фактора может быть как фиксированным или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора - партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании. Если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие – фиксированные.



Понравилась статья? Поделитесь с друзьями!