Почему с нормальным распределением не все нормально. правило «трех сигм»

Нормальный закон распределения вероятностей

Без преувеличения его можно назвать философским законом. Наблюдая за различными объектами и процессами окружающего мира, мы часто сталкиваемся с тем, что чего-то бывает мало, и что бывает норма:


Перед вами принципиальный вид функции плотности нормального распределения вероятностей, и я приветствую вас на этом интереснейшем уроке.

Какие можно привести примеры? Их просто тьма. Это, например, рост, вес людей (и не только), их физическая сила, умственные способности и т.д. Существует «основная масса» (по тому или иному признаку) и существуют отклонения в обе стороны.

Это различные характеристики неодушевленных объектов (те же размеры, вес). Это случайная продолжительность процессов…, снова пришёл на ум грустный пример, и поэтому скажу время «жизни» лампочек:) Из физики вспомнились молекулы воздуха: среди них есть медленные, есть быстрые, но большинство двигаются со «стандартными» скоростями.

Далее отклоняемся от центра ещё на одно стандартное отклонение и рассчитываем высоту:

Отмечаем точки на чертеже (зелёный цвет) и видим, что этого вполне достаточно.

На завершающем этапе аккуратно чертим график, и особо аккуратно отражаем его выпуклость / вогнутость ! Ну и, наверное, вы давно поняли, что ось абсцисс – это горизонтальная асимптота , и «залезать» за неё категорически нельзя!

При электронном оформлении решения график легко построить в Экселе, и неожиданно для самого себя я даже записал короткий видеоролик на эту тему. Но сначала поговорим о том, как меняется форма нормальной кривой в зависимости от значений и .

При увеличении или уменьшении «а» (при неизменном «сигма») график сохраняет свою форму и перемещается вправо / влево соответственно. Так, например, при функция принимает вид и наш график «переезжает» на 3 единицы влево – ровнехонько в начало координат:


Нормально распределённая величина с нулевым математическим ожиданием получила вполне естественное название – центрированная ; её функция плотности чётная , и график симметричен относительно оси ординат.

В случае изменения «сигмы» (при постоянном «а») , график «остаётся на месте», но меняет форму. При увеличении он становится более низким и вытянутым, словно осьминог, растягивающий щупальца. И, наоборот, при уменьшении график становится более узким и высоким – получается «удивлённый осьминог». Так, при уменьшении «сигмы» в два раза: предыдущий график сужается и вытягивается вверх в два раза:

Всё в полном соответствии с геометрическими преобразованиями графиков .

Нормальное распределёние с единичным значением «сигма» называется нормированным , а если оно ещё и центрировано (наш случай), то такое распределение называют стандартным . Оно имеет ещё более простую функцию плотности, которая уже встречалась в локальной теореме Лапласа : . Стандартное распределение нашло широкое применение на практике, и очень скоро мы окончательно поймём его предназначение.

Ну а теперь смотрим кино:

Да, совершенно верно – как-то незаслуженно у нас осталась в тени функция распределения вероятностей . Вспоминаем её определение :
– вероятность того, что случайная величина примет значение, МЕНЬШЕЕ, чем переменная , которая «пробегает» все действительные значения до «плюс» бесконечности.

Внутри интеграла обычно используют другую букву, чтобы не возникало «накладок» с обозначениями, ибо здесь каждому значению ставится в соответствие несобственный интеграл , который равен некоторому числу из интервала .

Почти все значения не поддаются точному расчету, но как мы только что видели, с современными вычислительными мощностями с этим нет никаких трудностей. Так, для функции стандартного распределения соответствующая экселевская функция вообще содержит один аргумент:

=НОРМСТРАСП(z)

Раз, два – и готово:

На чертеже хорошо видно выполнение всех свойств функции распределения , и из технических нюансов здесь следует обратить внимание на горизонтальные асимптоты и точку перегиба .

Теперь вспомним одну из ключевых задач темы, а именно выясним, как найти –вероятность того, что нормальная случайная величина примет значение из интервала . Геометрически эта вероятность равна площади между нормальной кривой и осью абсцисс на соответствующем участке:

но каждый раз вымучивать приближенное значение неразумно, и поэтому здесь рациональнее использовать «лёгкую» формулу :
.

! Вспоминает также , что

Тут можно снова задействовать Эксель, но есть пара весомых «но»: во-первых, он не всегда под рукой, а во-вторых, «готовые» значения , скорее всего, вызовут вопросы у преподавателя. Почему?

Об этом я неоднократно рассказывал ранее: в своё время (и ещё не очень давно) роскошью был обычный калькулятор, и в учебной литературе до сих пор сохранился «ручной» способ решения рассматриваемой задачи. Его суть состоит в том, чтобы стандартизировать значения «альфа» и «бета», то есть свести решение к стандартному распределению:

Примечание : функцию легко получить из общего случая с помощью линейной замены . Тогда и:

и из проведённой замены как раз следует формула перехода от значений произвольного распределения – к соответствующим значениям стандартного распределения.

Зачем это нужно? Дело в том, что значения скрупулезно подсчитаны нашими предками и сведены в специальную таблицу, которая есть во многих книгах по терверу. Но ещё чаще встречается таблица значений , с которой мы уже имели дело в интегральной теореме Лапласа :

Если же в нашем распоряжении есть таблица значений функции Лапласа , то решаем через неё:

Дробные значения традиционно округляем до 4 знаков после запятой, как это сделано в типовой таблице. И для контроля есть Пункт 5 макета .

Напоминаю, что , и во избежание путаницы всегда контролируйте , таблица КАКОЙ функции перед вашими глазами.

Ответ требуется дать в процентах, поэтому рассчитанную вероятность нужно умножить на 100 и снабдить результат содержательным комментарием:

– с перелётом от 5 до 70 м упадёт примерно 15,87% снарядов

Тренируемся самостоятельно:

Пример 3

Диаметр подшипников, изготовленных на заводе, представляет собой случайную величину, распределенную нормально с математическим ожиданием 1,5 см и средним квадратическим отклонением 0,04 см. Найти вероятность того, что размер наугад взятого подшипника колеблется от 1,4 до 1,6 см.

В образце решения и далее я буду использовать функцию Лапласа, как самый распространённый вариант. Кстати, обратите внимание, что согласно формулировке, здесь можно включить концы интервала в рассмотрение. Впрочем, это не критично.

И уже в этом примере нам встретился особый случай – когда интервал симметричен относительно математического ожидания. В такой ситуации его можно записать в виде и, пользуясь нечётностью функции Лапласа, упростить рабочую формулу:


Параметр «дельта» называют отклонением от математического ожидания, и двойное неравенство можно «упаковывать» с помощью модуля :

– вероятность того, что значение случайной величины отклонится от математического ожидания менее чем на .

Хорошо то решение, которое умещается в одну строчку:)
– вероятность того, что диаметр наугад взятого подшипника отличается от 1,5 см не более чем на 0,1 см.

Результат этой задачи получился близким к единице, но хотелось бы ещё бОльшей надежности – а именно, узнать границы, в которых находится диаметр почти всех подшипников. Существует ли какой-нибудь критерий на этот счёт? Существует! На поставленный вопрос отвечает так называемое

правило «трех сигм»

Его суть состоит в том, что практически достоверным является тот факт, что нормально распределённая случайная величина примет значение из промежутка .

И в самом деле, вероятность отклонения от матожидания менее чем на составляет:
или 99,73%

В «пересчёте на подшипники» – это 9973 штуки с диаметром от 1,38 до 1,62 см и всего лишь 27 «некондиционных» экземпляров.

В практических исследованиях правило «трёх сигм» обычно применяют в обратном направлении: если статистически установлено, что почти все значения исследуемой случайной величины укладываются в интервал длиной 6 стандартных отклонений, то появляются веские основания полагать, что эта величина распределена по нормальному закону. Проверка осуществляется с помощью теории статистических гипотез , до которых я надеюсь рано или поздно добраться:)

Ну а пока продолжаем решать суровые советские задачи:

Пример 4

Случайная величина ошибки взвешивания распределена по нормальному закону с нулевым математическим ожиданием и стандартным отклонением 3 грамма. Найти вероятность того, что очередное взвешивание будет проведено с ошибкой, не превышающей по модулю 5 грамм.

Решение очень простое. По условию, и сразу заметим, что при очередном взвешивании (чего-то или кого-то) мы почти 100% получим результат с точностью до 9 грамм. Но в задаче фигурирует более узкое отклонение и по формуле :

– вероятность того, что очередное взвешивание будет проведено с ошибкой, не превышающей 5 грамм.

Ответ :

Прорешанная задача принципиально отличается от вроде бы похожего Примера 3 урока о равномерном распределении . Там была погрешность округления результатов измерений, здесь же речь идёт о случайной погрешности самих измерений. Такие погрешности возникают в связи с техническими характеристиками самого прибора (диапазон допустимых ошибок, как правило, указывают в его паспорте) , а также по вине экспериментатора – когда мы, например, «на глазок» снимаем показания со стрелки тех же весов.

Помимо прочих, существуют ещё так называемые систематические ошибки измерения. Это уже неслучайные ошибки, которые возникают по причине некорректной настройки или эксплуатации прибора. Так, например, неотрегулированные напольные весы могут стабильно «прибавлять» килограмм, а продавец систематически обвешивать покупателей. Или не систематически ведь можно обсчитать. Однако, в любом случае, случайной такая ошибка не будет, и её матожидание отлично от нуля.

…срочно разрабатываю курс по подготовке продавцов =)

Самостоятельно решаем обратную задачу:

Пример 5

Диаметр валика – случайная нормально распределенная случайная величина, среднее квадратическое отклонение ее равно мм. Найти длину интервала, симметричного относительно математического ожидания, в который с вероятностью попадет длина диаметра валика.

Пункт 5* расчётного макета в помощь. Обратите внимание, что здесь не известно математическое ожидание, но это нисколько не мешает решить поставленную задачу.

И экзаменационное задание, которое я настоятельно рекомендую для закрепления материала:

Пример 6

Нормально распределенная случайная величина задана своими параметрами (математическое ожидание) и (среднее квадратическое отклонение). Требуется:

а) записать плотность вероятности и схематически изобразить ее график;
б) найти вероятность того, что примет значение из интервала ;
в) найти вероятность того, что отклонится по модулю от не более чем на ;
г) применяя правило «трех сигм», найти значения случайной величины .

Такие задачи предлагаются повсеместно, и за годы практики мне их довелось решить сотни и сотни штук. Обязательно попрактикуйтесь в ручном построении чертежа и использовании бумажных таблиц;)

Ну а я разберу пример повышенной сложности:

Пример 7

Плотность распределения вероятностей случайной величины имеет вид . Найти , математическое ожидание , дисперсию , функцию распределения , построить графики плотности и функции распределения, найти .

Решение : прежде всего, обратим внимание, что в условии ничего не сказано о характере случайной величины. Само по себе присутствие экспоненты ещё ничего не значит: это может оказаться, например, показательное или вообще произвольное непрерывное распределение . И поэтому «нормальность» распределения ещё нужно обосновать:

Так как функция определена при любом действительном значении , и её можно привести к виду , то случайная величина распределена по нормальному закону.

Приводим. Для этого выделяем полный квадрат и организуем трёхэтажную дробь :


Обязательно выполняем проверку, возвращая показатель в исходный вид:

, что мы и хотели увидеть.

Таким образом:
– по правилу действий со степенями «отщипываем» . И здесь можно сразу записать очевидные числовые характеристики:

Теперь найдём значение параметра . Поскольку множитель нормального распределения имеет вид и , то:
, откуда выражаем и подставляем в нашу функцию:
, после чего ещё раз пробежимся по записи глазами и убедимся, что полученная функция имеет вид .

Построим график плотности:

и график функции распределения :

Если под рукой нет Экселя и даже обычного калькулятора, то последний график легко строится вручную! В точке функция распределения принимает значение и здесь находится

Устойчивым и безгранично делимым распределениям уделяется большое внимание в литературе, посвященной моделированию поведения обменных курсов валют и финансовых индексов.

Устойчивые и безгранично делимые распределения изучались в работах П.Леви, Дж. Пойа, А.Я. Хинчина.

Остановимся на определении устойчивых распределений. Существует два равносильных определения. Приведем одно из них

Определение. Случайная величина называется устойчивой, если для всякого найдутся и такие, что

где - независимые копии случайной величины. Если в (81) =0, т.е.

то случайная величина называется строго устойчивой.

Замечательно, что доказывается следующий факт

для некоторого. При этом называют индексом устойчивости.

Приведем пример. Рассмотрим нормальный закон, тогда сумма распределена по нормальному закону, точно также распределена случайная величина. Здесь. Откуда следует, что гауссовский закон является устойчивым законом с индексом устойчивости. Причем строго устойчивым, если.

Для полноты картины следует отметить факт, характеризующий устойчивое распределение как распределение бесконечных сумм независимых и одинаково распределенных случайных величин.

Устойчивое распределение имеет область притяжения в том смысле, что найдется последовательность независимых одинаково распределенных случайных величин, и последовательности положительных чисел и вещественных чисел такие, что

Рассмотрим характеристическую функцию распределения случайной величины

Характеристическая функция суммы независимых копий

Сопоставим (86) и (82) получим, что для строго устойчивого распределения

Таким образом, на языке характеристических функций распределение называется строго устойчивым, если для любого существует такое положительное число, что выполняется (87). Поскольку, то (87) приобретает вид:

Рассмотрим распределение Пуассона

Характеристическая функция распределения Пуассона:

Отсюда и распределение Пуассона не является устойчивым распределением. Свойство строгой устойчивости связано еще с одним свойством закона распределения. Напомним, что сверткой функций распределения называется функция распределения. Если функции распределения и обладают плотностями, то функция распределения также обладает плотностью, причем. При этом, если случайные величины и - независимые, то. Введем обозначение. В этом обозначении функция распределения суммы - . Следовательно, функция распределения строго устойчивого закона должна обладать свойством:

Если существует плотность, то

В этой связи рассмотрим распределение Коши:

Непосредственным интегрированием и индукцией нетрудно убедиться, что

Отсюда следует, что распределение Коши строго устойчиво с индексом устойчивости.

Отметим, что замечательный результат теории вероятностей (П. Леви, А.Я. Хинчин) дает следующее представление характеристической функции устойчивой случайной величины:


где. Смысл параметров следующий:

Индекс устойчивости,

Параметр скошенности плотности распределения,

Параметр масштаба,

Параметр положения.

Параметр определяет скорость убывания хвостов распределения.

а - гамма функция.

Рассмотрим случай. Из (95) следует, что

которая является характеристической функцией нормального закона. Об устойчивости нормального закона с индексом устойчивости уже упоминалось выше. Отметим, что произведение, поэтому не определяется однозначно. Принято считать, что.

С точки зрения поведения хвостов распределения случаи и существенно отличаются. Действительно, пусть, тогда

Сопоставление (98) с (95) и (96) позволяет сделать вывод, что стремление к нулю хвостов распределения в случае, когда более медленное. Поэтому такие распределения принято называть распределениями с тяжелыми хвостами. Как показывают статистические исследования многие финансовые инструменты имеют логарифмические возвраты, у которых распределения обладают тяжелыми хвостами. Этот статистический факт делает устойчивые распределения привлекательными для описания поведения логарифмических возвратов.

Отметим, что в том и только в том случае, когда. Действительно, если, то из (95) и (96) следует, что. Если, то из неравенства, следует. Пусть, тогда из неравенства следует, что.

В связи с показательной асимптотикой остановимся на распределении Парето, плотность которого

С параметрами (индекс устойчивости) и. График плотности распределения Парето представлен на рисунке 8.


Рис. 8.

Функция распределения

а вероятность. Сравнение с (95) показывает, что на бесконечности устойчивые распределения ведут себя так же, как и распределение Парето. Поэтому хвостовая часть устойчивых распределений относится к паретовскому типу.

Можно рассмотреть симметричное распределение Парето:

которое выглядит более естественным при моделировании последовательности. Параметр скошенности (асимметрии) определяет насколько распределение асимметрично. Если, то есть

то распределение симметрично относительно. Чем ближе к единице, тем сильнее выражена асимметрия распределения. Причем если, то распределение скошено сильнее слева, при - справа.

Параметр является масштабным параметром.

При, случай нормального распределения. При - дисперсии не существует. Поэтому параметр отличается от среднего квадратического отклонения.

Параметр - параметр положения при, как уже отмечалось выше, и существует математическое ожидание. При математическое ожидание может быть не определено, поэтому не следует интерпретировать как математическое ожидание.

Традиционным обозначением для устойчивых распределений является обозначение. Отметим, что при

Орлов А.И. Часто ли распределение результатов наблюдений является нормальным? – Журнал «Заводская лаборатория». 1991 Т.57. No.7 С.64-66.

Часто ли распределение результатов наблюдений является нормальным?

А.И.Орлов

Результаты измерений и вообще статистические данные имеют свойства, приводящие к тому, что моделировать их следует случайными величинами с распределениями, более или менее отличными от нормальных. В большинстве случаев распределения существенно отличаются от нормальных. В других нормальные распределения могут, видимо, рассматриваться как некоторая аппроксимация. Но никогда нет полного совпадения. Отсюда вытекает как необходимость изучения свойств классических статистических процедур в неклассических вероятностных моделях, так и необходимость разработки устойчивых (учитывающих наличие отклонений от нормальности) и непараметрических, в том числе свободных от распределения процедур, их широкого внедрения в практику статистической обработки данных.

В эконометрических и экономико-математических моделях, применяемых, в частности, при изучении и оптимизации процессов маркетинга и менеджмента, управления предприятием и регионом, точности и стабильности технологических процессов, в задачах надежности, обеспечения безопасности, в том числе экологической, функционирования технических устройств и объектов, разработки организационных схем часто применяют понятия и результаты теории вероятностей и математической статистики. При этом зачастую используют те или иные параметрические семейства распределений вероятностей. Наиболее популярно нормальное распределение. Используют также логарифмически нормальное распределение, экспоненциальное распределение, гамма-распределение, распределение Вейбулла-Гнеденко и т.д.

Очевидно, всегда необходимо проверять соответствие моделей реальности. Возникают два вопроса. Отличаются ли реальные распределения от используемых в модели? Насколько это отличие влияет на выводы?

Ниже на примере нормального распределения и основанных на нем методов отбраковки резко отличающихся наблюдений (выбросов) показано, что реальные распределения практически всегда отличаются от включенных в классические параметрические семейства, а имеющиеся отклонения от заданных семейств делают неверными выводы, в рассматриваемом случае, об отбраковке, основанные на использовании этих семейств.

Есть ли основания априори предполагать нормальность результатов измерений?

Иногда утверждают, что в случае, когда погрешность измерения (или иная случайная величина) определяется в результате совокупного действия многих малых факторов, то в силу Центральной Предельной Теоремы (ЦПТ) теории вероятностей эта величина хорошо приближается (по распределению) нормальной случайной величиной. Такое утверждение справедливо, если малые факторы действуют аддитивно и независимо друг от друга. Если же они действуют мультипликативно, то в силу той же ЦПТ аппроксимировать надо логарифмически нормальным распределением. В прикладных задачах обосновать аддитивность, а не мультипликативность действия малых факторов обычно не удается. Если же зависимость имеет общий характер, не приводится к аддитивному или мультипликативному виду, а также нет оснований принимать модели, дающие экспоненциальное, Вейбулла-Гнеденко, гамма или иные распределения, то о распределении итоговой случайной величины практически ничего не известно, кроме внутриматематических свойств типа регулярности.

При обработке конкретных данных иногда считают, что погрешности измерений имеют нормальное распределение. На предположении нормальности построены классические модели регрессионного, дисперсионного, факторного анализов, метрологические модели, которые еще продолжают встречаться как в отечественной ноpмативно-технической документации, так и в международных стандартах. На то же предположение опираются модели расчетов максимально достигаемых уровней тех или иных характеристик, применяемые при проектировании систем обеспечения безопасности функционирования экономических структур, технических устройств и объектов. Однако теоретических оснований для такого предположения нет. Необходимо экспериментально изучать распределения погрешностей.

Что же показывают результаты экспериментов? Сводка, данная в монографии , позволяет утверждать, что в большинстве случаев распределение погрешностей измерений отличается от нормального. Так, в Машинно-электротехническом институте (г. Варна в Болгарии) было исследовано распределение погрешностей градуировки шкал аналоговых электроизмерительных приборов. Изучались приборы, изготовленные в Чехословакии, СССР и Болгарии. Закон распределения погрешностей оказался одним и тем же. Он имеет плотность

Были проанализированы данные о параметрах 219 фактических распределениях погрешностей, исследованных разными авторами, при измерении как электрических, так и не электрических величин самыми разнообразными (электрическими) приборами. В результате этого исследования оказалось, что 111 распределений, т.е. примерно 50% , принадлежат классу распределений с плотностью

где - параметр степени;b - параметр сдвига; - параметр масштаба;- гамма-функция от аргумента;

(см. ); 63 распределения, т.е. 30%, имеют плотности с плоской вершиной и пологими длинными спадами и не могут быть описаны как нормальные или, например, экспоненциальные. Оставшиеся 45 распределений оказались двухмодальными.

В книге известного метролога проф. П. В. Hовицкого приведены результаты исследования законов распределения различного рода погрешностей измерения. Он изучил распределения погрешностей электромеханических приборов на кернах, электронных приборов для измерения температур и усилий, цифровых приборов с ручным уpавновешиванием. Объем выборок экспериментальных данных для каждого экземпляра составлял 100-400 отсчетов. Оказалось, что 46 из 47 распределений значимо отличались от нормального. Исследована форма распределения погрешностей у 25 экземпляров цифровых вольтметров Щ-1411 в 10 точках диапазона. Результаты аналогичны. Дальнейшие сведения содержатся в монографии .

В лаборатории прикладной математики Тартуского государственного университета проанализировано 2500 выбоpок из архива реальных статистических данных. В 92% гипотезу нормальности пришлось отвергнуть.

Приведенные описания экспеpиментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, в частности, что большинство применений критерия Стьюдента, классического регрессионного анализа и других статистических методов, основанных на нормальной теории, строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений соответствующих случайных величин.

Очевидно, для оправдания или обоснованного изменения существующей практики анализа статистических данных требуется изучить свойства процедур анализа данных при "незаконном" применении. Изучение процедур отбраковки показало, что они крайне неустойчивы к отклонениям от нормальности, а потому применять их для обработки реальных данных нецелесообразно (см. ниже); поэтому нельзя утверждать, что произвольно взятая процедура устойчива к отклонениям от нормальности.

Иногда предлагают перед применением, например, критерия Стьюдента однородности двух выбоpок проверять нормальность. Хотя для этого имеется много критериев, но проверка нормальности - более сложная и трудоемкая статистическая процедура, чем проверка однородности (как с помощью статистик типа Стьюдента, так и с помощью непараметрических критериев). Для достаточно надежного установления нормальности требуется весьма большое число наблюдений. Так, чтобы гарантировать, что функция распределения результатов наблюдений отличается от некоторой нормальной не более, чем на 0,01 (при любом значении аргумента), требуется порядка 2500 наблюдений. В большинстве экономических, технических, медико-биологических и других прикладных исследований число наблюдений существенно меньше. Особенно это справедливо для данных, используемых при изучении проблем, связанных с обеспечением безопасности функционирования экономических структур и технических объектов.

Иногда пытаются использовать ЦПТ для приближения распределения погрешности к нормальному, включая в технологическую схему измерительного прибора специальные сумматоры. Оценим полезность этой меры. Пусть Z 1 , Z 2 ,…, Z k - независимые одинаково распределенные случайные величины с функцией распределения H = H (x ) такие, что Рассмотрим

Показателем обеспечиваемой сумматором близости к нормальности является

Правое неравенство в последнем соотношении вытекает из оценок константы в неравенстве Берри-Эссеена, полученном в книге , а левое - из примера в монографии . Для нормального закона =1,6, для равномерного= 1,3, для двухточечного=1 (это - нижняя граница для). Следовательно, для обеспечения расстояния (в метрике Колмогорова) до нормального распределения не более 0,01 для "неудачных" распределений необходимо не менееk 0 слагаемых, где

В обычно используемых сумматорах слагаемых значительно меньше. Сужая класс возможных распределений H , можно получить, как показано в монографии , более быструю сходимость, но теория здесь еще не смыкается с практикой. Кроме того, не ясно, обеспечивает ли близость распределения к нормальному (в определенной метрике) также и близость распределения статистики, построенной по случайным величинам с этим распределением, к распределению статистики, соответствующей нормальным результатам наблюдений. Видимо, для каждой конкретной статистики необходимы специальные теоретические исследования, Именно к такому выводу приходит автор монографии . В задачах отбраковки выбросов ответ: "Не обеспечивает" (см. ниже).

Отметим, что результат любого реального измерения записывается с помощью конечного числа десятичных знаков, обычно небольшого (2-5), так что любые реальные данные целесообразно моделировать лишь с помощью дискретных случайных величин, принимающих конечное число значений. Нормальное распределение - лишь аппроксимация реального распределения. Так, например, данные конкретного исследования, приведенные в работе , принимают значения от 1,0 до 2,2, т.е. всего 13 возможных значений. Из принципа Дирихле следует, что в какой-то точке построенная по данным работы функция распределения отличается от ближайшей функции нормального распределения не менее чем на 1/26, т.е. на 0,04. Кроме того, очевидно, что для нормального распределения случайной величины вероятность попасть в дискретное множество десятичных чисел с заданным числом знаков после запятой равна 0.

Из сказанного выше следует, что результаты измерений и вообще статистические данные имеют свойства, приводящие к тому, что моделировать их следует случайными величинами с распределениями, более или менее отличными от нормальных. В большинстве случаев распределения существенно отличаются от нормальных, в других нормальные распределения могут, видимо, рассматриваться как некоторая аппроксимация, но никогда нет полного совпадения. Отсюда вытекает как необходимость изучения свойств классических статистических процедур в неклассических вероятностных моделях (подобно тому, как это сделано ниже для критерия Стьюдента), так и необходимость разработки устойчивых (учитывающих наличие отклонений от нормальности) и непараметрических, в том числе свободных от распределения процедур, их широкого внедрения в практику статистической обработки данных.

Литература

1. Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. - Л.: Энергоатомиздат, 1985. - 248 с.

2. Новицкий П.В. Основы информационной теории измерительных устройств. -Л.: энергия, 1968. - 248 с.

3. Боровков А.А. Теория вероятностей. - М.: Наука, 1976. - 352 с.

4. Петров В.В. Суммы независимых случайных величин. - М.: Наука, 1972. - 416 с.

5. Золотарев В.М. Современная теория суммирования независимых случайных величин. - М.: Наука, 1986. - 416 с.

6. Егорова Л.А., Харитонов Ю.С., Соколовская Л.В.//Заводская лаборатория. - 1976. Т.42. №10. С. 1237.

по теории вероятностей и математической статистике рассматривают различные параметрические семейства распределений числовых случайных величин. А именно, изучают семейства нормальных распределений, логарифмически нормальных, экспоненциальных, гамма-распределений, распределений Вейбулла-Гнеденко и др. Все они зависят от одного, двух или трех параметров. Поэтому для полного описания распределения достаточно знать или оценить одно, два или три числа. Очень удобно. Поэтому широко развита параметрическая теория математической статистики, в которой предполагается, что распределения результатов наблюдений принадлежат тем или иным параметрическим семействам.

К сожалению, параметрические семейства существуют лишь в головах авторов учебников по теории вероятностей и математической статистике. В реальной жизни их нет. Поэтому эконометрика использует в основном непараметрические методы, в которых распределения результатов наблюдений могут иметь произвольный вид.

Сначала на примере нормального распределения подробнее обсудим невозможность практического использования параметрических семейств для описания распределений конкретных экономических данных. Затем разберем параметрические методы отбраковки резко выделяющихся наблюдений и продемонстрируем невозможность практического использования ряда методов параметрической статистики, ошибочность выводов, к которым они приводят. Затем разберем непараметрические методы доверительного оценивания основных характеристик числовых случайных величин - математического ожидания, медианы, дисперсии, среднего квадратического отклонения, коэффициента вариации . Завершат лекцию методы проверки однородности двух выборок, независимых или связанных.

Часто ли распределение результатов наблюдений является нормальным?

В эконометрических и экономико-математических моделях, применяемых, в частности, при изучении и оптимизации процессов маркетинга и менеджмента, управления предприятием и регионом, точности и стабильности технологических процессов, в задачах надежности, обеспечения безопасности, в том числе экологической, функционирования технических устройств и объектов, разработки организационных схем часто применяют понятия и результаты теории вероятностей и математической статистики. При этом зачастую используют те или иные параметрические семейства распределений вероятностей. Наиболее популярно нормальное распределение . Используют также логарифмически нормальное распределение , экспоненциальное распределение, гамма-распределение, распределение Вейбулла-Гнеденко и т.д.

Очевидно, всегда необходимо проверять соответствие моделей реальности. Возникают два вопроса. Отличаются ли реальные распределения от используемых в модели? Насколько это отличие влияет на выводы?

Ниже на примере нормального распределения и основанных на нем методов отбраковки резко отличающихся наблюдений (выбросов) показано, что реальные распределения практически всегда отличаются от включенных в классические параметрические семейства, а имеющиеся отклонения от заданных семейств делают неверными выводы, в рассматриваемом случае, об отбраковке, основанные на использовании этих семейств.

Есть ли основания априори предполагать нормальность результатов измерений?

Иногда утверждают, что в случае, когда погрешность измерения (или иная случайная величина ) определяется в результате совокупного действия многих малых факторов, то в силу Центральной Предельной Теоремы (ЦПТ) теории вероятностей эта величина хорошо приближается ( по распределению) нормальной случайной величиной. Такое утверждение справедливо, если малые факторы действуют аддитивно и независимо друг от друга. Если же они действуют мультипликативно, то в силу той же ЦПТ аппроксимировать надо логарифмически нормальным распределением. В прикладных задачах обосновать аддитивность, а не мультипликативность действия малых факторов обычно не удается. Если же зависимость имеет общий характер, не приводится к аддитивному или мультипликативному виду, а также нет оснований принимать модели, дающие экспоненциальное, Вейбулла-Гнеденко, гамма или иные распределения, то о распределении итоговой случайной величины практически ничего не известно, кроме внутриматематических свойств типа регулярности.

При обработке конкретных данных иногда считают, что погрешности измерений имеют нормальное распределение . На предположении нормальности построены классические модели регрессионного, дисперсионного, факторного анализов , метрологические модели, которые еще продолжают встречаться как в отечественной ноpмативно-технической документации, так и в международных стандартах. На то же предположение опираются модели расчетов максимально достигаемых уровней тех или иных характеристик, применяемые при проектировании систем обеспечения безопасности функционирования экономических структур, технических устройств и объектов. Однако теоретических оснований для такого предположения нет. Необходимо экспериментально изучать распределения погрешностей.

Что же показывают результаты экспериментов? Сводка, данная в монографии , позволяет утверждать, что в большинстве случаев распределение погрешностей измерений отличается от нормального. Так, в Машинно-электротехническом институте (г. Варна в Болгарии) было исследовано распределение погрешностей градуировки шкал аналоговых электроизмерительных приборов. Изучались приборы, изготовленные в Чехословакии, СССР и Болгарии. Закон распределения погрешностей оказался одним и тем же. Он имеет плотность

Были проанализированы данные о параметрах 219 фактических распределениях погрешностей, исследованных разными авторами, при измерении как электрических, так и не электрических величин самыми разнообразными (электрическими) приборами. В результате этого исследования оказалось, что 111 распределений, т.е. примерно 50% , принадлежат классу распределений с плотностью

где - параметр степени; - параметр сдвига; - параметр масштаба; - гамма- функция от аргумента ;

В лаборатории прикладной математики Тартуского государственного университета проанализировано 2500 выбоpок из архива реальных статистических данных. В 92% гипотезу нормальности пришлось отвергнуть.

Приведенные описания экспеpиментальных данных показывают, что погрешности измерений в большинстве случаев имеют распределения, отличные от нормальных. Это означает, в частности, что большинство применений критерия Стьюдента, классического регрессионного анализа и других статистических методов, основанных на нормальной теории, строго говоря, не является обоснованным, поскольку неверна лежащая в их основе аксиома нормальности распределений соответствующих случайных величин.

Очевидно, для оправдания или обоснованного изменения существующей практики анализа статистических данных требуется изучить свойства процедур анализа данных при "незаконном" применении. Изучение процедур отбраковки показало, что они крайне неустойчивы к отклонениям от нормальности, а потому применять их для обработки реальных данных нецелесообразно (см. ниже); поэтому нельзя утверждать, что произвольно взятая процедура устойчива к отклонениям от нормальности.

Иногда предлагают перед применением, например, критерия Стьюдента однородности двух выбоpок проверять нормальность. Хотя для этого имеется много критериев, но проверка нормальности - более сложная и трудоемкая статистическая процедура, чем проверка однородности (как с помощью статистик типа Стьюдента, так и с помощью непараметрических критериев). Для достаточно надежного установления нормальности требуется весьма большое число наблюдений. Так, чтобы гарантировать, что функция распределения результатов наблюдений отличается от некоторой нормальной не более, чем на 0,01 (при любом значении аргумента), требуется порядка 2500 наблюдений. В большинстве экономических, технических, медико-биологических и других прикладных исследований число наблюдений существенно меньше. Особенно это справедливо для данных, используемых при изучении проблем, связанных с обеспечением безопасности функционирования экономических структур и технических объектов.

Иногда пытаются использовать ЦПТ для приближения распределения погрешности к нормальному, включая в технологическую схему измерительного прибора специальные сумматоры. Оценим полезность этой меры. Пусть - независимые одинаково распределенные случайные величины с функцией распределения такие, что Рассмотрим

Показателем обеспечиваемой сумматором близости к нормальности является

Правое неравенство в последнем соотношении вытекает из оценок константы в неравенстве Берри-Эссеена, полученном в книге , а левое - из примера в монографии . Для нормального закона , для равномерного , для двухточечного (это - нижняя граница для ). Следовательно, для обеспечения расстояния (в метрике Колмогорова) до нормального распределения не более 0,01 для "неудачных" распределений необходимо не менее слагаемых, где вероятность попасть в дискретное множество десятичных чисел с заданным числом знаков после запятой равна 0.

Из сказанного выше следует, что результаты измерений и вообще статистические данные имеют свойства, приводящие к тому, что моделировать их следует случайными величинами с распределениями, более или менее отличными от нормальных. В большинстве случаев распределения существенно отличаются от нормальных, в других нормальные распределения могут, видимо, рассматриваться как некоторая аппроксимация , но никогда нет полного совпадения. Отсюда вытекает как необходимость изучения свойств классических статистических процедур в неклассических вероятностных моделях (подобно тому, как это сделано ниже для критерия Стьюдента), так и необходимость разработки устойчивых (учитывающих наличие отклонений от нормальности) и непараметрических, в том числе свободных от распределения процедур, их широкого внедрения в практику статистической обработки данных.

Опущенные здесь рассмотрения для других параметрических семейств приводят к аналогичным выводам. Итог можно сформулировать так. Распределения реальных данных практически никогда не входят в какое-либо конкретное параметрическое семейство. Реальные распределения всегда отличаются от тех, что включены в параметрические семейства. Отличия могут быть большие или маленькие, но они всегда есть. Попробуем понять, насколько важны эти различия для проведения эконометрического анализа.



Понравилась статья? Поделитесь с друзьями!