Вполне естественна потребность количественно уточнить утверждение о том, что в «больших» сериях испытаний частоты появления события «близки» к его вероятности. Следует ясно представить себе известную деликатность этой задачи. В наиболее типичных для теории вероятностей случаях дело обстоит так, что в сколь угодно длинных сериях испытаний остаются теоретически возможными оба крайних значения частоты
\frac{\mu}{n}=\frac{n}{n}=1 и \frac{\mu}{n}=\frac{0}{n}=0
Поэтому, каково бы ни было число испытаний n , нельзя утверждать с полной достоверностью, что будет выполнено, скажем, неравенство
<\frac{1}{10}
Например, если событие A заключается в выпадении при бросании игральной кости шестерки, то при n бросаниях с вероятностью {\left(\frac{1}{6}\right)\!}^n>0 мы все время будем получать одни шестерки, т. е. с вероятностью {\left(\frac{1}{6}\right)\!}^n получим частоту появления шестерок, равную единице, а с вероятностью {\left(1-\frac{1}{6}\right)\!}^n>0 шестерка не выпадает ни одного раза, т. е. частота появления шестерок окажется равной нулю.
Во всех подобных задачах любая нетривиальная оценка близости между частотой и вероятностью действует не с полной достоверностью, а лишь с некоторой меньшей единицы вероятностью. Можно, например, доказать, что в случае независимых испытаний с постоянной вероятностью p появления события неравенство
\vline\,\frac{\mu}{n}-p\,\vline\,<0,\!02
для частоты \frac{\mu}{n} будет выполняться при n=10\,000 (и любом p ) с вероятностью
P>0,\!9999.
Здесь мы прежде всего хотим подчеркнуть, что в приведенной формулировке количественная оценка близости частоты \frac{\mu}{n} к вероятности p связана с введением новой вероятности P .
Реальный смысл оценки (8) таков: если произвести N серий по n испытаний и сосчитать число M серий, в которых выполняется неравенство (7), то при достаточно большом N приближенно будет
\frac{M}{N}\approx P>0,\!9999.
Но если мы захотим уточнить соотношение (9) как в отношении степени близости \frac{M}{N} к вероятности P , так и в отношении надежности, с которой можно утверждать, что такая близость будет иметь место, то придется обратиться к рассмотрениям, аналогичным тем, которые мы уже провели в применении к близости \frac{\mu}{n} и p . При желании такое рассуждение можно повторять неограниченное число раз, но вполне понятно, что это не позволит нам совсем освободиться от необходимости на последнем этапе обратиться к вероятностям в примитивном грубом понимании этого термина.
Не следует думать, что подобного рода затруднения являются какой-то особенностью теории вероятностей. При математическом изучении реальных явлений мы всегда их схематизируем. Отклонения хода действительных явлений от теоретической схемы можно, в свою очередь, подвергнуть математическому изучению. Но для этого сами эти отклонения надо уложить в некоторую схему и этой последней пользоваться уже без формального математического анализа отклонений от нее.
Заметим, впрочем, что при реальном применении оценки
P\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,<0,\!02\right\}>0,\!9999.
к единичной серии из n испытаний мы опираемся и на некоторые соображения симметрии: неравенство (10) указывает, что при очень большом числе N серий соотношение (7) будет выполняться не менее чем в 99,99% случаев; естественно с большой уверенностью ожидать, что, в частности, неравенство (7) осуществится в интересующей нас определенной серии из n испытаний, если мы имеем основания считать, что эта серия в ряду других серий занимает рядовое, ничем особенным не отмеченное положение.
Вероятности, которыми принято пренебрегать в различных практических положениях, различны. Выше уже отмечалось, что при ориентировочных расчетах расхода снарядов, гарантирующего выполнение поставленной задачи, удовлетворяются нормой расхода снарядов, при которой поставленная задача решается с вероятностью 0,95, т. е. пренебрегают вероятностями, не превышающими 0,05. Это объясняется тем, что переход на расчеты, исходящие из пренебрежения, скажем, лишь вероятностями, меньшими 0,01, приводил бы к большому увеличению норм расхода снарядов, т. е. практически во многих случаях к выводу о невозможности выполнить поставленную задачу за тот короткий промежуток времени, который для этого имеется, или с фактически могущим быть использованным запасом снарядов.
Иногда и в научных исследованиях ограничиваются статистическими приемами, рассчитанными исходя из пренебрежения вероятностями в 0,05. Но это следует делать лишь в случаях, когда собирание более обширного материала очень затруднительно. Рассмотрим в виде примера таких приемов следующую задачу. Допустим, что в определенных условиях употребительный препарат для лечения какого-либо заболевания дает положительный результат в 50%, т. е. с вероятностью 0,5. Предлагается новый препарат и для проверки его преимуществ над старым планируется применить его в десяти случаях, выбранных беспристрастно из числа больных, находящихся в том же положении, что и те, для которых установлена эффективность старого препарата в 50%. При этом устанавливается, что преимущество нового препарата будет считаться доказанным, если он даст положительный результат не менее чем в восьми случаях из десяти. Легко подсчитать, что такое решение связано с пренебрежением вероятностью получить ошибочный вывод (т. е. вывод о доказанности преимущества нового препарата, в то время как он равноценен или даже хуже старого) как раз порядка 0,05. В самом деле, если в каждом из десяти испытаний вероятность положительного исхода равна p , то вероятности получить при десяти испытаниях 10,9 или 8 положительных исходов, равны соответственно
P_{10}=p^{10},\qquad P_9=10p^9(1-p),\qquad P_8=45p^8(1-p)^2.
В сумме для случая p=\frac{1}{2} получаем P=P_{10}+P_9+P_8=\frac{56}{1024}\approx0,\!05 .
Таким образом, в предположении, что на самом деле новый препарат точно равноценен старому, мы рискуем сделать ошибочный вывод о том, что новый препарат превосходит старый, с вероятностью порядка 0,05. Чтобы свести эту вероятность приблизительно к 0,01, не увеличивая числа испытаний n=10 , пришлось бы установить, что преимущество нового препарата будет считаться доказанным лишь тогда, когда его применение даст положительный результат не менее чем в девяти случаях из десяти. Если это требование покажется сторонникам нового препарата слишком суровым, то придется назначить число испытаний n значительно большим, чем 10. Если, например, при n=100 установить, что преимущества нового препарата будут считаться доказанными при \mu>65 , то вероятность ошибки будет лишь P\approx0,\!0015 .
Если норма в 0,05 для серьезных научных исследований явно недостаточна, то вероятностью ошибки в 0,001 или в 0,003 по большей части принято пренебрегать даже в столь академических и обстоятельных исследованиях, как обработка астрономических наблюдений. Впрочем, иногда научные выводы, основанные на применении вероятностных закономерностей, обладают и значительно большей достоверностью (т. е. построены на пренебрежении значительно меньшими вероятностями). Об этом еще будет сказано далее.
В рассмотренных примерах мы уже неоднократно применяли частные случаи биномиальной формулы (6)
P_m=C_n^mp^m(1-p)^{n-m}
для вероятности P_m получить ровно т положительных исходов при n независимых испытаниях, в каждом из которых положительный исход имеет вероятность р. Рассмотрим при помощи этой формулы вопрос, поставленный в начале этого параграфа, о вероятности
<\varepsilon\right\},
где \mu - фактическое число положительных исходов. Очевидно, эта вероятность может быть записана в виде суммы тех P_m , для которых m удовлетворяет неравенству
\vline\,\frac{m}{n}-p\,\vline\,<\varepsilon,
то есть в виде
P=\sum_{m=m_1}^{m_2}P_m,
где m_1 - наименьшее из значений m , удовлетворяющих неравенству (12), а m_2 - наибольшее из таких m .
Формула (13) при сколько-нибудь больших n мало пригодна для непосредственных вычислений. Поэтому имело очень большое значение открытие Муавром для случая p=\frac{1}{2} и Лапласом при любом p асимптотической формулы, которая позволяет очень просто находить и изучать поведение вероятностей P_m при больших n . Формула эта имеет вид
P\sim\frac{1}{\sqrt{2\pi np(1-p)}}\exp\!\left[-\frac{(m-np)^2}{2np(1-p)}\right].
Если p не слишком близко к нулю или единице, то она достаточно точна уже при n порядка 100. Если положить
T=\frac{m-np}{\sqrt{np(1-p)}},
То формула (14) приобретет вид
P\sim\frac{1}{\sqrt{2\pi np(1-p)}}\,e^{-t^2/2}.
Из (13) и (16) можно вывести приближенное представление вероятности (11)
P\sim\frac{1}{\sqrt{2\pi}}\int\limits_{-T}^{T}e^{-t^2/2}\,dt=F(T),
где
T=\varepsilon\sqrt{\frac{n}{p(1-p)}}
Разность между левой и правой частями в (17) при постоянном и отличном от нуля и единицы p стремится при n\to\infty равномерно относительно \varepsilon к нулю. Для функции F(T) составлены подробные таблицы. Вот краткая выдержка из них
\begin{array}{c|c|c|c|c}T&1&2&3&4\\\hline F&0,\!68269&0,\!95450&0,\!99730&0,\!99993\end{array}
При T\to\infty значение функции F(T) стремится к единице.
Произведем при помощи формулы (17) оценку вероятности
P=\mathbf{P}\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\,<0,\!02\right\}\approx F\!\left(\frac{2}{\sqrt{p(1-p)}}\right) при n=10\,000,~\varepsilon=0,\!02 , так как T=\frac{2}{\sqrt{p(1-p)}} .
Так как функция F(T) монотонно возрастает с возрастанием T , то для не зависящей от p оценки P снизу надо взять наименьшее возможное (при различных p ) значение T . Такое наименьшее значение получится при p=\frac{1}{2} , и оно будет равно 4. Поэтому приближенно
P\geqslant F(4)=0,\!99993.
В неравенстве (19) не учтена ошибка, происходящая из-за приближенного характера формулы (17). Производя оценку связанной с этим обстоятельством погрешности, можно во всяком случае установить, что P>0,\!9999 .
В связи с рассмотренным примером применения формулы (17) следует отметить, что оценки остаточного члена формулы (17), дававшиеся в теоретических сочинениях по теории вероятностей, долго оставались мало удовлетворительными. Поэтому применения формулы (17) и ей подобных к расчетам при не очень больших n или при вероятностях p , очень близких к 0 или к 1 (а такие вероятности во многих случаях и имеют особенно большое значение) часто основывались лишь на опыте проверок такого рода результатов для ограниченного числа примеров, а не на достоверно установленных оценках возможной ошибки. Более подробное исследование, кроме того, показало, что во многих практически важных случаях приведенные выше асимптотические формулы нуждаются не только в оценке остаточного члена, но и в уточнении (так как без такого уточнения остаточный член слишком велик). В обоих направлениях наиболее полные результаты принадлежат С. Н. Бернштейну.
Соотношения (11), (17) и (18) можно переписать в виде
\mathbf{P}\!\left\{\,\vline\,\frac{\mu}{n}-p\,\vline\, Для достаточно больших t
правая часть формулы (20), не содержащая n
, сколь угодно близка к единице, т. е. к значению вероятности, которое соответствует полной достоверности. Мы видим, таким образом, что, как правило, отклонения частоты \frac{\mu}{n}
от вероятности p
имеют порядок
\frac{1}{\sqrt{n}}
. Такая пропорциональность точности действия вероятностных закономерностей квадратному корню из числа наблюдений типична и для многих других вопросов. Иногда говорят даже в порядке несколько упрощенной популяризации о "законе квадратного корня из n
" как основном законе теории вероятностей. Полную отчетливость эта мысль получила благодаря введению великим русским математиком П. Л. Чебышевым в систематическое употребление метода сведения различных вероятностных задач к подсчетам «математических ожиданий» и "дисперсий" для сумм и средних арифметических "случайных величин". Случайной величиной
называется величина, которая в данных условиях S
может принимать различные значения с определенными вероятностями. Для нас достаточно рассмотреть случайные величины, могущие принимать лишь конечное число различных значений. Чтобы указать, как говорят, распределение вероятностей
такого рода случайной величины \xi
, достаточно указать возможные ее значения x_1,x_2,\ldots,x_r
и вероятности P_r=\mathbf{P}\{\xi=x_r\}.
\sum_{r=1}^{s}P_r=1.
Примером случайной величины может служить изучавшееся выше число \mu
положительных исходов при п испытаниях. Математическим ожиданием
величины \xi
называется выражение M(\xi)=\sum_{r=1}^{s}P_rx_r,
D(\xi)=\sum_{r=1}^{s}P_r(x_r-M(\xi))^2.
\sigma_{\xi}=\sqrt{D(\xi)}=\sqrt{\sum_{r=1}^{s}P_r(x_r-M(\xi))^2}
В основе простейших применений дисперсий и средних квадратических отклонений лежит знаменитое неравенство Чебышева
\mathbf{P}\{|\xi-M(\xi)|\leqslant t_{\sigma_{\xi}}\}\geqslant1-\frac{1}{t^2},
Оно показывает, что отклонения случайной величины \xi
от её математического ожидания M(\xi)
, значительно превышающие среднее квадратическое отклонение \sigma_{\xi}
, встречаются редко. При образовании сумм случайных величин \xi=\xi^{(1)}+ \xi^{(2)}+\cdots+\xi^{(n)}
для их математических ожиданий всегда имеет место равенство M(\xi)=M(\xi^{(1)})+M(\xi^{(2)})+\cdots+M(\xi^{(n)}).
D(\xi)=D(\xi^{(1)})+D(\xi^{(2)})+\cdots+D(\xi^{(n)}).
верно только при некоторых ограничениях. Для справедливости равенства (23) достаточно, например, чтобы величины \xi^{(i)}
и \xi^{(j)}
с различными номерами не были, как говорят, «коррелированны» между собой, т. е. чтобы при i\ne j
выполнялось равенство M\Bigl\{(\xi^{(i)}-M(\xi^{(i)}))(\xi^{(j)}-M(\xi^{(j)}))\Bigl\}=0
Коэффициентом корреляции между случайными величинами \xi^{(i)}
и \xi^{(j)}
называется выражение R=\frac{M\Bigl\{\Bigl(\xi^{(i)}-M(\xi^{(i)})\Bigl)\Bigl(\xi^{(j)}-M(\xi^{(j)})\Bigl)\Bigl\}}{\sigma_{\xi^{(i)}}\,\sigma_{\xi^{(j)}}}.
Если \sigma_{\xi^{(i)}}>0
в \sigma_{\xi^{(j)}}>0
, то условие (24) равносильно тому, что R=0
. Коэффициент корреляции R
характеризует степень зависимости между случайными величинами. Всегда |R|\leqslant1
, причем R=\pm1
только при наличии линейной связи \eta=a\xi+b\quad(a\ne0).
Для независимых величин R=0
. В частности, равенство (24) соблюдается, если величины \xi^{(i)}
и \xi^{(j)}
независимы между собой. Таким образом, для взаимно независимых слагаемых всегда действует равенство (23). Для средних арифметических \zeta=\frac{1}{n}\Bigl(\xi^{(1)}+\xi^{(2)}+\cdots+\xi^{(n)}\Bigl)
из (23) вытекает D(\zeta_=\frac{1}{n^2}\Bigl(D(\xi^{(1)})+ D(\xi^{(2)})+\cdots+ D(\xi^{(n)})\Bigl).
Предположим теперь, что для всех слагаемых дисперсии не превосходят некоторой постоянной D(\xi^{(i)})\leqslant C^2.
Тогда по (25) D(\zeta)\leqslant\frac{C^2}{n},
\mathbf{P}\!\left\{|\zeta-M(\zeta)|\leqslant\frac{tC}{\sqrt{n}}\right\}\geqslant1-\frac{1}{t^2}
Неравенство (26) содержит в себе так называемый закон больших чисел в форме, установленной Чебышевым: если величины \xi^{(i)}
взаимно независимы и имеют ограниченные дисперсии, то при возрастании n
их средние арифметические \zeta
, всё реже заметно отклоняются от своих математических ожиданий M(\zeta)
. Более точно говорят, что последовательность случайных величин
\xi^{(1)},\,\xi^{(2)},\,\ldots\,\xi^{(n)},\,\ldots
\mathbf{P}\{|\zeta-M(\zeta)|\leqslant \varepsilon\}\to1\quad (n\to\infty).
Чтобы получить из неравенства (26) предельное соотношение (27), достаточно положить T=\varepsilon\cdot\frac{\sqrt{n}}{C}.
Большой ряд исследований А.А. Маркова, С.Н. Бернштейна, А.Я. Хинчина и других посвящен вопросу возможно большего расширения условий применимости предельного соотношения (27), т. е. условий применимости закона больших чисел. Эти исследования имеют принципиальное значение. Однако еще более важным является точное исследование распределения вероятностей отклонений \zeta-M(\zeta)
. Великой заслугой русской классической школы в теории вероятностей является установление того факта, что при очень широких условиях асимптотически (т. е. со все большей точностью при неограниченно растущих n
) справедливо равенство \mathbf{P}\!\left\{t_1\sigma_{\zeta}<\zeta-M(\zeta) Чебышев дал почти полное доказательство этой формулы для случая независимых и ограниченных слагаемых. Марков восполнил недостающее звено в рассуждениях Чебышева и расширил условия применимости формулы (28). Еще более общие условия были даны Ляпуновым. Вопрос о распространении формулы (28) на суммы зависимых слагаемых с особенной полнотой был изучен С. Н. Бернштейном. Формула (28) охватила столь большое число частных задач, что долгое время ее называли центральной предельной теоремой теории вероятностей. Хотя при новейшем развитии теории вероятностей она оказалась включенной в ряд более общих закономерностей, ее значение трудно переоценить и в настоящее Время.
Если слагаемые независимы и их дисперсии одинаковы и равны: D(\xi^{(i)})=\sigma^2,
то формуле (28) удобно, учитывая соотношение (25), придать вид \mathbf{P}\!\left\{\frac{t_1\sigma}{\sqrt{n}}<\zeta-M(\zeta)<\frac{t_2\sigma}{\sqrt{n}}\right\}\sim\frac{1}{\sqrt{2\pi}}\int\limits_{t_1}^{t_2}e^{-t^2/2}\,dt\,.
Покажем, что соотношение (29) содержит в себе решение задачи об отклонениях частоты \frac{\mu}{n}
от вероятности p
, которой мы занимались ранее. Для этого введем случайные величины \xi^{(i)}
определяя их следующим условием: \xi^{(i)}=0
, если i
-е испытание имело отрицательный исход, \xi^{(i)}=1
, если i
-е испытание имело положительный исход. Легко проверить, что тогда \mathbf{P}\!\left\{t_1\sqrt{\frac{p(1-p)}{n}}<\frac{\mu}{n}-p В начале курса мы уже говорили о
том, что математические законы теории вероятностей получены абстрагированием
реальных статистических закономерностей, свойственных массовым случайным
явлениям. Наличие этих закономерностей связано именно с массовостью явлений, то
есть с большим числом выполняемых однородных опытов или с большим числом
складывающихся случайных воздействий, порождающих в своей совокупности
случайную величину, подчиненную вполне определенному закону. Свойство
устойчивости массовых случайных явлений известно человечеству еще с глубокой
древности. В какой бы области оно ни проявлялось, суть его сводится к
следующему: конкретные особенности каждого отдельного случайного явления почти
не сказываются на среднем результате масс и таких явлений; случайные отклонения
от среднего, неизбежные в каждом отдельном явлении, в массе взаимно погашаются,
нивелируются, выравниваются. Именно эта устойчивость средних и представляет
собой физическое содержание «закона больших чисел», понимаемого в широком
смысле слова: при очень большом числе случайных явлений средний их результат
практически перестает быть случайным и может быть предсказан с большой степенью
определенности. В узком смысле слова под «законом
больших чисел» в теории вероятностей понимается ряд математических теорем, в
каждой из которых для тех или иных условий устанавливается факт приближения
средних характеристик большого числа опытов к некоторым определенным
постоянным. В 2.3 мы уже формулировали простейшую из
этих теорем - теорему Я. Бернулли. Она утверждает, что при большом числе опытов
частота события приближается (точнее - сходится по вероятности) к вероятности
этого события. С другими, более общими формами закона больших чисел мы
познакомимся в данной главе. Все они устанавливают факт и условия сходимости по
вероятности тех или иных случайных величин к постоянным, не случайным величинам. Закон больших чисел играет важную
роль в практических применениях теории вероятностей. Свойство случайных величин
при определенных условиях вести себя практически как не случайные позволяет
уверенно оперировать с этими величинами, предсказывать результаты массовых
случайных явлений почти с полной определенностью. Возможности таких предсказаний в
области массовых случайных явлений еще больше расширяются наличием другой группы
предельных теорем, касающихся уже не предельных значений случайных величин, а предельных
законов распределения. Речь идет о группе теорем, известных под названием
«центральной предельной теоремы». Мы уже говорили о том, что при суммировании
достаточно большого числа случайных величин закон распределения суммы
неограниченно приближается к нормальному при соблюдении некоторых условий. Эти условия,
которые математически можно формулировать различным образом - в более или менее
общем виде, - по существу сводятся к требованию, чтобы влияние на сумму
отдельных слагаемых было равномерно малым, т. е. чтобы в состав суммы не
входили члены, явно преобладающие над совокупностью остальных по своему влиянию
на рассеивание суммы. Различные формы центральной предельной теоремы
различаются между собой теми условиями, для которых устанавливается это
предельное свойство суммы случайных величин. Различные формы закона больших
чисел вместе с различными формами центральной предельной теоремы образуют
совокупность так называемых предельных теорем теории вероятностей.
Предельные теоремы дают возможность не только осуществлять научные прогнозы в
области случайных явлений, но и оценивать точность этих прогнозов. В данной главе мы рассмотрим
только некоторые, наиболее простые формы предельных теорем. Сначала будут
рассмотрены теоремы, относящиеся к группе «закона больших чисел», затем - теоремы,
относящиеся к группе «центральной предельной теоремы». План:
1. Понятие центральной предельной теоремы (теорема Ляпунова) 2. Закон больших чисел, вероятность и частота (теоремы Чебышева и Бернулли) 1. Понятие центральной предельной теоремы.
Нормальное распределение вероятностей имеет в теории вероятностей большое значение. Нормальному закону подчиняется вероятность при стрельбе по цели, в измерениях и т. п. В частности, оказывается, что закон распределения суммы достаточно большого числа независимых случайных величин с произвольными законами распределения близок к нормальному распределению. Этот факт, называемый центральной предельной теоремой или теоремой Ляпунова. Известно, что нормально распределенные случайные величины широко распространены на практике. Чем это объясняется? Ответ на этот вопрос был дан Центральная предельная теорема.
Если случайная величина X представляет, собой сумму очень большого числа взаимно независимых случайных величин, влияние каждой из которых на всю сумму ничтожно мало, то X имеет распределение, близкое к нормальному распределению. Пример.
Пусть производится измерение некоторой физической величины. Любое измерение дает лишь приближенное значение измеряемой величины, так как на результат измерения влияют очень многие независимые случайные факторы (температура, колебания прибора, влажность и др.). Каждый из этих факторов порождает ничтожную "частную ошибку". Однако, поскольку число этих факторов очень велико, их совокупное действие порождает уже заметную «суммарную ошибку». Рассматривая суммарную ошибку как сумму очень большого числа взаимно независимых частных ошибок, мы вправе заключить, что суммарная ошибка имеет распределение, близкое к нормальному распределению. Опыт подтверждает справедливость такого заключения. Рассмотрим условия, при которых выполняется "центральная предельная теорема" Х1,
Х2, ...,Х
n
– последовательность независимых случайных величин, M
(Х1),
M
(Х2), ...,
M
(Х
n
)
- конечные математические ожидания этих величин, соответственно равные М(Xk
)=
ak
D(Х1),
D
(Х2), ...,
D
(Х
n
)
- конечные дисперсии их, соответственно равные D
(X
k
)=
bk
2
Введем обозначения: S= Х1+Х2 + ...+Хn; A k= Х1+Х2 + ...+Хn=; B2= D(Х1)+
D
(Х2)+ ...+
D
(Х
n
)
= Запишем функцию распределения нормированной суммы: Говорят, что к последовательности Х1,
Х2, ...,Х
n
применима центральная предельная теорема, если при любом x
функция распределения нормированной суммы при n ® ¥ стремится к нормальной функции распределения: Right " style="border-collapse:collapse;border:none;margin-left:6.75pt;margin-right: 6.75pt"> Рассмотрим дискретную случайную величину X
,
заданную таблицей распределения: Поставим перед собой задачу оценить вероятность того, что отклонение случайной величины от ее математического ожидания не превышает по абсолютной величине положительного числа ε
Если ε
достаточно мало, то мы оценим, таким образом, вероятность того, что X
примет значения, достаточно близкие к своему математическому ожиданию. доказал неравенство, позволяющее дать интересующую нас оценку. Лемма Чебышева.
Дана случайная величина X, принимающая только неотрицательные значения с математическим ожиданием M(X). Для любого числа α>0 имеет место выражение: Неравенство Чебышева.
Вероятность того, что отклонение случайной величины X от ее математического ожидания по абсолютной величине меньше положительного числа ε
, не меньше, чем 1 – D(X) / ε
2: Р (| X-M (X) | < ε
)
³ 1 - D (Х) / ε
2. Замечание.
Неравенство Чебышева имеет для практики ограниченное значение, поскольку часто дает грубую, а иногда и тривиальную (не представляющую интереса) оценку. Теоретическое же значение неравенства Чебышева весьма велико. Ниже мы воспользуемся этим неравенством для вывода теоремы Чебышева. 2.2. Теорема Чебышева
Если Х1, Х2, ...,Хn..- попарно независимые случайные величины, причем дисперсии их равномерно ограничены (не превышают постоянного числа С), то, как бы мало ни было положительное число ε
, вероятность неравенства ÷ (Х1+Х2 + ...+Хn) / n - (M(Х1)+M(Х2)+ ...+M(Хn))/n | < ε
будет как угодно близка к единице, если число случайных величин достаточно велико.
P (÷ (Х1+Х2 + ...+Хn) / n - (M(Х1)+M(Х2)+ ...+M(Хn))/n | < ε
)=1. Теорема Чебышева утверждает: 1. Рассматривается достаточно большое число независимых случайных величин, имеющих ограниченные дисперсии, Формулируя теорему Чебышева, мы предполагали, что случайные величины имеют различные математические ожидания. На практике часто бывает, что случайные величины имеют одно и то же математическое ожидание. Очевидно, что если вновь допустить, что дисперсии этих величин ограничены, то к ним будет применима теорема Чебышева. Обозначим математическое ожидание каждой из случайных величин через а;
В рассматриваемом случае среднее арифметическое математических ожиданий, как легко видеть, также равно а.
Можно сформулировать теорему Чебышева для рассматриваемого частного случая. "Если Х1, Х2, ...,Хn..- попарно независимые случайные величины, имеющие одно и то же математическое ожидание а, и если дисперсии этих величин равномерно ограничены, то, как бы мало ни было число ε
> О, вероятность неравенства ÷ (Х1+Х2 + ...+Хn) / n - a
| < ε
будет как угодно близка к единице, если число случайных величин достаточно велико".
Другими словами, в условиях теоремы P (÷ (Х1+Х2 + ...+Хn) / n - a | < ε
) = 1. 2.3. Сущность теоремы Чебышева
Хотя отдельные независимые случайные величины могут принимать значения, далекие от своих математических ожиданий, среднее арифметическое достаточно большого числа случайных величин с большой вероятностью принимает значения, близкие к определенному постоянному числу, а именно к числу (М (Xj
)
+ М (Х2)
+... + М (Х„))/п
или к числу а в
частном случае. Иными словами, отдельные случайные величины могут иметь значительный разброс, а их среднее арифметическое рассеянно мало. Таким образом, нельзя уверенно предсказать, какое возможное значение примет каждая из случайных величин, но можно предвидеть, какое значение примет их среднее арифметическое. Итак, среднее арифметическое достаточно большого числа независимых случайных величин (дисперсии которых равномерно ограничены) утрачивает характер случайной, величины. Объясняется это тем, что отклонения каждой из величин от своих математических ожиданий могут быть как положительными, так и отрицательными, а в среднем арифметическом они взаимно погашаются. Теорема Чебышева справедлива не только для дискретных, но и для непрерывных случайных величин; она является примером, подтверждающим справедливость учения о связи между случайностью и необходимостью. 2.4. Значение теоремы Чебышева для практики
Приведем примеры применения теоремы Чебышева к решению практических задач. Обычно для измерения некоторой физической величины производят несколько измерений и их среднее арифметическое принимают в качестве искомого размера. При каких условиях этот способ измерения можно считать правильным? Ответ на этот вопрос дает теорема Чебышева (ее частный случай). Действительно, рассмотрим результаты каждого измерения как случайные величины Х1, Х2, ...,Хn К. этим величинам можно применить теорему Чебышева, если: 1) Они попарно независимы. 2) имеют одно и то же математическое ожидание, 3) дисперсии их равномерно ограничены. Первое требование выполняется, если результат каждого измерения не зависит от результатов остальных. Второе требование выполняется, если измерения произведены без систематических (одного знака) ошибок. В этом случае математические ожидания всех случайных величин одинаковы и равны истинному размеру а.
Третье требование выполняется, если прибор обеспечивает определенную точность измерений. Хотя при этом результаты отдельных измерений различны, но рассеяние их ограничено. Если все указанные требования выполнены, мы вправе применить к результатам измерений теорему Чебышева: при достаточно большом п
вероятность неравенства | (Х1 + Хя+...+Х„)/п - а |< ε
как угодно близка к единице. Другими словами, при достаточно большом числе измерений почти достоверно, что их среднее арифметическое как угодно мало отличается от истинного значения измеряемой величины. Теорема Чебышева указывает условия, при которых описанный способ измерения может быть применен. Однако ошибочно думать, что, увеличивая число измерений, можно достичь сколь угодно большой точности. Дело в том, что сам прибор дает показания лишь с точностью ± α , поэтому каждый из результатов измерений, а следовательно, и их среднее арифметическое будут получены лишь с точностью, не превышающей точности прибора. На теореме Чебышева основан широко применяемый в статистике выборочный метод, суть которого состоит в том, что по сравнительно небольшой случайной выборке судят о всей совокупности (генеральной совокупности) исследуемых объектов. Например, о качестве кипы хлопка заключают по небольшому пучку, состоящему из волокон, наудачу отобранных из разных мест кипы. Хотя число волокон в пучке значительно меньше, чем в кипе, сам пучок содержит достаточно большое количество волокон, исчисляемое сотнями. В качестве другого примера можно указать на определение качества зерна по небольшой его пробе. И в этом случае число наудачу отобранных зерен мало сравнительно со всей массой зерна, но само по себе оно достаточно велико. Уже из приведенных примеров можно заключить, что для практики теорема Чебышева имеет неоценимое значение. 2.5. Теорема
Бернулли
Производится п
независимых испытаний (не событий, а испытаний). В каждом из них вероятность появления события A
равна р.
Возникает вопрос,
какова примерно будет относительная частота появлений события? На этот вопрос отвечает теорема, доказанная Бернулли которая получила название "закона больших чисел" и положила начало теории вероятностей как науке. Теорема Бернулли.
Если в каждом из п
независимых испытаний вероятность р
появления события А
постоянна, то как угодно близка к единице вероятность того, что отклонение относительной частоты от вероятности р
по абсолютной величине будет сколь угодно малым, если число испытаний достаточно велико. Другими словами, если ε >0 сколь угодно малое число, то при соблюдении условий теоремы имеет место равенство Р(|
m
/ п - р|
< ε)= 1 Замечание.
Было бы неправильным на основании теоремы Бернулли сделать вывод, что с ростом числа испытаний относительная частота неуклонно стремится к вероятности р;
другими словами, из теоремы Бернулли не вытекает равенство (т/п) = р,
В
теореме речь идет лишь о вероятности того, что при достаточно большом числе испытаний относительная частота будет, как угодно мало отличаться от постоянной вероятности появления события в каждом испытании. Задание 7-1.
1.
Оценить вероятность того, что при 3600 бросаниях кости число появления 6 очков будет не меньше 900. Решение.
Пусть x – число появления 6 очков при 3600 бросаниях монеты. Вероятность появления 6 очков при одном бросании равна p=1/6, тогда M(x)=3600·1/6=600. Воспользуемся неравенством (леммой) Чебышева при заданном α = 900 =
P
(x
³ 900) £ 600 / 900 =2 / 3 Ответ
2 / 3. 2.
Проведено 1000 независимых испытаний, p=0,8. Найти вероятность числа наступлений события A в этих испытаниях отклонится от своего математического ожидания по модулю меньше, чем 50. Решение.
x –число наступлений события A в n – 1000 испытаниях. М(Х)= 1000·0,8=800. D(x)=100·0,8·0,2=160 Воспользуемся неравенством Чебышева при заданном ε = 50 Р (| х-M (X) | < ε)
³ 1 - D (х) / ε
2 Р (| х-800 | < 50)
³ / 50
2 = 1-160 / 2500 = 0,936. Ответ.
0,936 3.
Используя неравенство Чебышева, оценить вероятность того, что |Х - М(Х)|
< 0,1, если D (X) = 0,001. Ответ Р³0,9. 4.
Дано: Р(|Х-М(Х)\ <
ε) ³ 0,9; D
(X
)=
0,004. Используя неравенство Чебышева, найти ε. Ответ.
0,2. Контрольные вопросы и задания
1. Назначение центральной предельной теоремы 2. Условия применимости теоремы Ляпунова. 3. Отличие леммы и теоремы Чебышева. 4. Условия применимости теоремы Чебышева. 5. Условия применимости теоремы Бернулли (закона больших чисел) Требования к знаниям умениям и навыкам
Студент должен знать обще смысловую формулировку центральной предельной теоремы. Уметь формулировать частные теоремы для не зависимых одинаково распределенных случайных величин. Понимать неравенство Чебышева и закон больших чисел в форме Чебышева. Иметь представление о частоте события, взаимоотношениях между понятиями "вероятность" и "частота". Иметь представление о законе больших чисел в форме Бернулли. (1857-1918), выдающийся русский математик Смысл закона больших чисел Чебышева состоит в следующем. В то время как отдельная случайная величина может
принимать значения, очень далекие от своего математического ожидания, средняя арифметическая большого числа случайных величин с
вероятностью, близкой к единице, принимает значение, мало отличающееся от среднего арифметического их математических ожиданий.
Закон больших чисел. Неравенство Чебышева. Теоремы Чебышева и Бернулли.
Неравенство Чебышева.
Доказательство. Пусть Х
задается рядом распределения Так как события |X
–
M
(X
)| X –
M
(X
)| ≥ ε противоположны, то р
(|X
–
M
(X
)| р (|X
–
M
(X
)| ≥ ε) = 1, следовательно, р
(|X
–
M
(X
)| р (|X
–
M
(X
)| ≥ ε). Найдем р
(|X
–
M
(X
)| ≥ ε). D
(X
) = (x
1 – M
(X
))²p
1 + (x
2 – M
(X
))²p
2 + … + (x
n
–
M
(X
))²p
n
.
Исключим из этой суммы те слагаемые, для которых |X
–
M
(X
)| k
слагаемых. Тогда D
(X
) ≥ (x
k
+
1 – M
(X
))²p
k
+
1 + (x
k
+
2 – M
(X
))²p
k
+2 + … + (x
n
–
M
(X
))²p
n
≥ ε² (p
k
+
1 + p
k
+
2 + … + p
n
). Отметим, что p
k
+
1 + p
k
+
2 + … + p
n
есть вероятность того, что |X
–
M
(X
)| ≥ ε, так как это сумма вероятностей всех возможных значений Х
, для которых это неравенство справедливо. Следовательно, D
(X
) ≥ ε² р
(|X
–
M
(X
)| ≥ ε), или р
(|X
–
M
(X
)| ≥ ε) ≤ D
(X
) / ε². Тогда вероятность противоположного события p
( | X
–
M
(X
)| D(X
) / ε², что и требо-валось доказать. Теорема 13.2 (теорема Чебышева).
Если Х
1 , Х
2 ,…, Х
п
– попарно независимые случайные величины, дисперсии которых равномерно ограничены (D
(X
i
) ≤ C
), то для сколь угодно малого числа ε вероятность неравенства будет сколь угодно близка к 1, если число случайных величин достаточно велико. Замечание.
Иначе говоря, при выполнении этих условий Доказательство. Рассмотрим новую случайную величину Перейдем к пределу при Теорема доказана. Если Х
1 , Х
2 , …, Х
п
– попарно независимые случайные величины с равномерно ограничен-ными дисперсиями, имеющие одинаковое математическое ожидание, равное а
, то для любого сколь угодно малого ε > 0 вероятность неравенства Вывод:
среднее арифметическое достаточно большого числа случайных величин прини-мает значения, близкие к сумме их математических ожиданий, то есть утрачивает характер случайной величины. Например, если проводится серия измерений какой-либо физической величины, причем: а) результат каждого измерения не зависит от результатов остальных, то есть все результаты представляют собой попарно независимые случайные величины; б) измерения производятся без систематических ошибок (их математические ожидания равны между собой и равны истинному значению а
измеряемой величины); в) обеспечена определенная точность измерений, следовательно, дисперсии рассматривае-мых случайных величин равномерно ограничены; то при достаточно большом числе измерений их среднее арифметическое окажется сколь угодно близким к истинному значению измеряемой величины. (13.2) Доказательство. Введем случайные величины Х
1 , Х
2 , …, Х
п
, где X
i
–
число появлений А
в
i
-м опыте. При этом X
i
могут принимать только два значения: 1(с вероятностью р
) и 0 (с вероятностью q
=
1 – p
). Кроме того, рассматриваемые случайные величины попарно независимы и их дисперсии равномерно ограничены (так как D
(X
i
) = pq
, p
+
q
=
1, откуда pq
≤ ¼). Следовательно, к ним можно применить теорему Чебышева при M
i
=
p
: . Но что и требовалось доказать. Лекция 14.
Центральная предельная теорема Ляпунова. Предельная теорема Муавра-Лапласа.
Для доказательства центральной предельной теоремы используется метод характеристичес-ких функций. g
(t
) = M
( e
itX
) (14.1) Таким образом,
g
(t
) представляет собой математическое ожидание некоторой комплексной случайной величины U
=
e
itX
, связанной с величиной Х
. В частности, если Х
– дискретная случайная величина, заданная рядом распределения, то . (14.2) Для непрерывной случайной величины с плотностью распределения f
(x
) (14.3) Пример 1. Пусть Х
– число выпадений 6 очков при одном броске игральной кости. Тогда по формуле (14.2) g
(t
) = Пример 2. Найдем характеристическую функцию для нормированной непрерывной случайной величины, распределенной по нормальному закону Свойства характеристических функций. (14.4) (преобразование (14.3) называется преобразованием Фурье
, а преобразование (14.4) – обратным преобразованием Фурье
). 2. Если случайные величины Х
и Y
связаны соотношением Y
=
aX
, то их характеристические функции связаны соотношением g
y
(t
) = g
x
(at
). (14.5) 3. Характеристическая функция суммы независимых случайных величин равна произведению характеристических функций слагаемых: для (14.6) Доказательство. Докажем теорему для непрерывных случайных величин Х
1 , Х
2 ,…, Х
п
(доказательство для дискретных величин аналогично). Согласно условию теоремы, характеристические функции слагаемых одинаковы: , где Если предположить, что т
= 0 (то есть перенести начало отсчета в точку т
), то (так как т
= 0). Подставив полученные результаты в формулу Маклорена, найдем, что . Рассмотрим новую случайную величину Прологарифмируем полученное выражение: где Разложим Где последний предел равен 0, так как при . Следовательно, А.М.Ляпунов доказал центральную предельную теорему для условий более общего вида: , (14.7) где b
k
– третий абсолютный центральный момент величины Х
к
, а
D
k
– ее дисперсия, то Х
имеет распределение, близкое к нормальному (условие Ляпунова означает, что влияние каждого слагаемого на сумму ничтожно мало). Частным случаем центральной предельной теоремы для дискретных случайных величин является теорема Муавра-Лапласа. Теорема 14.3 (теорема Муавра-Лапласа).
Если производится п
независимых опытов, в каждом из которых событие А
появляется с вероятностью р
, то справедливо соотношение: (14.8) где Y
– число появлений события А
в п
опытах,
q
=
1 – p
. Доказательство. Будем считать, что Поскольку Y
имеет биномиальное распределение, . Тогда Следствие. В условиях теоремы Муавра-Лапласа вероятность (14.9) где Пример 3. Найти вероятность того, что при 100 бросках монеты число выпадений герба окажется в пределах от 40 до 60. Применим формулу (14.8), учитывая, что п
= 0,5. Тогда пр
= 100·0,5 = 50, Тогда, если Пример 4. В условиях предыдущего примера найти вероятность того, что выпадет 45 гербов. Найдем Лекция 15.
Основные понятия математической статистики. Генеральная совокупность и выборка. Вариационный ряд, статистический ряд. Группированная выборка. Группированный статистический ряд. Полигон частот. Выборочная функция распределения и гистограмма.
Определение способов сбора и группировки этих статистических данных; Разработка методов анализа полученных данных в зависимости от целей исследования, к которым относятся: а) оценка неизвестной вероятности события; оценка неизвестной функции распределения; оценка параметров распределения, вид которого известен; оценка зависимости от других случайных величин и т.д.; б) проверка статистических гипотез о виде неизвестного распределения или о значениях параметров известного распределения. Для решения этих задач необходимо выбрать из большой совокупности однородных объектов ограниченное количество объектов, по результатам изучения которых можно сделать прогноз относительно исследуемого признака этих объектов. Определим основные понятия математической статистики. Генеральная совокупность
– все множество имеющихся объектов. Выборка
– набор объектов, случайно отобранных из генеральной совокупности. Объем генеральной совокупности
N
и объем выборки
n
– число объектов в рассматривае-мой совокупности. Виды выборки: Повторная
– каждый отобранный объект перед выбором следующего возвращается в генеральную совокупность; Бесповторная
– отобранный объект в генеральную совокупность не возвращается. Пусть интересующая нас случайная величина Х
принимает в выборке значение х
1 п
1 раз, х
2 – п
2 раз, …, х
к
– п
к
раз, причем При проведении 20 серий из 10 бросков игральной кости число выпадений шести очков оказалось равным 1,1,4,0,1,2,1,2,2,0,5,3,3,1,0,2,2,3,4,1.Составим вариационный ряд: 0,1,2,3,4,5. Статистический ряд для абсолютных и относительных частот имеет вид: Если исследуется некоторый непрерывный признак, то вариационный ряд может состоять из очень большого количества чисел. В этом случае удобнее использовать группированную выборку
. Для ее получения интервал, в котором заключены все наблюдаемые значения признака, разбивают на несколько равных частичных интервалов длиной h
, а затем находят для каждого частичного интервала n
i
– сумму частот вариант, попавших в i
-й интервал. Составленная по этим результатам таблица называется группированным статистическим рядом
: Полигон частот. Выборочная функция распределения и гистограмма.
По аналогии с функцией распределения случайной величины можно задать некоторую функцию, относительную частоту события X
x
.
Определение 15.1.
Выборочной (эмпирической) функцией распределения
называют функцию F
*
(x
), определяющую для каждого значения х
относительную частоту события X
x
.
Таким образом, , (15.1) где п
х
– число вариант, меньших х
, п
– объем выборки. Из определения эмпирической функции распределения видно, что ее свойства совпадают со свойствами F
(x
), а именно: Лекция 16.
Числовые характеристики статистического распределения: выборочное среднее, оценки дисперсии, оценки моды и медианы, оценки начальных и центральных моментов. Статистическое описание и вычисление оценок параметров двумерного случайного вектора.
Определение 16.1.
Выборочным средним
называется среднее арифметическое значений случайной величины, принимаемых в выборке: , (16.1) где x
i
– варианты, n
i
- частоты. Замечание.
Выборочное среднее служит для оценки математического ожидания исследуемой случайной величины. В дальнейшем будет рассмотрен вопрос, насколько точной является такая оценка. Определение 16.2.
Выборочной дисперсией
называется , (16.2) а выборочным средним квадратическим отклонением
– (16.3) Так же, как в теории случайных величин, можно доказать, что справедлива следующая формула для вычисления выборочной дисперсии: . (16.4) Пример 1. Найдем числовые характеристики выборки, заданной статистическим рядом Другими характеристиками вариационного ряда являются: - мода
М
0
– варианта, имеющая наибольшую частоту (в предыдущем примере М
0
= 5). - медиана
т
е
- варианта, которая делит вариационный ряд на две части, равные по числу вариант. Если число вариант нечетно (n
=
2k
+ 1), то m
e
=
x
k
+
1 , а при четном n
=
2k
Оценки начальных и центральных моментов (так называемые эмпирические моменты) определяются аналогично соответствующим теоретическим моментам: - начальным эмпирическим моментом порядка
k
называется . (16.5) В частности, - центральным эмпирическим моментом порядка
k
называется . (16.6) В частности, двумерного случайного вектора.
Двумерная выборка представляет собой набор значений случайного вектора: (х
1 , у
1), (х
2 , у
2), …, (х
п
, у
п
). Для нее можно определить выборочные средние составляющих: Если существует зависимость между составляющими двумерной случайной величины, она может иметь разный вид: функциональная зависимость, если каждому возможному значению Х
соответствует одно значение Y
, и статистическая, при которой изменение одной величины приводит к изменению распределения другой. Если при этом в результате изменения одной величины меняется среднее значение другой, то статистическую зависимость между ними называют корреляционной. Лекция 17.
Основные свойства статистических характеристик параметров распределения: несме-щенность, состоятельность, эффективность. Несмещенность и состоятельность выборочного среднего как оценки математического ожидания. Смещенность выборочной дисперсии. Пример несмещенной оценки дисперсии. Асимптотически несмещенные оценки. Способы построения оценок: метод наибольшего правдоподобия, метод момен-тов, метод квантили, метод наименьших квадратов, байесовский подход к получению оценок.
Пусть Θ* - статистическая оценка неизвестного параметра Θ теоретического распределения. Извлечем из генеральной совокупности несколько выборок одного и того же объема п
и вычислим для каждой из них оценку параметра Θ: М
(Θ*) = Θ. (17.1) Смещенной
называют оценку, математическое ожидание которой не равно оцениваемому параметру. Однако несмещенность не является достаточным условием хорошего приближения к истин-ному значению оцениваемого параметра. Если при этом возможные значения Θ* могут значительно отклоняться от среднего значения, то есть дисперсия Θ* велика, то значение, найденное по данным одной выборки, может значительно отличаться от оцениваемого параметра. Следовательно, требуется наложить ограничения на дисперсию. Будем рассматривать как случайную величину, а х
1 , х
2 ,…, х
п
, то есть значения исследуемой случайной величины, составляющие выборку,
– как независимые, одинаково распределенные случайные величины Х
1 , Х
2 ,…, Х
п
, имеющие математическое ожидание а
. Из свойств математического ожидания следует, что Но, поскольку каждая из величин Х
1 , Х
2 ,…, Х
п
имеет такое же распределение, что и генеральная совокупность, а
= М
(Х
), то есть М
( В отличие от выборочного среднего, выборочная дисперсия является смещенной оценкой дисперсии генеральной совокупности. Можно доказать, что , (17.2) где D
Г
– истинное значение дисперсии генеральной совокупности. Можно предложить другую оценку дисперсии – исправленную дисперсию
s
²
, вычисляемую по формуле . (17.3) Такая оценка будет являться несмещенной. Ей соответствует исправленное среднее квадратическое отклонение
. (17.4) Определение 17.4.
Оценка некоторого признака называется асимптотически несмещенной
, если для выборки х
1 , х
2 , …, х
п
, (17.5) где Х
– истинное значение исследуемой величины. Пусть р
(х
i
, Θ) – вероятность того, что в результате испытания величина Х
примет значение х
i
. Назовем функцией правдоподобия
дискретной случайной величины Х
функцию аргумента Θ, определяемую по формуле: L
(х
1 , х
2 , …, х
п
; Θ) = p
(x
1 ,Θ)p
(x
2 ,Θ)…p
(x
n
,Θ). Тогда в качестве точечной оценки параметра Θ принимают такое его значение Θ* = Θ(х
1 , х
2 , …, х
п
), при котором функция правдоподобия достигает максимума. Оценку Θ* называют оценкой наибольшего правдоподобия
. Поскольку функции L
и lnL
достигают максимума при одном и том же значении Θ, удобнее искать максимум ln L
– логарифмической функции правдоподобия
. Для этого нужно: Недостаток метода наибольшего правдоподобия: сложность вычислений. L
(х
1 , х
2 , …, х
п
; Θ) = f
(x
1 ,Θ)f
(x
2 ,Θ)…f
(x
n
,Θ). Оценка наибольшего правдоподобия неизвестного параметра проводится так же, как для дискретной случайной величины. Если задан вид плотности распределения f
(x
, Θ), определяемой одним неизвестным параметром Θ, то для оценки этого параметра достаточно иметь одно уравнение. Например, можно приравнять начальные моменты первого порядка: , получив тем самым уравнение для определения Θ. Его решение Θ* будет точечной оценкой параметра, которая является функцией от выборочного среднего и, следовательно, и от вариант выборки: Θ = ψ (х
1 , х
2 , …, х
п
). Если известный вид плотности распределения f
(x
, Θ 1 , Θ 2) определяется двумя неизвестными параметрами Θ 1 и Θ 2 , то требуется составить два уравнения, например ν 1 = М
1 , μ 2 = т
2 . Отсюда Θ 1 = ψ 1 (х
1 , х
2 , …, х
п
), Θ 2 = ψ 2 (х
1 , х
2 , …, х
п
). Если требуется оценить зависимость величин у
и х
, причем известен вид связывающей их функции, но неизвестны значения входящих в нее коэффициентов, их величины можно оценить по имеющейся выборке с помощью метода наименьших квадратов. Для этого функция у
= φ (х
) выбирается так, чтобы сумма квадратов отклонений наблюдаемых значений у
1 , у
2 ,…, у
п
от φ(х
i
) была минимальной: При этом требуется найти стационарную точку функции φ(x
; a
,
b
,
c
…
), то есть решить систему: (решение, конечно, возможно только в случае, когда известен конкретный вид функции φ). Рассмотрим в качестве примера подбор параметров линейной функции методом наименьших квадратов. Для того, чтобы оценить параметры а
и b
в функции
y
=
ax
+
b
, найдем . Следовательно, связь между х
и у
можно задать в виде: , где , р
(х
Х
, q
(y
) – плотность безусловного распределения Y
. Задача может быть решена только тогда, когда известна р
(х
). Иногда, однако, удается построить состоятельную оценку для q
(y
), зависящую только от полученных в выборке значений Y
. Лекция 18.
Интервальное оценивание неизвестных параметров. Точность оценки, доверительная вероятность (надежность), доверительный интервал. Построение доверительных интервалов для оценки математического ожидания нормального распределения при известной и при неизвестной дисперсии. Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения.
Определение 18.1.
Надежностью (доверительной вероятностью)
оценки Θ* параметра Θ называется вероятность γ того, что выполняется неравенство | Θ* - Θ | Определение 18.2.
Доверительным
называется интервал, в который попадает неизвестный параметр с заданной надежностью γ. Пусть исследуемая случайная величина Х
распределена по нормальному закону с известным средним квадратическим σ, и требуется по значению выборочного среднего оценить ее математическое ожидание а
. Будем рассматривать выборочное среднее как случайную величину а значения вариант выборки х
1 , х
2 ,…, х
п
как одинаково распределенные независимые случайные величины Х
1 , Х
2 ,…, Х
п
, каждая из которых имеет математическое ожидание а
и среднее квадратическое отклонение σ. При этом М
() = а
, р
( 2Ф(t
), где . (18.1) Итак, значение математического ожидания а
с вероятностью (надежностью) γ попадает в интервал Определим t
, при котором Ф(t
) = 0,9:2 = 0,45: t
= 1,645. Тогда , или 2,471 a
а
с надежностью 0,9. Если известно, что исследуемая случайная величина Х
распределена по нормальному закону с неизвестным средним квадратическим отклонением, то для поиска доверительного интервала для ее математического ожидания построим новую случайную величину , (18.2) где - выборочное среднее, s
– исправленная дисперсия, п
– объем выборки. Эта случайная величина, возможные значения которой будем обозначать t
, имеет распределение Стьюдента (см. лекцию 12) с k
=
n
– 1 степенями свободы. Поскольку плотность распределения Стьюдента (18.3) Таким образом, получен доверительный интервал для а
, где t
γ
можно найти по соответствую-щей таблице при заданных п
и γ. Пример. Пусть объем выборки п
= 25, = 3, s
= 1,5. Найдем доверительный интервал для а
при γ = 0,99. Из таблицы находим, что t
γ
(п
= 25, γ = 0,99) = 2,797. Тогда Будем искать для среднего квадратического отклонения нормально распределенной случайной величины доверительный интервал вида (s
– δ,
s
+δ
), где s
– исправленное выборочное среднее квадратическое отклонение, а для δ выполняется условие: p
(|σ – s
| Рассмотрим случайную величину χ, определяемую по формуле , которая распределена по закону «хи-квадрат» с п
-1 степенями свободы (см. лекцию 12). Плотность ее распределения не зависит от оцениваемого параметра σ, а зависит только от объема выборки п
. Преобразуем неравенство (18.4) так, чтобы оно приняло вид χ 1 Предполо-жим, что q
или, после умножения на . (18.5) Пусть п
= 20, s
= 1,3. Найдем доверительный интервал для σ при заданной надежности γ = 0,95. Из соответствующей таблицы находим q
(n
= 20, γ = 0,95) = 0,37. Следовательно, границы доверительного интервала: 1,3(1-0,37) = 0,819 и 1,3(1+0,37) = 1,781. Итак, 0,819
В сумме эти вероятности по всем различным возможным значениям величины \xi
всегда равны единице:
а дисперсией
величины \xi
называют математическое ожидание квадрата отклонения \xi-M(\xi)
, т. е. выражение
Корень квадратный из дисперсии
называется средним квадратическим отклонением
(величины от ее математического ожидания M(\xi)
).
Аналогичное равенство для дисперсий
и в силу неравенства Чебышева при любом t
подчиняется закону больших чисел, если для соответствующих средних арифметических \zeta
и при любом постоянном \varepsilon>0
и формула (29) дает
что при t_1=-t,~t_2=t
снова приводит к формуле (20).
Также см. Предельные теоремы теории вероятностей
В вашем браузере отключен Javascript.
Чтобы произвести расчеты, необходимо разрешить элементы ActiveX!
Частный случай закона больших чисел Чебышева.
Пусть
- последовательность попарно независимых случайных величин, имеющих ограниченные в совокупности дисперсии, т. е.
и одинаковые математические ожидания
. Тогда, каково бы нибыло
, справедливо соотношение
Это непосредственно следует из формулы (), так как
Замечание.
Говорят, что случайная величина сходится по
вероятности
к числу А
, если при сколь угодно малом вероятность неравенства
с увеличением n
неограниченно приближается к единице. Сходимость по вероятности не означает,
что . Действительно, в последнем случае неравенство выполняется для
всех достаточно больших значений n
. В случае же сходимости по вероятности это неравенство для отдельных сколь угодно больших
значений n
может не выполняться
. Однако невыполнение неравенства для больших значений
n
есть событие очень редкое (маловероятное). Принимая это во внимание, частный случай закона больших чисел Чебышева можно сформулировать так.
Средняя арифметическая
попарно независимых случайных величин
, имеющих ограниченные в совокупности дисперсии и одинаковые математические ожидания
, сходится по вероятности к а
.
Поясним смысл частного случая закона больших чисел Чебышева. Пусть требуется найти истинное значение а
некоторой физической величины (например, размер некоторой детали). Для этого будем производить ряд независимых друг от друга
измерений. Всякое измерение сопровождается некоторой погрешностью ().
Поэтому каждый возможный результат измерения есть случайная величина (индекс i
- номер измерения).
Предположим, что в каждом измерении нет систематической ошибки, т. е. отклонения от истинного значения а
измеряемой величины в ту и другую
стороны равновероятны. В этом случае математические ожидания всех случайных величин одинаковы
и равны измеряемой величине а
, т. е.
Предположим, наконец, что измерения производятся с некоторой гарантированной точностью. Это значит, что для
всех измерений . Таким образом, мы находимся в условиях закона больших чисел Чебышева, а потому,
если число измерений достаточно велико, то с практической достоверностью можно утверждать, что каково бы ни было ,
средняя арифметическая результатов измерений отличается от истинного значения а
меньше, чем на
1. /PB-MS-theory/Лекции-1(4с.).doc
2. /PB-MS-theory/Лекции-2(4с.).doc
3. /PB-MS-theory/Лекции-3(4с.).doc
4. /PB-MS-theory/Лекции-4(4с.).doc
5. /PB-MS-theory/Оглавление.doc
Лекция 1
Лекция 19. Статистическая проверка статистических гипотез. Общие принципы проверки гипотез. Понятия статистической гипотезы (простой и сложной), нулевой и конкурирующей гипотезы,
Закон больших чисел. Неравенство Чебышева. Теоремы Чебышева и Бернулли
Лекция Основные числовые характеристики дискретных и непрерывных случайных величин: математическое ожидание, дисперсия и среднее квадратическое отклонение. Их свойства и примеры
Лекция Предмет теории вероятностей. Случайные события. Алгебра событий. Относитель-ная частота и вероятность случайного события. Полная группа событий. Классичес-кое определение вероятности. Основные свойства вероятности. Основные формулы комбинаторики
Лекция 13.
Изучение статистических закономерностей позволило установить, что при некоторых условиях суммарное поведение большого количества случайных величин почти утрачи-вает случайный характер и становится закономерным (иначе говоря, случайные отклоне-ния от некоторого среднего поведения взаимно погашаются). В частности, если влияние на сумму отдельных слагаемых является равномерно малым, закон распределения суммы приближается к нормальному. Математическая формулировка этого утверждения дается в группе теорем, называемой законом больших чисел
.
Неравенство Чебышева, используемое для доказательства дальнейших теорем, справед-ливо как для непрерывных, так и для дискретных случайных величин. Докажем его для дискретных случайных величин.
Теорема 13.1(неравенство Чебышева).
p
( | X
–
M
(X
)| D(X
) / ε². (13.1)
Х
х
1
х
2
…
х
п
р
р
1
р
2
…
р
п
Теоремы Чебышева и Бернулли.
и найдем ее математическое ожидание. Используя свойства математического ожидания, получим, что . Применим к неравенство Чебышева: Так как рассматриваемые случайные величины независимы, то, учитывая условие теоремы, имеем: Используя этот результат, представим предыдущее неравенство в виде:
: Поскольку вероятность не может быть больше 1, можно утверждать, что
Следствие.
будет как угодно близка к 1, если число случайных величин достаточно велико. Иначе говоря,
.
Теорема Бернулли.
Теорема 13.3 (теорема Бернулли).
Если в каждом из п
независимых опытов вероятность р
появления события А
постоянна, то при достаточно большом числе испытаний вероят-ность того, что модуль отклонения относительной частоты появлений А
в п
опытах от р
будет сколь угодно малым, как угодно близка к 1:
, так как X
i
принимает значение, равное 1, при появлении А
в данном опыте, и значение, равное 0, если А
не произошло. Таким образом,
Замечание.
Из теоремы Бернулли не следует
, что
Речь идет лишь о вероятно-сти
того, что разность относительной частоты и вероятности по модулю может стать сколь угодно малой. Разница заключается в следующем: при обычной сходимости, рассматриваемой в математическом анализе, для всех п
, начиная с некоторого значения, неравенство
выполняется всегда; в нашем случае могут найтись такие значения п
, при которых это неравенство неверно. Этот вид сходимости называют сходимостью по вероятности
.
Закон больших чисел не исследует вид предельного закона распределения суммы случайных величин. Этот вопрос рассмотрен в группе теорем, называемых центральной предельной теоремой.
Они утверждают, что закон распределения суммы случайных величин, каждая из которых может иметь различные распределения, приближается к нормальному при достаточ-но большом числе слагаемых. Этим объясняется важность нормального закона для практичес-ких приложений.
Характеристические функции.
Определение 14.1.
Характеристической функцией
случайной величины Х
называется функция
. По формуле (14.3) (использовалась формула
и то, что i
² = -1).
1. Функцию f
(x
) можно найти по известной функции g
(t
) по формуле
Теорема 14.1 (центральная предельная теорема для одинаково распределенных слагае-мых).
Если Х
1 , Х
2 ,…, Х
п
,… - независимые случайные величины с одинаковым законом распределения, математическим ожиданием т
и дисперсией σ
2 , то при неограниченном увеличении п
закон распределения суммы
неограниченно приближается к нор-мальному.
Тогда по свойству 3 характеристическая функция суммы Y
n
будет
Разложим функцию g
x
(t
) в ряд Маклорена:
при
.
.
, отличающуюся от Y
n
тем, что ее дисперсия при любом п
равна 0. Так как Y
n
и Z
n
связаны линейной зависимостью, достаточно доказать, что Z
n
распределена по нормальному закону, или, что то же самое, что ее характе-ристическая функция приближается к характеристической функции нормального закона (см. пример 2). По свойству характеристических функций
в ряд при п
→ ∞, ограничившись двумя членами разложения, тогда ln(1 - k
) ≈ - k
. Отсюда
, то есть
- характеристическая функция нормального распределения. Итак, при неограниченном увеличении числа слагаемых характеристическая функция величины Z
n
неограниченно приближается к характеристической функции нормального закона; следова-тельно, закон распределения Z
n
(и
Y
n
) неограниченно приближается к нормальному. Теорема доказана.
Теорема 14.2 (теорема Ляпунова).
Если случайная величина Х
представляет собой сумму очень большого числа взаимно независимых случайных величин, для которых выполнено условие:
Практически можно использовать центральную предельную теорему при достаточно небольшом количестве слагаемых, так как вероятностные расчеты требуют сравнительно малой точности. Опыт показывает, что для суммы даже десяти и менее слагаемых закон их распределения можно заменить нормальным.
, где Х
i
– число появлений события А
в i
-м опыте. Тогда случай-ную величину
(см. теорему 14.1) можно считать распределенной по нормальному закону и нормированной, следовательно, вероятность ее попадания в интервал (α, β) можно найти по формуле
. Подставляя это выражение в предыдущую формулу, получим равенство (14.8).
того, что событие А
появится в п
опытах ровно k
раз, при большом количестве опытов можно найти по формуле:
, а
(значения этой функции приводятся в специальных таблицах).
Следовательно,
, тогда
Математическая статистика занимается установлением закономерностей, которым подчинены массовые случайные явления, на основе обработки статистических данных, полученных в результате наблюдений. Двумя основными задачами математической статистики являются:
Замечание.
Для того, чтобы по исследованию выборки можно было сделать выводы о поведе-нии интересующего нас признака генеральной совокупности, нужно, чтобы выборка правиль-но представляла пропорции генеральной совокупности, то есть была репрезентативной
(представительной). Учитывая закон больших чисел, можно утверждать, что это условие выполняется, если каждый объект выбран случайно, причем для любого объекта вероятность попасть в выборку одинакова.
Первичная обработка результатов.
где п
– объем выборки. Тогда наблюдаемые значения случайной величины х
1 , х
2 ,…, х
к
называют вариантами
, а п
1 , п
2 ,…, п
к
– частотами
. Если разделить каждую частоту на объем выборки, то получим относительные частоты
Последовательность вариант, записанных в порядке возрастания, называют вариационным
рядом, а перечень вариант и соответствующих им частот или относительных частот – стати-стическим рядом
:
x
i
x
1
x
2
…
x
k
n
i
n
1
n
2
…
n
k
w
i
w
1
w
2
…
w
k
x
i
0
1
2
3
4
5
n
i
3
6
5
3
2
1
w
i
0,15
0,3
0,25
0,15
0,1
0,05
Для наглядного представления о поведении исследуемой случайной величины в выборке можно строить различные графики. Один из них – полигон частот
: ломаная, отрезки которой соединяют точки с координатами (x
1 , n
1), (x
2 , n
2),…, (x
k
,
n
k
), где x
i
откладываются на оси абсцисс, а
n
i
– на оси ординат. Если на оси ординат откладывать не абсолютные (n
i
), а относительные (w
i
) частоты, то получим полигон относительных частот
(рис.1).
Рис. 1.
Замечание.
В отличие от эмпирической функции распределения, найденной опытным путем, функцию распределения F
(x
) генеральной совокупности называют теоретической функцией распределения
. F
(x
) определяет вероятность события X
x
, а F
*
(x
) – его относительную частоту. При достаточно больших п
, как следует из теоремы Бернулли, F
*
(x
) стремится по вероятности к F
(x
).
Для непрерывного признака графической иллюстрацией служит гистограмма
, то есть ступенчатая фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы длиной h
, а высотами –
отрезки длиной
n
i
/
h
(гистограмма частот) или
w
i
/
h
(гистограмма относительных частот). В первом случае площадь гистограммы равна объему выборки, во втором – единице (рис.2).Рис.2.
0 ≤ F
*
(x
) ≤ 1.
F
*
(x
) – неубывающая функция.
Если х
1 – наименьшая варианта, то F
*
(x
) = 0 при х
≤ х
1 ; если х
к
– наибольшая варианта, то F
*
(x
) = 1 при х
> х
к
.
Одна из задач математической статистики: по имеющейся выборке оценить значения числовых характеристик исследуемой случайной величины.
x
i
2
5
7
8
n
i
3
8
7
2
. В частности, в примере 1
, то есть начальный эмпирический момент первого порядка равен выборочному среднему.
, то есть центральный эмпирический момент второго порядка равен выборочной дисперсии.
Статистическое описание и вычисление характеристик
При статистическом исследовании двумерных случайных величин основной задачей является обычно выявление связи между составляющими.
и соответствующие выборочные дисперсии и средние квадратические отклонения. Кроме того, можно вычислить условные средние
: - среднее арифметическое наблюдав-шихся значений Y
, соответствующих Х = х
, и - среднее значение наблюдавшихся значений Х
, соответствующих Y
=
y
.
Получив статистические оценки параметров распределения (выборочное среднее, выбороч-ную дисперсию и т.д.), нужно убедиться, что они в достаточной степени служат приближе-нием соответствующих характеристик генеральной совокупности. Определим требования, которые должны при этом выполняться.
Тогда оценку Θ* можно рассматривать как случайную величину, принимающую возможные значения Если математическое ожидание Θ* не равно оцениваемому параметру, мы будем получать при вычислении оценок систематические ошибки одного знака (с избытком, если М
(Θ*) >Θ, и с недостатком, если М
(Θ*) М
(Θ*) = Θ.
Определение 17.2.
Статистическая оценка Θ* называется несмещенной
, если ее математичес-кое ожидание равно оцениваемому параметру Θ при любом объеме выборки:
Определение 17.2.
Статистическая оценка называется эффективной
, если она при заданном объеме выборки п
имеет наименьшую возможную дисперсию.
При рассмотрении выборок большого объема к статистическим оценкам предъявляется еще и требование состоятельности.
Определение 17.3.
Состоятельной
называется статистическая оценка, которая при п
→∞ стре-мится по вероятности к оцениваемому параметру (если эта оценка несмещенная, то она будет состоятельной, если при п
→∞ ее дисперсия стремится к 0).
Убедимся, что представляет собой несмещенную оценку математического ожидания М
(Х
).
) = М
(Х
), что и требовалось доказать. Выборочное среднее является не только несмещенной, но и состоятельной оценкой математического ожидания. Если предположить, что Х
1 , Х
2 ,…, Х
п
имеют ограниченные дисперсии, то из теоремы Чебышева следует, что их среднее арифметическое, то есть , при увеличении п
стремится по вероятности к математическому ожиданию а
каждой их величин, то есть к М
(Х
). Следовательно, выборочное среднее есть состоятельная оценка математического ожидания.
Способы построения оценок.
1. Метод наибольшего правдоподобия.
Пусть Х
– дискретная случайная величина, которая в результате п
испытаний приняла значения х
1 , х
2 , …, х
п
. Предположим, что нам известен закон распределения этой величины, определяемый параметром Θ, но неизвестно численное значение этого параметра. Найдем его точечную оценку.
Достоинства метода наибольшего правдоподобия: полученные оценки состоятельны (хотя могут быть смещенными), распределены асимптотически нормально при больших значениях п
и имеют наименьшую дисперсию по сравнению с другими асимптотически нормальными оценками; если для оцениваемого параметра Θ существует эффективная оценка Θ*, то уравнение правдоподобия имеет единственное решение Θ*; метод наиболее полно использует данные выборки и поэтому особенно полезен в случае малых выборок.
Для непрерывной случайной величины с известным видом плотности распределения f
(x
) и неизвестным параметром Θ функция правдоподобия имеет вид:
2. Метод моментов.
Метод моментов основан на том, что начальные и центральные эмпирические моменты являются состоятельными оценками соответственно начальных и центральных теоретических моментов, поэтому можно приравнять теоретические моменты соответствующим эмпирическим моментам того же порядка.
- система двух уравнений с двумя неизвестными Θ 1 и Θ 2 . Ее решениями будут точечные оценки Θ 1 * и Θ 2 * - функции вариант выборки:
3. Метод наименьших квадратов.
Тогда
. Отсюда
. Разделив оба полученных уравнения на п
и вспомнив определения эмпирических моментов, можно получить выражения для а
и b
в виде:
4. Байесовский подход к получению оценок.
Пусть (Y
,
X
) – случайный вектор, для которого известна плотность р
(у
|x
) условного распреде-ления Y
при каждом значении Х = х
. Если в результате эксперимента получены лишь значения Y
, а соответствующие значения Х
неизвестны, то для оценки некоторой заданной функции φ(х
) в качестве ее приближенного значения предлагается искать условное математическое ожидание М
(φ(х
)|Y
), вычисляемое по формуле:
При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, что приводит к грубым ошибкам. Поэтому в таком случае лучше пользоваться интервальными оценками
, то есть указывать интервал, в который с заданной вероятностью попадает истинное значение оцениваемого параметра. Разумеется, чем меньше длина этого интервала, тем точнее оценка параметра. Поэтому, если для оценки Θ* некоторого параметра Θ справедливо неравенство | Θ* - Θ | 0 характеризует точность оценки
(чем меньше δ, тем точнее оценка). Но статистические методы позволяют говорить только о том, что это неравенство выполняется с некоторой вероятностью.
p
(Θ* - δ
Таким образом, γ есть вероятность того, что Θ попадает в интервал (Θ* - δ, Θ* + δ).
Построение доверительных интервалов.
1. Доверительный интервал для оценки математического ожидания нормального распределения при известной дисперсии.
(используем свойства математического ожидания и дисперсии суммы независимых случайных величин). Оценим вероятность выполнения неравенства
. Применим формулу для вероятности попадания нормально распределенной случайной величины в заданный интервал:
) = 2Ф
. Тогда, с учетом того, что , р
() = 2Ф
=
. Отсюда
, и предыдущее равенство можно переписать так:
, где значение t
определяется из таблиц для функции Лапласа так, чтобы выполнялось равенство 2Ф(t
) = γ.
Пример. Найдем доверительный интервал для математического ожидания нормально распреде-ленной случайной величины, если объем выборки п
= 49,
σ = 1,4, а доверительная вероятность γ = 0,9.
2. Доверительный интервал для оценки математического ожидания нормального распределения при неизвестной дисперсии.
, где
, явным образом не зависит от а
и σ, можно задать вероятность ее попадания в некоторый интервал (- t
γ
,
t
γ
), учитывая четность плотности распределения, следующим образом:
. Отсюда получаем:
, или 2,161a а с вероятностью 0,99.
3. Доверительные интервалы для оценки среднего квадратического отклонения нормального распределения.
Запишем это неравенство в виде:
или, обозначив
,
,
,
. Следовательно,
. Тогда
Существуют таблицы для распределения «хи-квадрат», из которых можно найти q
по заданным п
и γ, не решая этого уравнения. Таким образом, вычислив по выборке значение s
и определив по таблице значение
q
, можно найти доверительный интервал (18.4), в который значение σ попадает с заданной вероятностью γ.
Замечание.
Если q
> 1, то с учетом условия σ > 0 доверительный интервал для σ будет иметь границы