Множественный r. Пакет программ майкрософт, как эффективное средство эконометрического анализа


  1. Оцените качество построенной модели. Улучшилось ли качество модели по сравнению с однофакторной моделью? Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, - и -коэффициентов.
Для оценки качества выбранной множественной модели (6) , аналогично п.1.4 данной задачи, используем коэффициент детерминации R - квадрат, среднюю относительную ошибку аппроксимации и F -критерий Фишера.

Коэффициент детерминации R -квадрат возьмем из итогов «Регрессии» (таблица «Регрессионная статистика» для модели (6)).

Следовательно, вариация (изменение) цены квартиры Y на 76,77% объясняется по данному уравнению вариацией города области Х 1 , числа комнат в квартире Х 2 и жилой площади Х 4 .

Используем исходные данные Y i и найденные инструментом «Регрессия» остатки (таблица «Вывод остатка» для модели (6)). Рассчитаем относительные погрешности и найдем среднее значение
.

ВЫВОД ОСТАТКА


Наблюдение

Предсказанное Y

Остатки

Отн. погрешность

1

45,95089273

-7,95089273

20,92340192

2

86,10296493

-23,90296493

38,42920407

3

94,84442678

30,15557322

24,12445858

4

84,17648426

-23,07648426

37,76838667

5

40,2537216

26,7462784

39,91981851

6

68,70572376

24,29427624

26,12287768

7

143,7464899

-25,7464899

21,81905923

8

106,0907598

25,90924022

19,62821228

9

135,357993

-42,85799303

46,33296544

10

114,4792566

-9,47925665

9,027863476

11

41,48765602

0,512343975

1,219866607

12

103,2329236

21,76707636

17,41366109

13

130,3567798

39,64322022

23,3195413

14

35,41901876

2,580981242

6,7920559

15

155,4129693

-24,91296925

19,0903979

16

84,32108188

0,678918123

0,798727204

17

98,0552279

-0,055227902

0,056355002

18

144,2104618

-16,21046182

12,66442329

19

122,8677535

-37,86775351

44,55029825

20

100,0221225

59,97787748

37,48617343

21

53,27196558

6,728034423

11,21339071

22

35,06605378

5,933946225

14,47303957

23

114,4792566

-24,47925665

27,19917406

24

113,1343153

-30,13431529

36,30640396

25

40,43190991

4,568090093

10,15131132

26

39,34427892

-0,344278918

0,882766457

27

144,4794501

-57,57945009

66,25943623

28

56,4827667

-16,4827667

41,20691675

29

95,38240332

-15,38240332

19,22800415

30

228,6988826

-1,698882564

0,748406416

31

222,8067278

12,19327221

5,188626473

32

38,81483144

1,185168555

2,962921389

33

48,36325811

18,63674189

27,81603267

34

126,6080021

-3,608002113

2,933335051

35

84,85052935

15,14947065

15,14947065

36

116,7991162

-11,79911625

11,23725357

37

84,17648426

-13,87648426

19,73895342

38

113,9412801

-31,94128011

38,95278062

39

215,494184

64,50581599

23,03779142

40

141,7795953

58,22040472

29,11020236

Среднее

101,2375

22,51770962

По столбцу относительных погрешностей найдем среднее значение =22.51% (с помощью функции СРЗНАЧ).

Сравнение показывает, что 22.51%>7%. Следовательно, точность модели неудовлетворительная.

С помощью F – критерия Фишера проверим значимость модели в целом. Для этого выпишем из итогов применения инструмента «Регрессия» (таблица «дисперсионный анализ» для модели (6)) F = 39,6702.

С помощью функции FРАСПОБР найдем значение F кр =3.252 для уровня значимости α = 5% , и чисел степеней свободы k 1 = 2 , k 2 = 37 .

F > F кр , следовательно, уравнение модели (6) является значимым, его использование целесообразно, зависимая переменная Y достаточно хорошо описывается включенными в модель (6) факторными переменными Х 1 , Х 2 . и Х 4 .

Дополнительно с помощью t –критерия Стьюдента проверим значимость отдельных коэффициентов модели.

t –статистики для коэффициентов уравнения регрессии приведены в итогах инструмента «Регрессия». Получены следующие значения для выбранной модели (6) :


Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

-5,643572321

12,07285417

-0,46745966

0,642988

-30,1285

18,84131

-30,1285

18,84131

X4

2,591405557

0,461440597

5,61590284

2,27E-06

1,655561

3,52725

1,655561

3,52725

X1

6,85963077

9,185748512

0,74676884

0,460053

-11,7699

25,48919

-11,7699

25,48919

X2

-1,985156991

7,795346067

-0,25465925

0,800435

-17,7949

13,82454

-17,7949

13,82454

Критическое значение t кр найдено для уровня значимости α=5% и числа степеней свободы k =40–2–1=37 . t кр =2.026 (функция СТЬЮДРАСПОБР).

Для свободного коэффициента α =–5.643 определена статистика
, t кр , следовательно, свободный коэффициент не является значимым, его можно исключить из модели.

Для коэффициента регрессии β 1 =6.859 определена статистика
, β 1 не является значимым, его и фактор города области можно удалить из модели.

Для коэффициента регрессии β 2 =-1,985 определена статистика
, t кр , следовательно, коэффициент регрессии β 2 не является значимым, его и фактор числа комнат в квартире можно исключить из модели.

Для коэффициента регрессии β 4 =2.591 определена статистика
, >t кр, следовательно, коэффициент регрессии β 4 является значимым, его и фактор жилой площади квартиры можно сохранить в модели.

Выводы о значимости коэффициентов модели сделаны на уровне значимости α=5% . Рассматривая столбец «P-значение», отметим, что свободный коэффициент α можно считать значимым на уровне 0.64 = 64%; коэффициент регрессии β 1 – на уровне 0,46 = 46%; коэффициент регрессии β 2 – на уровне 0,8 = 80%; а коэффициент регрессии β 4 – на уровне 2,27E-06= 2,26691790951854E-06 = 0,0000002%.

При добавлении в уравнение новых факторных переменных автоматически увеличивается коэффициент детерминации R 2 и уменьшается средняя ошибка аппроксимации, хотя при этом не всегда улучшается качество модели. Поэтому для сравнения качества модели (3) и выбранной множественной модели (6) используем нормированные коэффициенты детерминации.

Таким образом, при добавлении в уравнение регрессии фактора «город области» Х 1 и фактора «число комнат в квартире» Х 2 качество модели ухудшилось, что говорит в пользу удаления факторов Х 1 и Х 2 из модели.

Проведем дальнейшие расчеты.

Средние коэффициенты эластичности в случае линейной модели определяются формулами
.

С помощью функции СРЗНАЧ найдем: S Y , при увеличении только фактора Х 4 на одно его стандартное отклонение – увеличивается на 0,914 S Y

Дельта-коэффициенты определяются формулами
.

Найдем коэффициенты парной корреляции с использованием инструмента «Корреляция» пакета «Анализ данных» в Excel.


Y

X1

X2

X4

Y

1

X1

-0,01126

1

X2

0,751061

-0,0341

1

X4

0,874012

-0,0798

0,868524

1

Коэффициент детерминации был определен ранее и равен 0.7677.

Вычислим дельта-коэффициенты:

;

Поскольку Δ 1 1 и Х 2 выбрана неудачно, и их нужно удалить из модели. Значит, по уравнению полученной линейной трехфакторной модели изменение результирующего фактора Y (цены квартиры) на 104% объясняется воздействием фактора Х 4 (жилой площадью квартиры), на 4% воздействием фактора Х 2 (число комнат), на 0,0859% воздействием фактора Х 1 (город области).

Министерство образования и науки российской федерации

Федеральное государственное автономное образовательное учреждение высшего профессионального образования

Дальневосточный федеральный университет

Школа экономики и менеджмента

Кафедра бизнес-информатики и экономико-математических методов

ЛАБОРАТОРНАЯ РАБОТА

по дисциплине «Имитационное моделирование»

Специальность 080801.65 «Прикладная информатика (в экономике)»

РЕГРЕССИОННЫЙ АНАЛИЗ

Рудакова

Ульяна Анатольевна

г. Владивосток

ОТЧЕТ

Задание: рассмотреть процедуру регрессионного анализа на основе данных (цена продажи и жилая площадь) о 23 объектах недвижимости.

Режим работы "Регрессия" служит для расчета параметров уравнения линейной регрессии и проверки его адекватности исследуемому процессу.

Для решения задачи регрессионного анализа в MS Excel выбираем в меню Сервис команду Анализ данных и инструмент анализа "Регрессия ".

В появившемся диалоговом окне задаем следующие параметры:

1. Входной интервал Y - это диапазон данных по результативному признаку. Он должен состоять из одного столбца.

2. Входной интервал X - это диапазон ячеек, содержащих значения факторов (независимых переменных). Число входных диапазонов (столбцов) должно быть не больше 16.

.Флажок Метки , устанавливается втом случае, если в первой строке диапазона стоит заголовок.

5. Константа ноль. Данный флажок необходимо установить, если линия регрессии должна пройти через начало координат (а0=0).

6. Выходной интервал/ Новый рабочий лист/ Новая рабочая книга - указать адрес верхней левой ячейки выходного диапазона.

.Флажки в группе Остатки устанавливаются, если необходимо включить в выходной диапазон соответствующие столбцы или графики.

.Флажок График нормальной вероятности необходимо сделать активным, если требуется вывести на лист точечный график зависимости наблюдаемых значений Y от автоматически формируемых интервалов персентилей.

После нажатия кнопки ОК в выходном диапазоне получаем отчет.

С помощью набора средств анализа данных выполним регрессионный анализ исходных данных.

Инструмент анализа "Регрессия" применяется для подбора параметров уравнения регрессии с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или нескольких независимых переменных.

ТАБЛИЦА РЕГРЕССИОННАЯ СТАТИСТИКА

Величина множественный R - это корень из коэффициента детерминации (R-квадрат). Также его называют индексом корреляции или множественным коэффициентом корреляции. Выражает степень зависимости независимых переменных (X1, X2) и зависимой переменной (Y) и равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы. В нашем случае он равен 0,7, что говорит о существенной связи между переменными.

Величина R-квадрат (коэффициент детерминации) , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

В нашем случае величина R-квадрат равна 0,48 , т.е. почти 50%, что говорит о слабой подгонке регрессионной прямой к исходным данным.Т.к. найденная величина R-квадрат = 48%<75%, то, следовательно, также можно сделать вывод о невозможности прогнозирования с помощью найденной регрессионной зависимости. Таким образом, модель объясняет всего 48% вариации цены, что говорит о недостаточности выбранных факторов, либо о недостаточном объеме выборки.

Нормированный R-квадрат - это тот же коэффициент детерминации, но скорректированный на величину выборки.

Норм.R-квадрат=1-(1-R-квадрат)*((n-1)/(n-k)),

регрессионный анализ линейный уравнение

где n - число наблюдений; k - число параметров. Нормированный R-квадрат предпочтительнее использовать в случае добавления новых регрессоров (факторов), т.к. при их увеличении будет также увеличиваться значение R-квадрат, однако это не будет свидетельствовать об улучшении модели. Так как в нашем случае полученная величина равна 0,43 (что отличается от R-квадрат всего на 0,05), то можно говорить о высоком доверии коэффициенту R-квадрат.

Стандартная ошибка показывает качество аппроксимации (приближения) результатов наблюдений. В нашем случае ошибка равна 5,1. Рассчитаем в процентах: 5,1/(57,4-40,1)=0,294 ≈ 29% (Модель считается лучше, когда стандартная ошибка составляет <30%)

Наблюдения - указывается число наблюдаемых значений (23).

ТАБЛИЦА ДИСПЕРСИОННЫЙ АНАЛИЗ

Для получения уравнения регрессии определяется -статистика - характеристика точности уравнения регрессии, представляющая собой отношение той части дисперсии зависимой переменной которая объяснена уравнением регрессии к необъясненной (остаточной) части дисперсии.

В столбце df - приводится число степеней свободы k.

Для остатка это величина, равная n-(m+1), т.е. число исходных точек (23) минус число коэффициентов (2) и минус свободный член (1).

В столбце SS - суммы квадратов отклонений от среднего значения результирующего признака. В нем представлены:

Регрессионная сумма квадратов отклонений от среднего значения результирующего признака теоретических значений, рассчитанных по регрессионному уравнению.

Остаточная сумма отклонений исходных значений от теоретических значений.

Общая сумма квадратов отклонений исходных значений от результирующего признака.

Чем больше регрессионная сумма квадратов отклонений (или чем меньше остаточная сумма), тем лучше регрессионное уравнение аппроксимирует облако исходных точек. В нашем случае остаточная сумма составляет около 50%. Следовательно, уравнение регрессии очень слабо аппроксимирует облако исходных точек.

В столбце MS - несмещенные выборочные дисперсии, регрессионная и остаточная.

В столбце F вычислено значение критериальной статистики для проверки значимости уравнения регрессии.

Для осуществления статистической проверки значимости уравнения регрессии формулируется нулевая гипотеза об отсутствии связи между переменными (все коэффициенты при переменных равны нулю) и выбирается уровень значимости.

Уровень значимости - это допустимая вероятность совершить ошибку первого рода - отвергнуть в результате проверки верную нулевую гипотезу. В рассматриваемом случае совершить ошибку первого рода означает признать по выборке наличие связи между переменными в генеральной совокупности, когда на самом деле ее там нет. Обычно уровень значимости принимается равным 5%. Сравнивая полученное значение = 9,4 с табличным значением = 3,5 (число степеней свободы 2 и 20 соответственно) можно говорить о том, что уравнение регрессии значимо (F>Fкр).

В столбце значимость F вычисляется вероятность полученного значения критериальной статистике. Так как в нашем случае это значение = 0,00123, что меньше 0,05 то можно говорить о том, что уравнение регрессии (зависимость) значимо с вероятностью 95%.

Два выше описанных столба показывают надежность модели в целом.

Следующая таблица содержит коэффициенты для регрессоров и их оценки.

Строка Y-пересечение не связана ни с каким регрессором, это свободный коэффициент.

В столбце коэффициенты записаны значения коэффициентов уравнения регрессии. Таким образом, получилось уравнение:

Y=25,6+0,009X1+0,346X2

Регрессионное уравнение должно проходить через центр облака исходных точек: 13,02≤M(b)≤38,26

Далее сравниваем попарно значения столбцов Коэффициенты и Стандартная ошибка. Видно, что в нашем случае, все абсолютные значения коэффициентов превосходят значения стандартных ошибок. Это может свидетельствовать о значимости регрессоров, однако, это грубый анализ. Столбец t-статистика содержит более точную оценку значимости коэффициентов.

В столбце t-статистика содержатся значения t-критерия, рассчитанные по формуле:

t=(Коэффициент)/(Стандартная ошибка)


n-(k+1)=23-(2+1)=20

По таблице Стьюдента находим значение tтабл=2,086. Сравнивая

t с tтабл получаем, что коэффициент регрессора X2 незначим.

Столбец p-значение представляет вероятность того, что критическое значение статистики используемого критерия (статистики Стьюдента) превысит значение, вычисленное по выборке. В данном случае сравниваем p-значения с выбранным уровнем значимости (0.05). Видно, что незначимым можно считать только коэффициент регрессора X2=0.08>0,05

В столбцах нижние 95% и верхние 95% приводятся границы доверительных интервалов с надежностью 95%. Для каждого коэффициента свои границы: Коэффициент tтабл*Стандартная ошибка

Доверительные интервалы строятся только для статистически значимых величин.

ТАБЛИЦА ВЫВОД ОСТАТКА

Остаток - это отклонение отдельной точки (наблюдения) от линии регрессии (предсказанного значения).

Предположение о нормальности остатков допускает, что распределение разницы предсказанных и наблюдаемых значений является нормальным. Для визуального определения характера распределения включаем функцию график остатков .

На графиках остатков отображаются разности между исходными значениями Y и вычисленными по функции регрессии для каждого значения компонента переменной X1 и X2. Он применяется для определения, является ли приемлемой используемая аппроксимирующая прямая.

График подбора может быть использован для получения наглядного представления о линии регрессии.

Стандартные остатки - нормированные остатки на оценку их стандартного отклонения.

Суть каузальных методов прогнозирования состоит в установлении математической связи между результирующей и факторными переменными.

Необходимым условием применения каузальных методов прогнозирования является наличие большого объема данных. Если связи между переменными удается описать математически корректно, то точность каузального прогноза будет достаточно высокой.
К каузальным методам прогнозирования относятся:


  • многомерные регрессионные модели,

  • имитационное моделирование.
Наиболее распространенными каузальными методами прогнозирования являются многомерные регрессионные модели.

1.4.1 Многомерные регрессионные модели

Многомерная регрессионная модель – это уравнение с несколькими независимыми переменными.

Для построения многомерной регрессионной модели могут быть использованы различные функции, наибольшее распространение получили линейная и степенная зависимости:

В линейной модели параметры (b 1 , b 2 , … b n) интерпретируются как влияние каждой из независимых переменных на прогнозируемую величину, если все другие независимые переменные равны нулю.

В степенной модели параметры являются коэффициентами эластичности. Они показывают, на сколько процентов изменится в среднем результат (y) с изменением соответствующего фактора на 1% при неизменности действия других факторов. Для расчета параметров уравнений множественной регрессии также используется метод наименьших квадратов.

При построении регрессионных моделей решающую роль играет качество данных. Сбор данных создает фундамент прогнозам, поэтому имеется ряд требований и правил, которые необходимо соблюдать при сборе данных.


  1. Во-первых, данные должны быть наблюдаемыми , т.е. получены в результате замера, а не расчета.

  1. Во-вторых, из массива данных необходимо исключить повторяющиеся и сильно отличающиеся данные . Чем больше неповторяющихся данных и чем однороднее совокупность, тем лучше будет уравнение. Под сильно отличающимися значениями понимается наблюдения исключительно не вписывающиеся в общий ряд. Например, данные о зарплате рабочих выражены четырех- и пятизначными числами (7 000, 10 000, 15 000), но обнаружено одно шестизначное число (250 000). Очевидно, что это ошибка.

  1. Третье правило (требование) – это достаточно большой объем данных . Мнения статистиков относительно того, сколько необходимо данных для построения хорошего уравнения расходятся. По мнению одних, данных необходимо в 4-6 раз больше числа факторов. Другие утверждают, что не менее чем в 10 раз больше числа факторов, тогда закон больших чисел, действуя в полную силу, обеспечивает эффективное погашение случайных отклонений от закономерного характера связи.

Построение многомерной регрессионной модели в MS Excel
В электронных таблицах Excel имеется возможность построения только лишь линейной многомерной регрессионной модели.
, (1.19)
Для этого необходимо выбрать пункт «Анализ данных», а затем в появившемся окне - инструмент «регрессия»


Рисунок 1.45 – Диалоговое окно инструмента «Регрессия»
В появившемся окне необходимо заполнить ряд полей, в том числе:


  • Входной интервал Y –диапазон данных, из одного столбца, содержащих значения результирующей переменной Y.

  • Входной интервал Х – это диапазон данных, содержащих значения факторных переменных.

Если первая строка или первый столбец входного интервала содержит заголовки, то необходимо установить флажок в поле «метки» .

По умолчанию применяется уровень надежности 95%. Если хотите установить другой уровень, установите флажок и в поле рядом введите желаемый уровень надежности.

Флажок «Константа-ноль» необходимо пометить только в том случае, если вы хотите получить уравнение регрессии без свободного члена а , так чтобы линия регрессии прошла через начала координат.
Вывод результатов расчетов может быть организован 3 способами:


  • в диапазон ячеек этого рабочего листа (для этого в поле «Выходной диапазон» определите левую верхнюю ячейку диапазона, куда будут выводиться результаты расчетов);

  • на новый рабочий лист (в поле рядом можно ввести желаемое название этого листа);

  • в новую рабочую книгу .

Установка флажков «Остатки» и «Стандартизированные остатки» заказывает их включение в выходной диапазон.
Чтобы построить график остатков для каждой независимой переменной, установите флажок «График остатков». Остатки иначе называют ошибками прогнозирования. Они определяются как разность между фактическими и прогнозируемыми значениями Y.
Интерпретация графиков остатков
В графиках остатков не должно быть закономерности. Если закономерность прослеживается, то это значит, что в модель не включен какой-то не известный нам, но закономерно действующий фактор, о которых нет данных.

При установке флажка «График подбора» будет выведена серия графиков, показывающих насколько хорошо теоретическая линия регрессии подобрана к наблюдаемым, т.е. фактическим данным.

Интерпретация графиков подбора
В Excel на графиках подбора красными точками обозначаются теоретические значения Y , синими точками - исходные данные. Если красные точки хорошо накладываются на синие точки, то это визуально свидетельствует об удачном уравнении регрессии.
Необходимым этапом прогнозирования на основе многомерных регрессионных моделей является оценка статистической значимости уравнения регрессии, т.е. пригодности построенного уравнения регрессии для использования в целях прогнозирования. Для решения этой задачи в MS Excel рассчитывается ряд коэффициентов. А именно:


  1. Множественный коэффициент корреляции

Характеризует тесноту и направленность связи между результирующей и несколькими факторными переменными. При двухфакторной зависимости множественный коэффициент корреляции рассчитывается по формуле:
, (1.20)


  1. Множественный коэффициент детерминации ( R 2 ).

R 2 – это есть доля вариации теоретической величины относительно фактических значений у, объясненная за счет включенных в модель факторов. Остальная доля теоретических значений зависит от других, не участвующих в модели факторов. R 2 может принимать значения от 0 до 1. Если , то качество модели высокое. Этот показатель особенно полезен для сравнения нескольких моделей и выбора наилучшей.


  1. Нормированный коэффициент детерминации R 2

У показателя R 2 есть недостаток, состоящий в том, что большие значения коэффициента детерминации могут достигаться благодаря малому числу наблюдений. Нормированный обеспечивает информацией о том, какое значение вы могли бы получить в другом наборе данных значительно большего объема, чем в данном случае.

Нормированный рассчитывается по формуле:

, (1.21)

где - нормированный множественный коэффициент детерминации,

Множественный коэффициент детерминации,

Объем совокупности,

Количество факторных переменных.


  1. Стандартная ошибка регрессии указывает приблизительную величину ошибки прогнозирования. Используется в качестве основной величины для измерения качества оцениваемой модели. Рассчитывается по формуле:
, (1.22)

где - сумма квадратов остатков,

Число степеней свободы остатков.
Т.е стандартная ошибка регрессии показывает величину квадрата ошибки, приходящейся на одну степень свободы.


ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

0.973101

R-квадрат

0.946926

Нормированный R-квадрат

0.940682

Стандартная ошибка

0.59867

Наблюдения

20

Дисперсионный анализ

df

SS

MS

F

Значимость F

Регрессия

2

108.7071

54.35355

151.6535

1.45E-11

Остаток

17

6.092905

0.358406

Итого

19

114.8

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95.0%

Верхние 95.0%

Y-пересечение

1.835307

0.471065

3.89608

0.001162

0.841445

2.829169

0.841445

2.829169

x1

0.945948

0.212576

4.449917

0.000351

0.49745

1.394446

0.49745

1.394446

x2

0.085618

0.060483

1.415561

0.174964

-0.04199

0.213227

-0.04199

0.213227

Метод дисперсионного анализа состоит в разложении общей суммы квадратов отклонений переменной у от среднего значения на две части:


  1. объясненную регрессией (или факторную),

  2. остаточную.
, (1.2 3)
Пригодность регрессионной модели для прогнозирования зависит от того, какая часть общей вариации признака y приходится на вариацию объясненную регрессией. Очевидно, что если сумма квадратов отклонений объясненная регрессией будет больше остаточной, то делают вывод о статистической значимости уравнения регрессии. Это равносильно тому, что коэффициент детерминации приближается к единице.
Обозначения в таблице «Дисперсионный анализ»:
Второй столбец таблицы называется и означает число степеней свободы. Для общей дисперсии число степеней свободы равно: , для факторной дисперсии (или дисперсии, объясненной регрессией) , для остаточной дисперсии .

где n – это кол-во наблюдений,

m – кол-во факторных переменных модели.
Третий столбец таблицы называется . В нем представлена сумма квадратов отклонений. Общая сумма квадратов отклонений определяется по формуле:

, (1.24)
Факторная сумма квадратов:

, (1.26)
Четвертый столбец называется - среднее значение квадратов отклонений. Определяется по формуле:

С помощью F-критерия Фишера определяется статистическая значимость коэффициента детерминации уравнения регрессии. Для этого выдвигается нулевая гипотеза, которая утверждает, что между результирующей и факторными переменными связь отсутствует . Это возможно лишь в том случае, когда все параметры уравнения множественной линейной регрессии и коэффициент корреляции равны нулю.

Для проверки этой гипотезы необходимо рассчитать фактическое значение F-критерия Фишера и сравнить его с табличным. Фактическое значение F-критерия рассчитывается по формуле:

, (1.28)

Выбирается из специальных статистических таблиц по:


  • заданному уровню значимости () и

  • числу степеней свободы.

В MS Excel табличное значение F-критерия может быть определено с помощью функции: =FРАСПОБР(вероятность; степени свободы1; степени свободы2)

Например: =FРАСПОБР(0,05;df1;df2)
Уровень значимости 1 выбирается на тот же, на котором вычислялись параметры регрессионной модели. По умолчанию установлено 95%.

Если , то выдвинутая гипотеза отклоняется и признается статистическая значимость уравнения регрессии. В случае особо важных прогнозов табличное значение F-критерия рекомендуется увеличить в 4 раза, то есть проверяется условие:
=151.65; = 3.59
Расчетное значение значительно превышает табличное значение. Это значит, что коэффициент детерминации значимо отличается от нуля, поэтому гипотезу об отсутствии регрессионной зависимости следует отклонить.
Теперь оценим значимость коэффициентов регрессии на основе t -критериия Стьюдента. Он позволяет определить, какие из факторных переменных (х) оказывают наибольшее влияние на результирующую переменную (y).

Стандартные ошибки обычно обозначаются . Нижний индекс обозначает параметр уравнения регрессии, для которого рассчитана эта ошибка

Рассчитывается по формуле:

, (1.29)

где - СКО для результирующей переменной,

СКО для признака ,

Коэффициент детерминации для уравнения множественной

регрессии,

Коэффициент детерминации для зависимости фактора со

всеми другими факторами уравнения.

Число степеней свободы для остаточной суммы квадратов

отклонений.
В MS Excel стандартные ошибки рассчитываются автоматически (располагаются в 3-ем столбце 3-ей таблицы).
Фактическое значение t -критерия Стьюдента в MS Excel располагается в 4-ом столбце 3-ей таблицы и называется t-статистика.
(4 столбец) = (2 столбец) / (3 столбец)

t-статистика = Коэффициенты/ Стандартная ошибка
Табличное значение t -критерия Стьюдента зависит от принятого уровня значимости (обычно ; 0,05; 0,01) и числа степеней свободы .

где n – число единиц совокупности,

m – число факторов в уравнении.
В MS Excel табличное значение критерия Стьюдента может быть определено с помощью функции:

СТЬЮДРАСПОБР(вероятность; число степеней свободы)
Например: =СТЬЮДРАСПОБР(0,05;7)
Если , то делается вывод, что коэффициент уравнения регрессии является статистически значимым (надежным) и его можно включать в модель и использовать для прогнозирования.

1.4.2 Метод имитационного моделирования Монте-Карло

Метод имитационного моделирования получил свое название в честь города Монте-Карло, расположенного в княжестве Монако, одного из самых маленьких государств мира, расположенного на берегу Средиземного моря, около границы Франции и Италии.

Метод имитационного моделирования Монте-Карло предполагает генерирование случайных значений в соответствии с заданными ограничениями. Приступая к проведению имитационного моделирования, прежде всего, необходимо разработать экономико-математическую модель (ЭММ) прогнозируемого показателя, отражающего взаимосвязь между факторными переменными, а также степень и характер их влияния на результат. Поскольку в условиях современной рыночной конъюнктуры на субъект экономических отношений оказывают одновременное воздействие множество факторов различной природы и направленности и степень их воздействия не является детерминированной, представляется необходимым разделить переменные ЭММ на две группы: стохастические и детерминированные;

Далее следует определить типы вероятностных распределений для каждой стохастической переменной и соответствующие входные параметры, выполнить имитацию значений стохастических переменных с использованием генератора случайных чисел MS Excel или иных программных средств.

Инструмент «генерация случайных чисел» доступен пользователям MS Excel 2007 после активизации надстройки Пакет анализа . Порядок активизации надстройки описан выше (см. стр.10, рис.1.5-1.8). Для выполнения имитационного моделирования в меню ДАННЫЕ необходимо выбрать пункт «Анализ данных» , в появившемся диалоговом окне из списка выбрать инструмент «Генерация случайных чисел» и щелкнуть ОК.

Рисунок 1.46 - Интерфейс меню анализа данных
В появившемся диалоговом окне необходимо для каждой стохастической переменной выбрать тип вероятностного распределения и задать соответствующие входные параметры.

Рисунок 1.47 - Диалоговое окно генератора случайных чисел
Данные этап является одним из наиболее сложных, поэтому при его выполнении необходимо использовать знания и опыт экспертов. Выбор типа вероятностного распределения также может осуществляться на основе имеющейся статистической информации. На практике чаще всего используют такие виды вероятностных распределений как нормальное, треугольное и равномерное.

Нормальное распределение (или закон Муавра-Гаусса-Лапласа) предполагает, что варианты прогнозируемого параметра тяготеют к среднему значению. Значения переменной, существенно отличающиеся от среднего, то есть находящиеся в «хвостах» распределения, имеют малую вероятность.

Треугольное распределение представляет собой производную от нормального распределения и предполагает линейно нарастающее, по мере приближения к среднему значению, распределение.

Равномерное распределение используется в том случае, когда все значения варьируемого показателя имеют одинаковую вероятность реализации.

При важности переменной и невозможности подобрать закон распределения её можно рассматривать с точки зрения дискретного распределения. Перечисленные выше виды вероятностных распределений требуют определения входных параметров, представленных в таблице1.11
Таблица 1.11 - Входные параметры основных видов вероятностных распределений


Вид вероятностного

распределения


Входные параметры

1 Нормальное распределение

  • среднее значение;

  • стандартное отклонение;

2 Треугольное распределение

  • среднее значение;


3 Равномерное распределение

  • пределы возможного диапазона значений;

4 Дискретное распределение

  • конкретные значения переменной;

  • соответствующие данным значениям вероятности.

В результате проведения серии экспериментов будет получено распределение значений стохастических переменных, на основании которых следует рассчитать значение прогнозируемого показателя.

Следующим необходимым этапом является проведение экономико-статистического анализа результатов имитационного моделирования, при котором рекомендуется рассчитывать следующие статистические характеристики:


  • среднее значение;

  • среднеквадратическое отклонение;

  • дисперсию;

  • минимальное и максимальное значение;

  • размах колебаний;

  • коэффициент асимметрии;

  • эксцесс.
Указанные выше показатели могут быть использованы для проверки гипотезы о нормальном распределении. В случае подтверждения гипотезы для составления интервального прогноза может быть использовано правило «трех сигм». Правило «трех сигм» гласит, что если случайная величина X подчинена нормальному закону распределения с параметрами и , то практически достоверно, что её значения заключены в интервале , то есть . Для повышения наглядности и упрощения интерпретации целесообразно построить гистограмму.


Рисунок 1.48 - Гистограмма значений прогнозируемого показателя

Реализация указанных этапов позволит получить вероятностную оценку значений прогнозируемого показателя (интервальный прогноз).

При изучении сложных явлений необходимо учитывать более двух случайных факторов. Правильное представление о природе связи между этими факторами можно получить только в том случае, если подвергнуть исследованию сразу все рассматриваемые случайные факторы. Совместное изучение трех и более случайных факторов позволит исследователю установить более или менее обоснованные предположения о причинных зависимостях между изучаемыми явлениями. Простой формой множественной связи является ли­нейная зависимость между тремя признаками. Случайные факторы обозначаются как X 1 , X 2 и X 3 . Парный коэффициенты корреляции между X 1 и X 2 обозначается как r 12 , соответственно между X 1 и X 3 - r 12 , между X 2 и X 3 - r 23 . В качестве меры тесноты линей­ной связи трех признаков используют множественные ко­эф-фициенты корреляции, обозначаемые R 1 ּ 23 , R 2 ּ 13 , R 3 ּ 12 и частные коэффициенты корреляции, обозначаемые r 12.3 , r 13.2 , r 23.1 .

Множественный коэффициент корреляции R 1.23 трех факторов - это показатель тесноты линейной свя­зи между одним из факторов (индекс перед точкой) и совокупностью двух других факторов (индексы после точ­ки).

Значения коэффициента R всегда находятся в преде­лах от 0 до 1. При приближении R к единице степень линейной связи трех признаков увеличивается.

Между коэффициентом множественной корреляции, например R 2 ּ 13 , и двумя коэффициентами парной корреляции r 12 и r 23 существует соот­ношение: каждый из парных коэффициентов не может превы­шать по абсолютной величине R 2 ּ 13 .

Формулы для вычисления множественных коэффициентов корреляции при известных значениях коэффициен­тов парной корреляции r 12 , r 13 и r 23 имеют вид:

Квадрат коэффициента множественной корреляции R 2 назы­вается коэффициентом множественной детерминации. Он пока­зывает долю вариации зависимой переменной под воздействием изучаемых факторов.

Значимость множественной корреляции оценивается по F -критерию:

n – объем выборки; k – число факторов. В нашем случае k = 3.

нулевая гипотеза о равенстве множественного коэффициента корреляции в совокупности нулю (h o :r =0)принимается, если f ф <f t , и отвергается, если
f ф ³ f т.

теоретическое значение f -критерия определяется для v 1 = k - 1 и v 2 = n - k степеней свободы и принятого уровня значимости a (при­ложение 1).

Пример вычисления коэффициента множественной корреляции . При изучении взаимосвязи между факторами были получены коэффициенты парной корреляции (n =15): r 12 ==0,6; г 13 = 0,3; r 23 = - 0,2.

Необходимо выяснить зависимость признака X 2 от признака X 1 и X 3 , т. е. рассчитать коэффициент множественной кор­реляции:

Табличное значение F -критерия при n 1 = 2 и n 2 = 15 – 3 = 12 степенях свободы при a = 0,05 F 0,05 = 3,89 и при a = 0,01 F 0,01 = 6,93.

Таким образом, взаимосвязь между признаками R 2.13 = 0,74 значима на
1%-ном уровне значимости F ф > F 0,01 .

Судя по коэффициенту множественной детерминации R 2 = (0,74) 2 = 0,55, вариация признака X 2 на 55% связана с действием изучаемых факторов, а 45% вариации (1-R 2) не может быть объяснено влиянием этих переменных.

Частная линейная корреляция

Частный коэффициент корреляции - это показа­тель, измеряющий степень сопряженности двух признаков.

Математическая статистика позволяет установить корреля­цию между двумя признаками при постоянном значении третье­го, не ставя специального эксперимента, а используя парные ко­эффициенты корреляции r 12 , r 13 , r 23 .

Частные коэффициенты корреляции рассчитывают по формулам:

Цифры перед точкой указывают, между ка­кими признаками изучается зависимость, а цифра после точки - влияние какого признака исключается (элиминируется). Ошиб­ку и критерий значимости частной корреляции определяют по тем же формулам, что и парной корреляции:

.

Теоретическое значение t- критерия определяется для v = n – 2 степеней свободы и принятого уровня значимости a (при­ложение 1).

Нулевая гипотеза о равенстве частного коэффициента корреляции в совокупности нулю (H o : r = 0)принимается, если t ф < t т, и отвергается, если
t ф ³ t т.

Частные коэф­фициенты могут принимать значения, заключенные между -1 и+1. Частные коэффициенты детерминации находят путем возве­дения в квадрат частных коэффициентов корреляции:

D 12.3 = r 2 12ּ3 ; d 13.2 = r 2 13ּ2 ; d 23ּ1 = r 2 23ּ1 .

Определение степени частного воздействия отдельных факторов на результативный признак при исключении (элимини­ровании) связи его с другими признаками, искажающими эту корреляцию, часто представляет большой интерес. Иногда бывает, что при постоянном значении элиминируемого признака нельзя подметить его статистического влияния на изменчивость других признаков. Чтобы уяснить технику расчета частного коэффици­ента корреляции, рассмотрим пример. Имеются три параметра X , Y и Z . Для объема выборки n = 180 определены парные коэффициенты корреляции

r xy = 0,799; r xz = 0,57; r yz = 0,507.

Определим частные ко­эффициенты корреляции:

Частный коэффициент корреляции между параметром X и Y Z (r хуּz = 0,720) показывает, что лишь незначительная часть взаимосвязи этих признаков в общей корреляции (r xy = 0,799) обусловлена влиянием третьего признака (Z ). Аналогичное заключение необходимо сделать и в отношении частного коэффициента корреляции между параметром X и параметром Z с постоянным значением параметраY (r х z ּу = 0,318 и r xz = 0,57). Напротив, частный коэффициент корреляции между параметрами Y и Z с постоянным значением параметра X r yz ּx = 0,105 значительно от­личается от общего коэффициента корреляции r у z = 0,507. Из это­го видно, что если подобрать объекты с одинаковым значением параметра X , то связь между признаками Y и Z у них будет очень слабой, так как значительная часть в этой взаимосвязи обуслов­лена варьированием параметра X .

При некоторых обстоятельствах частный коэффициент корре­ляции может оказаться противоположным по знаку парному.

Например, при изучении взаимосвязи между признаками X, У и Z - были получены парные коэффициенты корреляции (при n = 100): r ху = 0,6; r х z = 0,9;
r у z = 0,4.

Частные коэффициенты корреляции при исключении влияния третьего признака:

Из примера видно, что значения парного коэффициента и частного коэффициента корреляции разнятся в знаке.

Метод частной корреляции дает возможность вычислить частный коэффициент корреляции второго порядка. Этот коэф­фициент указывает на взаимосвязь между первым и вторым признаком при постоянном значении третьего и четвертого. Оп­ределение частного коэффициента второго порядка ведут на ос­нове частных коэффициентов первого порядка по формуле:

где r 12 . 4 , r 13 ּ4 , r 23 ּ4 - частные коэффициенты, значение кото­рых определяют по формуле частного коэффициента, используя коэффициенты парной корреляции r 12 , r 13 , r 14 , r 23 , r 24 , r 34 .

Попробуем для начала найти ответ на каждый из обозначенных нами вопросов в ситуации, когда наша каузальная модель содержит всего две независимые переменные.

Множественная корреляция R и коэффициент детерминация R2

Для оценки совокупной связи всех независимых переменных с зависимой переменной используется множественный коэффициент корреляции R. Отличие коэффициента множественной корреляции R от бивариативного коэффициента корреляции г заключается в том, что он может быть лишь положительным. Для двух независимых переменных он может быть оценен следующим образом:

Коэффициент множественной корреляции может быть определен и в результате оценки частных коэффициентов регрессии, составляющих уравнение (9.1). Для двух переменных это уравнение, очевидно, примет следующий вид:

(9.2)

Если наши независимые переменные будут трансформированы в единицы стандартного нормального распределения, или Z-распределения, уравнение (9.2), очевидно, примет следующий вид:

(9.3)

В уравнении (9.3) коэффициент β обозначает стандартизированное значение коэффициента регрессии В.

Сами стандартизированные коэффициенты регрессии могут быть вычислены по следующим формулам:

Теперь формула для вычисления коэффициента множественной корреляции будет выглядеть так:

Еще одним способом оценки коэффициента корреляции R является вычисление бивариативного коэффициента корреляции r между значениями зависимой переменной У и соответствующими им значениями , вычисленными на основании уравнения линейной регрессии (9.2). Иными словами, величина R может быть оценена следующим образом:

Наряду с этим коэффициентом мы можем оценить, как и в случае простой регрессии, величину R 2, которую принято еще обозначать как коэффициент детерминации. Так же как и в ситуации оценки связи между двумя переменными, коэффициент детерминации R 2 показывает, какой процент дисперсии зависимой переменной Y , т.е. , оказывается связанным с дисперсией всех независимых переменных – . Иными словами, оценка коэффициента детерминации может быть осуществлена следующем образом:

Также мы можем оценить процент остаточной дисперсии зависимой переменной, нс связанный ни с одной из независимых переменных 1 – R 2. Квадратный корень от этой величины, т.е. величина , так же, как и в случае бивариативной корреляции, называют коэффициентом отчуждения.

Корреляция части

Коэффициент детерминация R 2 демонстрирует, какой процент дисперсии зависимой переменной может быть связан с дисперсией всех независимых переменных, включенных в каузальную модель. Чем больше этот коэффициент, тем более значимой является выдвинутая нами каузальная модель. Если этот коэффициент оказывается не слишком большим, то и вклад исследуемых нами переменных в общую дисперсию зависимой переменной также оказывается незначительным. На практике, однако, часто требуется не только оценить совокупный вклад всех переменных, но и отдельный вклад каждой из рассматриваемых нами независимых переменных. Такой вклад может быть определен как корреляция части.

Как мы знаем, в случае бивариативной корреляции процент дисперсии зависимой переменной, связанный с дисперсией независимой переменной, может быть обозначен как r 2. Однако часть этой дисперсии в случае исследования эффектов нескольких независимых переменных оказывается обусловлена одновременно дисперсией независимой переменной, которую мы используем в качестве контрольной. Наглядно эти соотношения показаны на рис. 9.1.

Рис. 9.1. Соотношение дисперсий зависимой (Y ) и двух независимых (X 1 и Х 2) переменных в корреляционном анализе с двумя независимыми переменными

Как показано на рис. 9.1, вся дисперсия Y , связанная с двумя нашими независимыми переменными, состоит из трех частей, обозначенными а, b и с. Части а и b дисперсии Y принадлежат по отдельности дисперсии двух независимых переменных – Х 1 и Х 2. В то же время дисперсия части с одновременно связывает и дисперсию зависимой переменной У, и дисперсию двух наших переменных X. Следовательно, для того чтобы оценить связь переменной X 1 с переменной Y, которая не обусловлена влиянием переменной Х 2 на переменную Y , необходимо из величины R" 2 вычесть величину квадрата корреляции Y с Х 2:

(9.6)

Аналогичным образом можно оценить часть корреляции У с Х 2, которая не обусловлена ее корреляцией с Х 1.

(9.7)

Величина sr в уравнениях (9.6) и (9.7) и есть искомая нами корреляция части.

Определить корреляцию части можно также и в терминах обычной бивариативной корреляции:

По-другому корреляция части называется полупарциальной корреляцией. Это название означает, что при расчете корреляции эффект второй независимой переменной устраняется применительно к значениям первой независимой переменной, но нс устраняется по отношению к зависимой переменной. Эффект Х 1 как бы корректируется с помощью значений Х 2, так что коэффициент корреляции рассчитывается не между Y и X 1 а между Y и , причем значения рассчитываются на основе значений Х 2 так, как было рассмотрено в главе, посвященной простой линейной регрессии (см. подпараграф 7.4.2). Таким образом, оказывается справедливым следующее соотношение:

Для того чтобы оценить корреляцию одной независимой переменной с зависимой переменной в отсутствие влияния других независимых переменных как на саму независимую переменную, так и на зависимую переменную, в регрессионном анализе используется понятие частной корреляции.

Частные корреляции

Частная, или парциальная, корреляция определяется в математической статистике через пропорцию дисперсии зависимой переменной, связанной с дисперсией данной независимой переменной, по отношению ко всей дисперсии этой зависимой переменной, не считая той ее части, которая связана с дисперсией других независимых переменных. Формально для случая двух независимых переменных это можно выразить следующим образом:

Сами значения частной корреляции рr могут быть найдены на основе значений бивариативной корреляции:

Частная корреляция, таким образом, может быть определена как обычная бивариативная корреляция между скорректированными значениями как зависимой, так и независимой переменной. Непосредственно коррекция осуществляется в соответствии со значениями независимой переменной, выступающей в качестве контрольной. Иными словами, частная корреляция между зависимой переменной Y и независимой переменной X i может быть определена как обычная корреляция между значениями и значениями , причем значения и предсказываются на основе значений второй независимой переменной Х 2.



Понравилась статья? Поделитесь с друзьями!