Doğrusal regresyon parametrelerini tahmin etme yöntemleri. Basit regresyon planları

Regresyon denklemi her zaman bağlantının yakınlığının bir göstergesi ile desteklenir. Doğrusal regresyon kullanıldığında, böyle bir gösterge doğrusal korelasyon katsayısı r yt'dir. Doğrusal korelasyon katsayısı formülünün farklı modifikasyonları vardır.

Doğrusal korelasyon katsayısının değerinin, söz konusu özellikler arasındaki bağlantının yakınlığını doğrusal biçimde değerlendirdiği unutulmamalıdır. Dolayısıyla doğrusal korelasyon katsayısının mutlak değerinin sıfıra yakın olması, özellikler arasında bağlantı olmadığı anlamına gelmez.

Doğrusal bir fonksiyona uyma kalitesini değerlendirmek için, belirleme katsayısı adı verilen doğrusal korelasyon katsayısı ry yt 2'nin karesi hesaplanır. Belirleme katsayısı, etkili özelliğin t'deki varyansının, etkili özelliğin toplam varyansındaki regresyonla açıklanan oranını karakterize eder.

Doğrusal olmayan regresyon denklemi, doğrusal bağımlılıkta olduğu gibi, bir korelasyon göstergesi, yani korelasyon endeksi R ile desteklenir.

İkinci dereceden bir parabol, yüksek dereceli bir polinom gibi, doğrusallaştırıldığında çoklu regresyon denklemi biçimini alır. Doğrusallaştırıldığında, açıklanan değişkene göre doğrusal olmayan bir regresyon denklemi doğrusal ikili regresyon denklemi biçimini alırsa, ilişkinin yakınlığını değerlendirmek için doğrusal bir korelasyon katsayısı kullanılabilir; bu durumda değeri bu olur. korelasyon indeksi ile örtüşecektir.

Denklemin doğrusal forma dönüştürülmesi bağımlı değişken içerdiğinde durum farklıdır. Bu durumda, dönüştürülmüş özellik değerlerine dayanan doğrusal korelasyon katsayısı, ilişkinin yakınlığına ilişkin yalnızca yaklaşık bir tahmin verir ve korelasyon indeksi ile sayısal olarak örtüşmez. Yani bir güç fonksiyonu için

logaritmik olarak doğrusal denkleme geçtikten sonra

lny = lna + blnx

x ve y değişkenlerinin gerçek değerleri için değil, logaritmaları yani r lnylnx için doğrusal bir korelasyon katsayısı bulunabilir. Buna göre, değerinin karesi, kare sapmaların faktör toplamının toplama oranını karakterize edecektir, ancak y için değil, logaritmaları için:

Bu arada, korelasyon indeksi hesaplanırken, logaritmaları değil, y karakteristiğinin karesel sapmalarının toplamları kullanılır. Bu amaçla ortaya çıkan özelliğin teorik değerleri, yani denklemle hesaplanan değerin ve kalan kareler toplamının antilogaritması olarak belirlenir.

R 2 yx hesaplamasının paydası, gerçek y değerlerinin ortalama değerlerinden kare sapmalarının toplamını içerir ve r 2 lnxlny paydası hesaplamaya katılır. Söz konusu göstergelerin payları ve paydaları buna göre farklılık gösterir:

  • - korelasyon indeksinde ve
  • - korelasyon katsayısında.

Sonuçların benzerliği ve bilgisayar programları kullanılarak yapılan hesaplamaların basitliği nedeniyle, doğrusal olmayan fonksiyonlar için bağlantının yakınlığını karakterize etmek amacıyla doğrusal korelasyon katsayısı yaygın olarak kullanılır.

Doğrusal olmayan fonksiyonlarda R ve r veya R ve r değerlerinin y karakteristiğinin değerinin dönüşümü ile yakınlığına rağmen, özelliklerin doğrusal bir bağımlılığı ile aynı korelasyon katsayısının karakterize ettiği unutulmamalıdır. regresyon, eğer özelliklerin doğrusal bir bağımlılığı ile, bir ve aynı korelasyon katsayısının hem regresyonu karakterize etmesi hem de o zaman y=j(x) fonksiyonu için eğrisel bir bağımlılık ile regresyon x için eşit olmadığı unutulmamalıdır. =f(y).

Korelasyon indeksinin hesaplanmasında faktörün oranı ve sapmaların toplam karesi kullanıldığı için belirleme katsayısı ile aynı anlama gelir. Özel çalışmalarda doğrusal olmayan ilişkilere ilişkin değere belirleme indeksi adı verilir.

Korelasyon endeksinin anlamlılığının değerlendirilmesi, korelasyon katsayısının güvenilirliğinin değerlendirilmesi ile aynı şekilde gerçekleştirilir.

Korelasyon indeksi, Fisher F testi kullanılarak genel doğrusal olmayan regresyon denkleminin önemini test etmek için kullanılır.

M değeri, karelerin faktör toplamı için serbestlik derecesi sayısını ve (n - m - 1) - artık kareler toplamı için serbestlik derecesi sayısını karakterize eder.

Bir güç fonksiyonu için m = 1 ve F kriterinin formülü, doğrusal bağımlılıkla aynı formu alır:

İkinci dereceden bir parabol için

y = a 0 + a 1 x + a 2 x 2 +em = 2

F kriteri, doğrusal fonksiyon için gösterildiği gibi, regresyon sonuçlarının varyans analizi tablosunda da hesaplanabilir.

Belirleme indeksi, doğrusal bir fonksiyonun kullanılma olasılığını doğrulamak için belirleme katsayısı ile karşılaştırılabilir. Regresyon çizgisinin eğriliği ne kadar büyük olursa, belirleme katsayısı o kadar az belirleme endeksi olur. Bu göstergelerin benzerliği, regresyon denkleminin biçimini karmaşıklaştırmaya gerek olmadığı ve doğrusal bir fonksiyonun kullanılabileceği anlamına gelir.

Uygulamada, belirleme endeksi ile belirleme katsayısı arasındaki fark 0,1'i geçmezse, ilişkinin doğrusal bir formu olduğu varsayımının haklı olduğu kabul edilir.

Eğer t gerçek >t tablosu ise, o zaman dikkate alınan korelasyon göstergeleri arasındaki farklar anlamlıdır ve doğrusal olmayan regresyonun doğrusal bir fonksiyon denklemiyle değiştirilmesi imkansızdır. Pratik olarak, eğer t değeri< 2, то различия между R yx и r yx несущественны, и, следовательно, возможно применение линейной регрессии, даже если есть предположения о некоторой нелинейности рассматриваемых соотношений признаков фактора и результата.

Ekonomik olgular, kural olarak, çok sayıda eşzamanlı ve kümülatif olarak etkili olan faktörler tarafından belirlenir. Bu bağlamda, bir değişkenin bağımlılığını inceleme görevi sıklıkla ortaya çıkar. ençeşitli açıklayıcı değişkenlerden ( x 1, x 2,…, x k) kullanılarak çözülebilir çoklu korelasyon ve regresyon analizi.

Çoklu regresyon yöntemleri kullanılarak bağımlılık incelenirken sorun, eşleştirilmiş regresyon kullanıldığında olduğu gibi aynı şekilde oluşturulur; Ortaya çıkan karakteristik arasındaki bağlantı biçiminin analitik ifadesinin belirlenmesi gerekir. en ve faktör özellikleri x, x 2,..., xk, k'nın faktör özelliklerinin sayısı olduğu fonksiyonu bulun

Çoklu regresyon, talep problemlerinin çözümünde, hisse senedi getirilerinde, üretim maliyeti fonksiyonunun incelenmesinde, makroekonomik hesaplamalarda ve çeşitli diğer ekonometri konularında yaygın olarak kullanılmaktadır. Günümüzde ekonometride en yaygın kullanılan yöntemlerden biri çoklu regresyondur. Çoklu regresyonun temel amacı, çok sayıda faktörden oluşan bir model oluşturmak ve her birinin ayrı ayrı etkisini ve bunların modellenen gösterge üzerindeki birleşik etkisini belirlemektir.

Çoklu regresyonda en küçük kareler yönteminin özelliklerinden dolayı ikili regresyonda olduğu gibi sadece doğrusal denklemler ve değişkenlerin dönüştürülmesiyle doğrusal forma indirgenmiş denklemler kullanılır. En sık kullanılan denklem, aşağıdaki şekilde yazılabilen doğrusal bir denklemdir:

a 0 , a 1, …, a k – model parametreleri (regresyon katsayıları);

ε j – rastgele değişken (kalan değer).

Regresyon katsayısı A j, etkili özelliğin ortalama ne kadar değişeceğini gösterir sen, eğer bir değişkense X j Regresyon denkleminde yer alan diğer faktörlerin sabit (sabit) değerinde bir ölçü birimi kadar artış. Parametreler X denir "saf" regresyon katsayıları .

Örnek.

Bir dizi ailenin gıda harcamalarının bağımlılığının aşağıdaki denklemle karakterize edildiğini varsayalım:

sen– bir aylık yemek için aile masrafları, bin ruble;

X 1 – aile üyesi başına aylık gelir, bin ruble;

X 2 – aile büyüklüğü, insanlar.

Bu denklemin analizi, aile üyesi başına gelirde 1 bin ruble artışla sonuç çıkarmamızı sağlıyor. gıda giderleri ortalama 350 ruble artacak. aynı ortalama aile büyüklüğüne sahip. Yani ek aile harcamalarının yüzde 35'i gıdaya gidiyor. Aynı gelirle aile büyüklüğünün artması, gıda maliyetlerinde 730 ruble ek artış anlamına geliyor. İlk parametre ekonomik yoruma tabi değildir.

Model parametrelerinin her birinin güvenilirliği, Öğrenci t testi kullanılarak değerlendirilir. a j model parametrelerinden herhangi biri için t kriteri değeri aşağıdaki formül kullanılarak hesaplanır: , Nerede


S ε – regresyon denkleminin standart (ortalama kare) sapması)

formülle belirlenir

Hesaplanan değer aşağıdaki durumlarda regresyon katsayısı a j'nin yeterince güvenilir olduğu kabul edilir. T- ile kriter ( n - k - 1) serbestlik derecesi tablo değerini aşıyor, yani. t hesap > t A jn-k-1 . Regresyon katsayısının güvenilirliği doğrulanamıyorsa; Faktör modelinde anlamsızlığa ilişkin sonuç J karakteristik ve onu modelden çıkarma veya başka bir faktöriyel karakteristik ile değiştirme ihtiyacı.

Faktörlerin etkisinin değerlendirilmesinde önemli bir rol, regresyon modelinin katsayıları tarafından oynanır. Bununla birlikte, doğrudan onların yardımıyla, ölçüm birimlerindeki farklılık ve farklı değişkenlik dereceleri nedeniyle faktör özelliklerini bağımlı değişken üzerindeki etki derecesine göre karşılaştırmak imkansızdır. Bu tür farklılıkları ortadan kaldırmak için şunu kullanın: kısmi esneklik katsayıları Ej ve beta katsayıları β j.

Esneklik katsayısının hesaplanması için formül

Nerede

a j – faktör regresyon katsayısı J,

Etkili özelliğin ortalama değeri

Karakteristiğin ortalama değeri J

Esneklik katsayısı bağımlı değişkenin yüzde kaç oranında değiştiğini gösterir en faktör değiştiğinde J%1 oranında.

Beta katsayısını belirlemek için formül.

, Nerede

S xj – faktörün standart sapması J;

S y - faktörün standart sapması y.

β - katsayı standart sapmanın hangi kısmına göre olduğunu gösterir Evet bağımlı değişken değişecek en karşılık gelen bağımsız değişkende bir değişiklik ile X j, kalan bağımsız değişkenlerin sabit değeri ile standart sapmasının değeriyle.

Belirli bir faktörün etkisinin tüm faktörlerin toplam etkisindeki payı, değerle tahmin edilebilir. delta katsayıları Δ j.

Bu katsayılar, faktörlerin bağımlı değişken üzerindeki etki derecesine göre faktörleri sıralamanıza olanak tanır.

Delta katsayısını belirlemek için formül.

r yj – j faktörü ile bağımlı değişken arasındaki ikili korelasyon katsayısı;

R 2 – çoklu belirleme katsayısı.

Çoklu belirleme katsayısı aşağıdakiler için kullanılır: kalite değerlendirmeleriÇoklu regresyon modelleri.

Çoklu belirleme katsayısını belirlemek için formül.

Belirleme katsayısı, faktör özelliklerinin etkisi altında ortaya çıkan karakteristikteki değişimin oranını gösterir; Bir özellikteki varyasyonun ne oranda olduğunu belirler en modelde dikkate alınması ve modelde yer alan faktörlerin etkisinden kaynaklanmaktadır. daha yakın R2 bire doğru, modelin kalitesi ne kadar yüksek olursa

Bağımsız değişkenler eklenirken değer R2 artar, dolayısıyla katsayı R2 formül kullanılarak bağımsız değişkenlerin sayısına göre ayarlanmalıdır

İçin model anlamlılık testi Regresyon için Fisher's F testi kullanılır. Formülle belirlenir

Kriterin hesaplanan değeri ise γ 1, = k Ve γ 2 = (n - k- 1) Belirli bir anlamlılık seviyesinde serbestlik derecesi tablodan daha büyükse, model anlamlı kabul edilir.

Modelin doğruluğunun bir ölçüsü olarak, artık bileşen seviyelerinin kareleri toplamının (n - k -1) değerine oranı olan standart hata kullanılır:

Doğrusal bir modelin parametrelerini tahmin etmeye yönelik klasik yaklaşım, en küçük kareler yöntemi (LSM). Normal denklem sistemi şu şekildedir:

Sistem iyi bilinen yöntemlerden biri kullanılarak çözülebilir: Gauss yöntemi, Cramer yöntemi vb.

Örnek 15.

Bölgedeki dört işletme için (Tablo 41), çalışan başına ürün çıktısının bağımlılığı incelenmiştir. sen(bin ruble) yeni sabit varlıkların devreye alınmasından (yıl sonunda varlıkların değerinin yüzdesi) ve yüksek vasıflı işçilerin toplam işçi sayısı içindeki payından (%). Çoklu regresyon denklemi yazmanız gerekir.

Tablo 41 – Çalışan başına ürün çıktısının bağımlılığı

T-istatistiğini kullanarak regresyon denklemi parametrelerinin önemini kontrol edebilirsiniz.

Egzersiz yapmak:
Aynı tür ürünü üreten bir grup işletme için maliyet fonksiyonları dikkate alınır:
y = α + βx;
y = α x β;
y = α βx;
y = α + β / x;
burada y üretim maliyetleridir, bin adet.
x – üretim çıktısı, bin adet.

Gerekli:
1. X'ten y'ye ikili regresyon denklemleri oluşturun:

  • doğrusal;
  • güç;
  • gösterici;
  • eşkenar hiperbol.
2. Çift korelasyonunun doğrusal katsayısını ve belirleme katsayısını hesaplayın. Sonuç çıkarın.
3. Regresyon denkleminin istatistiksel önemini bir bütün olarak değerlendirin.
4. Regresyon ve korelasyon parametrelerinin istatistiksel anlamlılığını değerlendirin.
5. Ortalama seviyenin %195'i oranında bir tahmin çıktısı ile üretim maliyetleri tahminini gerçekleştirin.
6. Tahminin doğruluğunu değerlendirin, tahmin hatasını ve güven aralığını hesaplayın.
7. Ortalama yaklaşım hatasıyla modeli değerlendirin.

Çözüm:

1. Denklem: y = α + βx
1. Regresyon denklemi parametreleri.
Ortalama değerler

Dağılım

Standart sapma

Korelasyon katsayısı

Y özelliği ile X faktörü arasındaki ilişki güçlü ve doğrudandır
Regresyon denklemi

Belirleme katsayısı
R2 = 0,94 2 = 0,89, yani. Vakaların %88,9774'ünde x'teki değişiklikler y'de değişikliklere yol açıyor. Başka bir deyişle regresyon denkleminin seçim doğruluğu yüksektir

X sen x 2 y 2 x∙y y(x) (y-y cp) 2 (y-y(x)) 2 (x-xp) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Not: y(x) değerleri ortaya çıkan regresyon denkleminden bulunur:
y(1) = 4,01*1 + 99,18 = 103,19
y(2) = 4,01*2 + 99,18 = 107,2
... ... ...

2. Regresyon denklemi parametrelerinin tahmini
Korelasyon katsayısının önemi

Öğrenci tablosunu kullanarak Ttable'ı buluyoruz
T tablosu (n-m-1;α/2) = (11;0,05/2) = 1,796
Tob > Ttabl olduğundan korelasyon katsayısının 0'a eşit olduğu hipotezini reddediyoruz. Başka bir deyişle korelasyon katsayısı istatistiksel olarak anlamlıdır.

Regresyon katsayılarının tahminlerini belirleme doğruluğunun analizi





Sa = 0,1712
Bağımlı değişken için güven aralıkları

Sınırsız sayıda gözlem ile Y'nin olası değerlerinin %95'inin yoğunlaşacağı aralığın sınırlarını ve X = 1'i hesaplayalım.
(-20.41;56.24)
Doğrusal regresyon denkleminin katsayılarına ilişkin hipotezlerin test edilmesi
1) t-istatistikleri


Regresyon katsayısı a'nın istatistiksel önemi doğrulandı

Regresyon katsayısı b'nin istatistiksel önemi doğrulanmadı
Regresyon denklemi katsayıları için güven aralığı
%95 güvenilirlikle elde edilecek olan regresyon katsayılarının güven aralıklarını şu şekilde belirleyelim:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
burada t = 1,796
2) F istatistikleri


Fkp = 4.84
F > Fkp olduğundan belirleme katsayısı istatistiksel olarak anlamlıdır

Regresyon nedir?

İki sürekli değişkeni düşünün x=(x 1 , x 2 , .., x n), y=(y 1 , y 2 , ..., y n).

Noktaları iki boyutlu bir dağılım grafiğine yerleştirelim ve diyelim ki elimizde doğrusal ilişki Verilere düz bir çizgiyle yaklaşılıyorsa.

Eğer buna inanırsak sen bağlıdır X ve değişiklikler sen tam olarak değişikliklerden kaynaklanmaktadır X regresyon çizgisini belirleyebiliriz (regresyon sen Açık X), bu iki değişken arasındaki doğrusal ilişkiyi en iyi tanımlayandır.

Regresyon kelimesinin istatistiksel kullanımı, Sir Francis Galton'a (1889) atfedilen, ortalamaya regresyon olarak bilinen olgudan gelmektedir.

Uzun babaların uzun boylu oğullara sahip olma eğiliminde olmalarına rağmen, oğulların ortalama boylarının uzun babalarınkinden daha kısa olduğunu gösterdi. Oğulların ortalama boyu, popülasyondaki tüm babaların ortalama boyuna doğru "gerildi" ve "geriye doğru ilerledi". Bu nedenle, ortalama olarak, uzun babaların daha kısa (ama yine de oldukça uzun) oğulları var ve kısa boylu babaların daha uzun (ama yine de oldukça kısa) oğulları var.

Regresyon çizgisi

Basit (çift yönlü) bir doğrusal regresyon çizgisini tahmin eden matematiksel bir denklem:

X bağımsız değişken veya yordayıcı olarak adlandırılır.

e- bağımlı değişken veya yanıt değişkeni. Bu beklediğimiz değer sen(ortalama olarak) değerini biliyorsak X yani "tahmin edilen değer" sen»

  • A- değerlendirme hattının serbest üyesi (kesişmesi); anlamı bu e, Ne zaman x=0(Şekil 1).
  • B- tahmini çizginin eğimi veya eğimi; hangi miktarda olduğunu temsil eder e eğer arttırırsak ortalama olarak artar X bir birim için.
  • A Ve B tahmin edilen doğrunun regresyon katsayıları olarak adlandırılır, ancak bu terim genellikle yalnızca B.

İkili doğrusal regresyon, birden fazla bağımsız değişkeni içerecek şekilde genişletilebilir; bu durumda şu şekilde bilinir: çoklu regresyon.

Şekil 1. a kesim noktasını ve b eğimini gösteren doğrusal regresyon çizgisi (x bir birim arttıkça Y miktarı da artar)

En küçük kareler yöntemi

Bir gözlem örneğini kullanarak regresyon analizi yapıyoruz. A Ve B- popülasyondaki (genel popülasyon) doğrusal regresyon çizgisini belirleyen gerçek (genel) parametreler olan α ve β'nın örnek tahminleri.

Katsayıları belirlemenin en basit yöntemi A Ve Böyle en küçük kareler yöntemi(ÇUŞ).

Uyum, artıklara (her noktanın çizgiden dikey mesafesi, örneğin artık = gözlemlenen) bakılarak değerlendirilir. sen- tahmin sen, Pirinç. 2).

En iyi uyum çizgisi, artıkların karelerinin toplamı minimum olacak şekilde seçilir.

Pirinç. 2. Her nokta için artıkların (dikey noktalı çizgiler) gösterildiği doğrusal regresyon çizgisi.

Doğrusal Regresyon Varsayımları

Yani, gözlemlenen her değer için kalan, farka eşittir ve karşılık gelen tahmin edilen değer, pozitif veya negatif olabilir.

Doğrusal regresyonun ardındaki aşağıdaki varsayımları test etmek için artıkları kullanabilirsiniz:

  • Artıklar normal olarak sıfır ortalaması ile dağıtılır;

Doğrusallık, normallik ve/veya sabit varyans varsayımları sorgulanabilirse, bu varsayımların karşılandığı yeni bir regresyon çizgisini dönüştürebilir veya hesaplayabiliriz (örneğin, logaritmik dönüşüm vb. kullanın).

Anormal değerler (aykırı değerler) ve etki noktaları

"Etkili" bir gözlem atlanırsa, bir veya daha fazla model parametre tahminini değiştirir (yani eğim veya kesişme).

Bir aykırı değer (bir veri kümesindeki değerlerin çoğunluğuyla tutarsız olan bir gözlem) "etkili" bir gözlem olabilir ve iki değişkenli bir dağılım grafiği veya artık grafiği incelenerek görsel olarak kolayca tespit edilebilir.

Hem aykırı değerler hem de “etkili” gözlemler (noktalar) için, hem dahil edilerek hem de edilmeden modeller kullanılır ve tahminlerdeki değişikliklere (regresyon katsayıları) dikkat edilir.

Bir analiz gerçekleştirirken, aykırı değerleri veya etki noktalarını otomatik olarak göz ardı etmemelisiniz çünkü bunları göz ardı etmek, elde edilen sonuçları etkileyebilir. Her zaman bu aykırı değerlerin nedenlerini inceleyin ve analiz edin.

Doğrusal regresyon hipotezi

Doğrusal regresyon oluşturulurken, regresyon çizgisi β'nın genel eğiminin sıfıra eşit olduğu boş hipotezi test edilir.

Doğrunun eğimi sıfırsa ve arasında doğrusal bir ilişki yoktur: değişiklik etkilemez

Gerçek eğimin sıfır olduğuna ilişkin sıfır hipotezini test etmek için aşağıdaki algoritmayı kullanabilirsiniz:

Katsayının standart hatasının serbestlik dereceli bir dağılıma tabi olduğu orana eşit test istatistiğini hesaplayın


,

- artıkların dağılımının tahmini.

Genellikle anlamlılık düzeyine ulaşıldığında sıfır hipotezi reddedilir.


iki taraflı bir test olasılığını veren serbestlik dereceli dağılımın yüzde puanı nerede

Bu %95 olasılıkla genel eğimi içeren aralıktır.

Büyük örnekler için örneğin 1,96 değerine yaklaşabiliriz (yani test istatistiği normal dağılma eğiliminde olacaktır).

Doğrusal regresyonun kalitesinin değerlendirilmesi: R 2 belirleme katsayısı

Doğrusal ilişki nedeniyle ve bunun şu şekilde değişmesini bekliyoruz: ve buna regresyondan kaynaklanan veya regresyonla açıklanan varyasyon adını verin. Artık değişim mümkün olduğu kadar küçük olmalıdır.

Eğer bu doğruysa, varyasyonun çoğu regresyonla açıklanacak ve noktalar regresyon çizgisine yakın olacaktır; çizgi verilere iyi uyuyor.

Regresyonla açıklanan toplam varyansın oranına denir. belirleme katsayısı genellikle yüzde olarak ifade edilir ve gösterilir R2(eşleştirilmiş doğrusal regresyonda bu miktardır r2, korelasyon katsayısının karesi), regresyon denkleminin kalitesini öznel olarak değerlendirmenize olanak tanır.

Fark, regresyonla açıklanamayan varyans yüzdesini temsil eder.

Değerlendirilecek resmi bir test yoktur; regresyon çizgisinin uyumunun iyiliğini belirlemek için öznel yargıya güvenmek zorundayız.

Tahmine Regresyon Doğrusu Uygulamak

Gözlemlenen aralığın en uç noktasındaki bir değerden bir değer tahmin etmek için bir regresyon çizgisi kullanabilirsiniz (asla bu sınırların ötesine geçmeyin).

Belirli bir değere sahip gözlemlenebilirlerin ortalamasını, bu değeri regresyon çizgisinin denklemine yerleştirerek tahmin ederiz.

Yani, eğer tahmin edersek, gerçek popülasyon ortalaması için bir güven aralığı tahmin etmek amacıyla bu tahmin edilen değeri ve standart hatasını kullanın.

Bu prosedürü farklı değerler için tekrarlamak, bu çizgi için güven limitleri oluşturmanıza olanak sağlar. Bu, örneğin %95 güven seviyesinde gerçek çizgiyi içeren bant veya alandır.

Basit regresyon planları

Basit regresyon tasarımları bir sürekli öngörücü içerir. 7, 4 ve 9 gibi P tahmin değerlerine sahip 3 gözlem varsa ve tasarım birinci dereceden bir P etkisi içeriyorsa, o zaman tasarım matrisi X şöyle olacaktır:

ve X1 için P'yi kullanan regresyon denklemi şu şekildedir:

Y = b0 + b1 P

Basit bir regresyon tasarımı P üzerinde ikinci dereceden bir etki gibi daha yüksek dereceli bir etki içeriyorsa, tasarım matrisindeki X1 sütunundaki değerler ikinci kuvvete yükseltilecektir:

ve denklem şu şekli alacaktır

Y = b0 + b1 P2

Sigma kısıtlı ve aşırı parametreli kodlama yöntemleri, basit regresyon tasarımlarına ve yalnızca sürekli tahmin ediciler içeren diğer tasarımlara uygulanmaz (çünkü kategorik tahmin ediciler yoktur). Seçilen kodlama yöntemine bakılmaksızın sürekli değişkenlerin değerleri buna göre artırılır ve X değişkenleri için değer olarak kullanılır. Bu durumda herhangi bir yeniden kodlama yapılmaz. Ek olarak, regresyon planlarını açıklarken X tasarım matrisini dikkate almayıp yalnızca regresyon denklemiyle çalışabilirsiniz.

Örnek: Basit Regresyon Analizi

Bu örnek, tabloda sunulan verileri kullanır:

Pirinç. 3. Başlangıç ​​verileri tablosu.

Rastgele seçilen 30 ilçede 1960 ve 1970 nüfus sayımlarının karşılaştırılmasından derlenen veriler. İlçe adları gözlem adları olarak sunulmuştur. Her bir değişkene ilişkin bilgiler aşağıda sunulmuştur:

Pirinç. 4. Değişken özellikler tablosu.

Araştırma problemi

Bu örnekte yoksulluk oranı ile yoksulluk sınırının altındaki ailelerin yüzdesini öngören derece arasındaki korelasyon analiz edilecektir. Bu nedenle değişken 3'ü (Pt_Poor) bağımlı değişken olarak ele alacağız.

Bir hipotez öne sürebiliriz: Nüfus büyüklüğündeki değişiklikler ile yoksulluk sınırının altındaki ailelerin yüzdesi birbiriyle ilişkilidir. Yoksulluğun dışarıya göçe yol açmasını beklemek makul görünmektedir, dolayısıyla yoksulluk sınırının altındaki insanların yüzdesi ile nüfus değişimi arasında negatif bir korelasyon olacaktır. Bu nedenle değişken 1'i (Pop_Chng) tahmin değişkeni olarak ele alacağız.

Sonuçları görüntüle

Regresyon katsayıları

Pirinç. 5. Pt_Poor'un Pop_Chng üzerindeki regresyon katsayıları.

Pop_Chng satırı ile Param sütununun kesiştiği noktada.<.05 . Обратите внимание на не стандартизованный коэффициент, который также является коэффициентом корреляции Пирсона для простых регрессионных планов, равен -.65, который означает, что для каждого уменьшения стандартного отклонения численности населения происходит увеличение стандартного отклонения уровня бедности на.65.

Pt_Poor'un Pop_Chng üzerindeki regresyonuna ilişkin standartlaştırılmamış katsayı -0,40374'tür. Bu, nüfustaki her bir birim azalmaya karşılık yoksulluk oranında 0,40374 artış olduğu anlamına geliyor. Bu standartlaştırılmamış katsayı için üst ve alt (varsayılan) %95 güven sınırları sıfır içermez, dolayısıyla regresyon katsayısı p düzeyinde anlamlıdır

Değişken dağılım

Verilerde büyük aykırı değerler mevcutsa korelasyon katsayıları önemli ölçüde fazla tahmin edilebilir veya eksik tahmin edilebilir. Bağımlı değişken Pt_Poor'un ilçelere göre dağılımını inceleyelim. Bunu yapmak için Pt_Poor değişkeninin histogramını oluşturalım.

Gördüğünüz gibi bu değişkenin dağılımı normal dağılımdan oldukça farklı. Bununla birlikte, iki ilçede (iki sağ sütun) normal dağılıma göre yoksulluk sınırının altında olan ailelerin yüzdesi beklenenden daha yüksek olmasına rağmen, bunlar "aralık içinde" görünmektedir.

Pirinç. 7. Pt_Poor değişkeninin histogramı.

Bu yargı biraz subjektif. Temel kural, gözlemin (veya gözlemlerin) aralık (standart sapmanın ortalama ± 3 katı) dahilinde olmaması durumunda aykırı değerlerin dikkate alınması gerektiğidir. Bu durumda, bunların popülasyon üyeleri arasındaki korelasyon üzerinde önemli bir etkiye sahip olmadıklarından emin olmak için analizi aykırı değerlerle ve aykırı değerler olmadan tekrarlamak faydalı olacaktır.

Dağılım grafiği

Hipotezlerden biri, verilen değişkenler arasındaki ilişkiyle ilgili önsel ise, o zaman bunu karşılık gelen dağılım grafiğinin grafiği üzerinde test etmek faydalı olacaktır.

Pirinç. 8. Dağılım diyagramı.

Dağılım grafiği, iki değişken arasında net bir negatif korelasyon (-.65) göstermektedir. Aynı zamanda regresyon çizgisi için %95 güven aralığını da gösterir; yani regresyon çizgisinin iki noktalı eğri arasında yer alma olasılığı %95'tir.

Önem kriterleri

Pirinç. 9. Önemlilik kriterlerini içeren tablo.

Pop_Chng regresyon katsayısı testi, Pop_Chng'nin Pt_Poor ile güçlü bir şekilde ilişkili olduğunu doğrular, p<.001 .

Sonuç olarak

Bu örnek, basit bir regresyon tasarımının nasıl analiz edileceğini gösterdi. Standartlaştırılmamış ve standartlaştırılmış regresyon katsayılarının yorumları da sunuldu. Bağımlı bir değişkenin tepki dağılımını çalışmanın önemi tartışılır ve bir yordayıcı ile bağımlı değişken arasındaki ilişkinin yönünü ve gücünü belirlemeye yönelik bir teknik gösterilir.

Korelasyon analizi.

Eşleştirilmiş Regresyon Denklemi.

Grafik yöntemini kullanma.

Bu yöntem, incelenen ekonomik göstergeler arasındaki bağlantı biçimini görsel olarak tasvir etmek için kullanılır. Bunu yapmak için, dikdörtgen bir koordinat sisteminde bir grafik çizilir, elde edilen Y karakteristiğinin bireysel değerleri ordinat ekseni boyunca çizilir ve X faktör karakteristiğinin bireysel değerleri apsis ekseni boyunca çizilir.

Sonuç ve faktör özelliklerinin puan kümesine denir korelasyon alanı.

Korelasyon alanına dayanarak (popülasyon için) X ve Y'nin tüm olası değerleri arasındaki ilişkinin doğrusal olduğunu varsayabiliriz.

Doğrusal regresyon denklemi: y = bx + a + ε

Burada ε rastgele bir hatadır (sapma, bozulma).

Rastgele bir hatanın varlığının nedenleri:

1. Regresyon modeline anlamlı açıklayıcı değişkenlerin dahil edilememesi;

2. Değişkenlerin toplanması. Örneğin, toplam tüketim fonksiyonu, genel olarak bireysel harcama kararlarının toplamını ifade etme girişimidir. Bu yalnızca farklı parametrelere sahip bireysel ilişkilerin bir tahminidir.

3. Model yapısının yanlış tanımlanması;

4. Yanlış işlevsel belirtim;

5. Ölçüm hataları.

Her spesifik gözlem i için sapmalar ε i rastgele olduğundan ve örnekteki değerleri bilinmediğinden, o zaman:

1) x i ve y i gözlemlerinden yalnızca α ve β parametrelerinin tahminleri elde edilebilir

2) Regresyon modelinin α ve β parametrelerinin tahminleri, doğası gereği rastgele olan sırasıyla a ve b değerleridir, çünkü rastgele bir örneğe karşılık gelir;

Daha sonra tahmin regresyon denklemi (örnek verilerden oluşturulan) y = bx + a + ε formuna sahip olacaktır; burada e i, ε i hatalarının gözlemlenen değerleridir (tahminlerdir) ve a ve b sırasıyla tahminlerdir. bulunması gereken regresyon modelinin α ve β parametreleri.

α ve β parametrelerini tahmin etmek için en küçük kareler yöntemi (en küçük kareler yöntemi) kullanılır. En küçük kareler yöntemi, regresyon denkleminin parametrelerinin en iyi (tutarlı, verimli ve tarafsız) tahminlerini sağlar.

Ancak yalnızca rastgele terim (ε) ve bağımsız değişken (x) ile ilgili belirli önermeler karşılanırsa.

OLS kriteri resmi olarak şu şekilde yazılabilir:

S = ∑(y ben - y * i) 2 → dak

Normal denklem sistemi.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Verilerimiz için denklem sistemi şu şekildedir:

15a + 186,4b = 17,01

186,4 a + 2360,9 b = 208,25

İfade ettiğimiz ilk denklemden A ve ikinci denklemde yerine koyalım:

Ampirik regresyon katsayılarını elde ediyoruz: b = -0,07024, a = 2,0069

Regresyon denklemi (ampirik regresyon denklemi):

y = -0,07024 x + 2,0069

Ampirik regresyon katsayıları A Ve B sadece teorik katsayılar βi'nin tahminleridir ve denklemin kendisi yalnızca dikkate alınan değişkenlerin davranışındaki genel eğilimi yansıtır.

Regresyon parametrelerini hesaplamak için bir hesaplama tablosu oluşturacağız (Tablo 1)

1. Regresyon denklemi parametreleri.

Örnek anlamına gelir.

Örnek farklılıklar:

Standart sapma

1.1. Korelasyon katsayısı

Kovaryans.

Bağlantı yakınlığının göstergesini hesaplıyoruz. Bu gösterge, aşağıdaki formülle hesaplanan örnek doğrusal korelasyon katsayısıdır:

Doğrusal korelasyon katsayısı –1 ile +1 arasında değerler alır.

Karakteristikler arasındaki bağlantılar zayıf ve güçlü (yakın) olabilir. Kriterleri Chaddock ölçeğine göre değerlendirilir:

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

Örneğimizde Y özelliği ile X faktörü arasındaki ilişki yüksek ve terstir.

Ek olarak doğrusal çift korelasyon katsayısı, regresyon katsayısı b aracılığıyla belirlenebilir:

1.2. Regresyon denklemi(regresyon denkleminin tahmini).

Doğrusal regresyon denklemi y = -0,0702 x + 2,01'dir

Doğrusal bir regresyon denkleminin katsayılarına ekonomik anlam verilebilir.

Regresyon katsayısı b = -0,0702, etkin göstergedeki (y ölçü birimi cinsinden) ortalama değişimi, ölçüm birimi başına x faktörünün değerindeki artış veya azalışla gösterir. Bu örnekte 1 birimlik artışla y ortalama -0,0702 azalmaktadır.

a = 2,01 katsayısı resmi olarak y'nin tahmin edilen düzeyini gösterir, ancak yalnızca x = 0'ın örnek değerlere yakın olması durumunda.

Ancak x=0, x'in örnek değerlerinden uzaksa, o zaman birebir yorum yanlış sonuçlara yol açabilir ve regresyon çizgisi gözlemlenen örnek değerleri oldukça doğru bir şekilde tanımlasa bile bunun da olacağının garantisi yoktur. sola veya sağa tahmin yaparken durum böyle olabilir.

Uygun x değerlerini regresyon denkleminde yerine koyarak, her gözlem için performans göstergesi y(x)'in hizalanmış (tahmin edilen) değerlerini belirleyebiliriz.

Y ve x arasındaki ilişki, regresyon katsayısı b'nin işaretini belirler (eğer > 0 ise - doğrudan ilişki, aksi takdirde - ters). Örneğimizde bağlantı terstir.

1.3. Esneklik katsayısı.

Sonuç göstergesi y ile faktör özelliği x'in ölçüm birimlerinde bir fark varsa, faktörlerin sonuç özelliği üzerindeki etkisini doğrudan değerlendirmek için regresyon katsayılarının (örnek b) kullanılması önerilmez.

Bu amaçlar için esneklik katsayıları ve beta katsayıları hesaplanır.

Ortalama esneklik katsayısı E, sonucun toplamda ortalama yüzde kaç oranında değişeceğini gösterir. en faktör değiştiğinde ortalama değerinden X ortalama değerinin %1'i kadar.

Esneklik katsayısı aşağıdaki formülle bulunur:

Esneklik katsayısı 1'den küçüktür. Dolayısıyla X %1 değişirse Y de %1'den az değişecektir. Başka bir deyişle X'in Y üzerindeki etkisi anlamlı değildir.

Beta katsayısı

Beta katsayısı faktör karakteristiği standart sapma değeri kadar değiştiğinde, kalan bağımsız değişkenlerin değeri sabit bir seviyede sabitlendiğinde, ortaya çıkan özelliğin ortalama değerinin standart sapma değerinin ne kadar değişeceğini gösterir:

Onlar. x'te S x standart sapması kadar bir artış, Y'nin ortalama değerinde 0,82 standart sapma S y kadar bir azalmaya yol açacaktır.

1.4. Yaklaşım hatası.

Mutlak yaklaşım hatasını kullanarak regresyon denkleminin kalitesini değerlendirelim. Ortalama yaklaşım hatası - hesaplanan değerlerin gerçek değerlerden ortalama sapması:

%5-%7 aralığındaki bir yaklaşım hatası, regresyon denkleminin orijinal verilere iyi bir şekilde uyduğunu gösterir.

Hata %7'den az olduğundan bu denklem regresyon olarak kullanılabilir.



Makaleyi beğendin mi? Arkadaşlarınızla paylaşın!