Uyarlanmış en küçük kareler yöntemi. Kullanılan kaynakların listesi

En küçük kareler yöntemi Regresyon denkleminin parametrelerini tahmin etmek için kullanılır.
Satır sayısı (kaynak verileri)

Özellikler arasındaki stokastik ilişkileri incelemenin yöntemlerinden biri regresyon analizidir.
Regresyon analizi, başka bir (veya diğer) değişkenin (faktör nitelikleri) değeri biliniyorsa, rastgele bir değişkenin ortalama değerinin (sonuç niteliği) bulunduğu bir regresyon denkleminin türetilmesidir. Aşağıdaki adımları içerir:

  1. bağlantı biçiminin seçimi (analitik regresyon denkleminin türü);
  2. denklem parametrelerinin tahmini;
  3. analitik regresyon denkleminin kalitesinin değerlendirilmesi.
Çoğu zaman, özelliklerin istatistiksel ilişkisini tanımlamak için doğrusal bir form kullanılır. Doğrusal ilişkilere odaklanma, parametrelerinin açık ekonomik yorumuyla, değişkenlerin sınırlı değişimiyle ve çoğu durumda doğrusal olmayan ilişki biçimlerinin hesaplamaları gerçekleştirmek için (logaritma veya değişkenlerin ikamesi yoluyla) doğrusal bir biçime dönüştürülmesi gerçeğiyle açıklanır. .
Doğrusal ikili ilişki durumunda regresyon denklemi şu formu alacaktır: y i =a+b·x i +u i . Bu denklemin a ve b parametreleri x ve y istatistiksel gözlem verilerinden tahmin edilir. Böyle bir değerlendirmenin sonucu aşağıdaki denklemdir: burada a ve b parametrelerinin tahminleri, regresyon denkleminden (hesaplanan değer) elde edilen sonuçtaki özelliğin (değişken) değeridir.

Parametreleri tahmin etmek için en sık kullanılanlar en küçük kareler yöntemi (LSM).
En küçük kareler yöntemi, regresyon denkleminin parametrelerinin en iyi (tutarlı, verimli ve tarafsız) tahminlerini sağlar. Ancak yalnızca rastgele terim (u) ve bağımsız değişken (x) ile ilgili belirli varsayımlar karşılanırsa (bkz. OLS varsayımları).

En küçük kareler yöntemini kullanarak bir doğrusal çift denklemin parametrelerini tahmin etme problemişu şekildedir: sonuçta ortaya çıkan özelliğin gerçek değerlerinin - hesaplanan değerlerden y i - sapmalarının karelerinin toplamının minimum olduğu bu tür parametre tahminlerini elde etmek.
Resmi olarak OLS testişu şekilde yazılabilir: .

En küçük kareler yöntemlerinin sınıflandırılması

  1. En küçük kareler yöntemi.
  2. Maksimum olabilirlik yöntemi (normal bir klasik doğrusal regresyon modeli için, regresyon kalıntılarının normalliği varsayılır).
  3. Genelleştirilmiş en küçük kareler OLS yöntemi, hataların otokorelasyonu ve değişen varyans durumunda kullanılır.
  4. Ağırlıklandırılmış en küçük kareler yöntemi (heteroskedastik artıklara sahip özel bir OLS durumu).

Konuyu açıklayalım klasik en küçük kareler yöntemi grafiksel olarak. Bunu yapmak için dikdörtgen bir koordinat sisteminde gözlemsel verilere (x i, y i, i=1;n) dayalı bir dağılım grafiği oluşturacağız (böyle bir dağılım grafiğine korelasyon alanı denir). Korelasyon alanının noktalarına en yakın düz çizgiyi seçmeye çalışalım. En küçük kareler yöntemine göre çizgi, korelasyon alanı noktaları ile bu çizgi arasındaki dikey mesafelerin karelerinin toplamı minimum olacak şekilde seçilir.

Bu problemin matematiksel gösterimi: .
y i ve x i =1...n değerleri tarafımızdan bilinmektedir; bunlar gözlemsel verilerdir. S fonksiyonunda sabitleri temsil ederler. Bu fonksiyondaki değişkenler - , parametrelerinin gerekli tahminleridir. İki değişkenli bir fonksiyonun minimumunu bulmak için, bu fonksiyonun her bir parametre için kısmi türevlerini hesaplamak ve bunları sıfıra eşitlemek gerekir; .
Sonuç olarak, 2 normal doğrusal denklemden oluşan bir sistem elde ederiz:
Bu sistemi çözerek gerekli parametre tahminlerini buluyoruz:

Regresyon denkleminin parametrelerinin hesaplanmasının doğruluğu, miktarlar karşılaştırılarak kontrol edilebilir (hesaplamaların yuvarlanmasından dolayı bazı tutarsızlıklar olabilir).
Parametre tahminlerini hesaplamak için Tablo 1'i oluşturabilirsiniz.
Regresyon katsayısı b'nin işareti ilişkinin yönünü gösterir (b>0 ise ilişki doğrudandır, b ise ilişkidir)<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Resmi olarak, a parametresinin değeri, x'in sıfıra eşit olduğu y'nin ortalama değeridir. Nitelik faktörü sıfır değere sahip değilse ve olamıyorsa, a parametresinin yukarıdaki yorumu anlamlı değildir.

Özellikler arasındaki ilişkinin yakınlığının değerlendirilmesi doğrusal çift korelasyon katsayısı - r x,y kullanılarak gerçekleştirilir. Aşağıdaki formül kullanılarak hesaplanabilir: . Ek olarak doğrusal çift korelasyon katsayısı, regresyon katsayısı b aracılığıyla belirlenebilir: .
Doğrusal çift korelasyon katsayısının kabul edilebilir değerleri aralığı –1 ile +1 arasındadır. Korelasyon katsayısının işareti ilişkinin yönünü gösterir. Eğer r x, y >0 ise bağlantı doğrudandır; eğer rx, y<0, то связь обратная.
Bu katsayı büyüklük olarak birliğe yakınsa, özellikler arasındaki ilişki oldukça yakın doğrusal bir ilişki olarak yorumlanabilir. Eğer modülü bir ê r x y ê =1'e eşitse, o zaman özellikler arasındaki ilişki fonksiyonel doğrusaldır. Eğer x ve y özellikleri doğrusal olarak bağımsızsa, o zaman r x,y 0'a yakındır.
r x,y'yi hesaplamak için Tablo 1'i de kullanabilirsiniz.

Tablo 1

N gözlemx bensen benx ben ∙y ben
1 x 1y 1x 1 y 1
2 x 2y 2x 2 y 2
...
Nxne-nx n y n
Sütun Toplamı∑x∑y∑xy
Ortalama değer
Ortaya çıkan regresyon denkleminin kalitesini değerlendirmek için teorik belirleme katsayısını hesaplayın - R 2 yx:

,
burada d2, regresyon denklemiyle açıklanan y'nin varyansıdır;
e 2 - y'nin artık (regresyon denklemiyle açıklanmayan) varyansı;
s 2 y - y'nin toplam (toplam) varyansı.
Belirleme katsayısı, toplam değişkenlik (dağılım) y içindeki regresyonla (ve dolayısıyla x faktörüyle) açıklanan sonuçta ortaya çıkan y özelliğinin varyasyonunun (dağılımının) oranını karakterize eder. R 2 yx belirleme katsayısı 0'dan 1'e kadar değerler alır. Buna göre 1-R 2 yx değeri, modelde dikkate alınmayan diğer faktörlerin etkisinin ve spesifikasyon hatalarının neden olduğu varyans y oranını karakterize eder.
Eşleştirilmiş doğrusal regresyonla R 2 yx =r 2 yx.

Çeşitli bilim alanlarında ve pratik faaliyetlerde en geniş uygulamayı bulan. Bu fizik, kimya, biyoloji, ekonomi, sosyoloji, psikoloji vb. olabilir. Kaderin iradesiyle sık sık ekonomiyle uğraşmak zorunda kalıyorum ve bu nedenle bugün sizin için muhteşem bir ülkeye bir gezi ayarlayacağım. Ekonometri=) ...Nasıl istemezsin?! Orası çok iyi; sadece karar vermeniz gerekiyor! ...Ama muhtemelen kesinlikle istediğin şey sorunların nasıl çözüleceğini öğrenmektir en küçük kareler yöntemi. Ve özellikle dikkatli okuyucular, bunları yalnızca doğru bir şekilde değil, aynı zamanda ÇOK HIZLI bir şekilde çözmeyi öğrenecekler ;-) Ama önce sorunun genel ifadesi+ eşlik eden örnek:

Belirli bir konu alanında niceliksel ifadeye sahip göstergelerin incelendiğini varsayalım. Aynı zamanda göstergenin göstergeye bağlı olduğuna inanmak için her türlü neden vardır. Bu varsayım bilimsel bir hipotez olabilir veya temel sağduyuya dayanabilir. Ancak bilimi bir kenara bırakıp daha iştah açıcı alanları yani marketleri keşfedelim. Şununla belirtelim:

– bir bakkalın perakende alanı, m2,
– bir bakkalın yıllık cirosu, milyon ruble.

Mağaza alanı ne kadar büyük olursa, çoğu durumda cironun da o kadar büyük olacağı kesinlikle açıktır.

Tef ile gözlemler/deneyler/hesaplamalar/danslar yaptıktan sonra elimizde sayısal verilerin bulunduğunu varsayalım:

Bakkallarda her şeyin açık olduğunu düşünüyorum: - bu 1. mağazanın alanı, - yıllık cirosu, - 2. mağazanın alanı, - yıllık cirosu vb. Bu arada, sınıflandırılmış materyallere erişime sahip olmak hiç de gerekli değil - ticaret cirosunun oldukça doğru bir değerlendirmesi şu şekilde elde edilebilir: matematiksel istatistik. Ancak dikkatimizi dağıtmayalım, ticari casusluk kursu zaten ücretli =)

Tablo verileri aynı zamanda noktalar biçiminde de yazılabilir ve bilinen biçimde gösterilebilir. Kartezyen sistem .

Önemli bir soruya cevap verelim: Nitel bir çalışma için kaç puan gerekir?

Daha fazla, daha iyi. Kabul edilebilir minimum set 5-6 puandan oluşur. Ayrıca veri miktarı az olduğunda “anormal” sonuçlar örnekleme dahil edilememektedir. Yani, örneğin küçük bir elit mağaza, "meslektaşlarından" daha büyük siparişler kazanabilir, böylece bulmanız gereken genel modeli bozabilir!

Çok basit bir şekilde ifade etmek gerekirse, bir fonksiyon seçmemiz gerekiyor, takvim noktalara mümkün olduğu kadar yakından geçen . Bu fonksiyon denir yaklaşık (yaklaşım - yaklaşım) veya teorik fonksiyon . Genel olarak konuşursak, burada hemen bariz bir "yarışmacı" belirir - grafiği TÜM noktalardan geçen yüksek dereceli bir polinom. Ancak bu seçenek karmaşıktır ve çoğunlukla yanlıştır. (grafik her zaman “döngüye gireceğinden” ve ana eğilimi zayıf şekilde yansıtacağından).

Bu nedenle aranan fonksiyonun oldukça basit olması ve aynı zamanda bağımlılığı yeterince yansıtması gerekir. Tahmin edebileceğiniz gibi, bu tür işlevleri bulma yöntemlerinden birine denir. en küçük kareler yöntemi. Öncelikle genel hatlarıyla özüne bakalım. Bazı fonksiyonların deneysel verilere yakın olmasına izin verin:


Bu yaklaşımın doğruluğu nasıl değerlendirilir? Deneysel ve fonksiyonel değerler arasındaki farkları (sapmaları) da hesaplayalım (çizi inceliyoruz). Akla gelen ilk düşünce toplamın ne kadar büyük olduğunu tahmin etmektir, ancak sorun şu ki farklar negatif olabilir (Örneğin, ) ve bu toplamanın sonucunda ortaya çıkan sapmalar birbirini iptal edecektir. Bu nedenle, yaklaşımın doğruluğunun bir tahmini olarak toplamın alınması gerekir. modüller sapmalar:

veya çöktü: (kimsenin bilmemesi durumunda: - bu toplam simgesidir ve - 1'den 1'e kadar değerleri alan yardımcı bir "sayaç" değişkenidir).

Deneysel noktaları farklı fonksiyonlara yaklaştırarak farklı değerler elde edeceğiz ve açıkçası bu toplamın daha küçük olduğu yerde o fonksiyon daha doğru olacaktır.

Böyle bir yöntem var ve buna denir en az modül yöntemi. Ancak pratikte çok daha yaygın hale geldi. en küçük kareler yöntemi olası negatif değerlerin modül tarafından değil, sapmaların karesi alınarak ortadan kaldırıldığı:

Bundan sonra çabalar, sapmaların karelerinin toplamı olacak şekilde bir fonksiyonun seçilmesini amaçlamaktadır. mümkün olduğu kadar küçüktü. Aslında yöntemin ismi de buradan geliyor.

Şimdi başka bir önemli noktaya dönüyoruz: Yukarıda belirtildiği gibi, seçilen işlev oldukça basit olmalıdır - ancak bu tür birçok işlev de vardır: doğrusal , hiperbolik, üstel, logaritmik, ikinci dereceden vesaire. Ve tabii ki burada hemen "faaliyet alanını daraltmak" istiyorum. Araştırma için hangi fonksiyon sınıfını seçmeliyim? İlkel ama etkili bir teknik:

– Noktaları tasvir etmek en kolay yoldur çizim üzerinde ve konumlarını analiz edin. Düz bir çizgide koşma eğilimindeyseler, bir çizginin denklemi optimal değerlerle ve . Başka bir deyişle görev, karesel sapmaların toplamı en küçük olacak şekilde BÖYLE katsayıları bulmaktır.

Noktalar örneğin birlikte bulunuyorsa abartı ise doğrusal fonksiyonun zayıf bir yaklaşım vereceği açıktır. Bu durumda hiperbol denklemi için en "uygun" katsayıları arıyoruz – minimum kareler toplamını verenler .

Şimdi her iki durumda da bahsettiğimize dikkat edin. iki değişkenli fonksiyonlar, kimin argümanları aranan bağımlılık parametreleri:

Ve aslında standart bir problemi çözmemiz gerekiyor - bul iki değişkenli minimum fonksiyon.

Örneğimizi hatırlayalım: "depolama" noktalarının düz bir çizgide yer aldığını ve bu noktaların varlığına inanmak için her türlü nedenin bulunduğunu varsayalım. doğrusal bağımlılık perakende alanından elde edilen ciro. Sapmaların karesi toplamı olacak şekilde BÖYLE katsayıları “a” ve “be” bulalım. en küçüğüydü. Her şey her zamanki gibi - ilk önce 1. dereceden kısmi türevler. Buna göre doğrusallık kuralı Toplam simgesinin hemen altında ayırt edebilirsiniz:

Bu bilgiyi bir makale veya dönem ödevi için kullanmak istiyorsanız, kaynak listesindeki bağlantıya çok minnettar olacağım; bu tür ayrıntılı hesaplamaları birkaç yerde bulacaksınız:

Standart bir sistem oluşturalım:

Her denklemi "iki" azaltıyoruz ve ayrıca toplamları "parçalıyoruz":

Not : “a” ve “be”nin neden toplam simgesinin ötesine çıkarılabileceğini bağımsız olarak analiz edin. Bu arada, resmi olarak bu toplamla yapılabilir

Sistemi “uygulamalı” biçimde yeniden yazalım:

bundan sonra sorunumuzu çözecek algoritma ortaya çıkmaya başlıyor:

Noktaların koordinatlarını biliyor muyuz? Biliyoruz. Tutarlar bulabilir miyiz? Kolayca. En basitini yapalım iki bilinmeyenli iki doğrusal denklem sistemi(“a” ve “olmak”). Sistemi çözüyoruz, örneğin, Cramer'in yöntemi bunun sonucunda durağan bir nokta elde ederiz. Kontrol ediliyor bir ekstremum için yeterli koşul, bu noktada işlevin olduğunu doğrulayabiliriz tam olarak ulaşıyor minimum. Kontrol ek hesaplamalar içeriyor ve bu nedenle bunu perde arkasında bırakacağız (Gerekirse eksik çerçeve görüntülenebilir). Nihai sonucu çıkarıyoruz:

İşlev mümkün olan en iyi şekilde (en azından diğer herhangi bir doğrusal fonksiyonla karşılaştırıldığında) deneysel noktaları yakınlaştırır . Kabaca söylemek gerekirse grafiği bu noktalara mümkün olduğu kadar yakından geçer. Gelenekte ekonometri sonuçta ortaya çıkan yaklaşım fonksiyonuna da denir eşleştirilmiş doğrusal regresyon denklemi .

Söz konusu sorun büyük pratik öneme sahiptir. Örnek durumumuzda, Denk. hangi ticaret cirosunu tahmin etmenizi sağlar ("İgrek") mağaza satış alanının şu veya bu değerine sahip olacak (“x”in bir veya başka anlamı). Evet, ortaya çıkan tahmin yalnızca bir tahmin olacaktır, ancak çoğu durumda oldukça doğru olduğu ortaya çıkacaktır.

Hiçbir zorluk olmadığı için "gerçek" sayılarla sadece bir problemi analiz edeceğim - tüm hesaplamalar 7-8. sınıf okul müfredatı düzeyindedir. Vakaların yüzde 95'inde sizden yalnızca doğrusal bir fonksiyon bulmanız istenecektir, ancak makalenin en sonunda optimal hiperbol, üstel ve diğer bazı fonksiyonların denklemlerini bulmanın artık zor olmadığını göstereceğim.

Aslında geriye kalan tek şey vaat edilen güzellikleri dağıtmaktır - böylece bu tür örnekleri yalnızca doğru değil, aynı zamanda hızlı bir şekilde çözmeyi öğrenebilirsiniz. Standardı dikkatlice inceliyoruz:

Görev

İki gösterge arasındaki ilişkinin incelenmesi sonucunda aşağıdaki sayı çiftleri elde edildi:

En küçük kareler yöntemini kullanarak ampirik değere en iyi yaklaşan doğrusal fonksiyonu bulun. (deneyimli) veri. Kartezyen dikdörtgen koordinat sisteminde deneysel noktaların ve yaklaşık fonksiyonun grafiğinin oluşturulacağı bir çizim yapın . Ampirik ve teorik değerler arasındaki sapmaların karelerinin toplamını bulun. Özelliğin daha iyi olup olmayacağını öğrenin (en küçük kareler yöntemi açısından) deneysel noktaları yaklaştırın.

Lütfen “x” anlamlarının doğal olduğunu ve bunun biraz sonra bahsedeceğim karakteristik anlamlı bir anlamı olduğunu unutmayın; ama elbette kesirli de olabilirler. Ayrıca belirli bir görevin içeriğine bağlı olarak hem “X” hem de “oyun” değerleri tamamen veya kısmen negatif olabilir. Bize "meçhul" bir görev verildi ve başlıyoruz çözüm:

Sistemin çözümü olarak optimal fonksiyonun katsayılarını buluyoruz:

Daha kompakt bir kayıt amacıyla, toplamanın 1'den .'ye kadar gerçekleştirildiği zaten açık olduğundan "sayaç" değişkeni çıkarılabilir.

Gerekli miktarları tablo halinde hesaplamak daha uygundur:


Hesaplamalar bir mikro hesap makinesinde yapılabilir, ancak Excel'i kullanmak çok daha iyidir - hem daha hızlı hem de hatasız; kısa bir video izleyin:

Böylece aşağıdakileri elde ederiz sistem:

Burada ikinci denklemi 3 ile çarpabilir ve 2.yi 1. denklemden terim bazında çıkar. Ancak bu şanstır; pratikte sistemler genellikle bir hediye değildir ve bu gibi durumlarda tasarruf sağlar Cramer'in yöntemi:
Bu, sistemin benzersiz bir çözümü olduğu anlamına gelir.

Hadi kontrol edelim. İstemediğinizi anlıyorum, ama neden kesinlikle gözden kaçırılmayacak hataları atlayasınız ki? Bulunan çözümü sistemdeki her denklemin sol tarafına koyalım:

Karşılık gelen denklemlerin sağ tarafları elde edilir, bu da sistemin doğru çözüldüğü anlamına gelir.

Böylece istenen yaklaşım fonksiyonu: – itibaren tüm doğrusal fonksiyonlar Deneysel verilere en iyi yaklaşan kişi odur.

Farklı doğrudan mağazanın cirosunun kendi alanına bağımlılığı, bulunan bağımlılık tersi (ilke “ne kadar çoksa o kadar az”) ve bu gerçek olumsuzluklarla hemen ortaya çıkıyor eğim. İşlev belirli bir göstergenin 1 birim artmasıyla bağımlı göstergenin değerinin azaldığını söyler ortalama olarak 0,65 birim arttı. Dedikleri gibi karabuğdayın fiyatı ne kadar yüksek olursa o kadar az satılır.

Yaklaşık fonksiyonun grafiğini çizmek için iki değerini bulalım:

ve çizimi yürütün:


Oluşturulan düz çizgiye denir eğilim çizgisi (yani doğrusal bir trend çizgisi, yani genel durumda bir trendin mutlaka düz bir çizgi olması gerekmez). Herkes “trendde olmak” tabirine aşinadır ve bu terimin ek yorumlara ihtiyacı olmadığını düşünüyorum.

Sapmaların karelerinin toplamını hesaplayalım Ampirik ve teorik değerler arasında. Geometrik olarak bu, "ahududu" bölümlerinin uzunluklarının karelerinin toplamıdır. (ikisi o kadar küçük ki görülemiyor bile).

Hesaplamaları bir tabloda özetleyelim:


Yine manuel olarak da yapılabilirler, her ihtimale karşı 1. nokta için bir örnek vereceğim:

ancak bunu zaten bilinen şekilde yapmak çok daha etkilidir:

Bir kez daha tekrarlıyoruz: Elde edilen sonucun anlamı nedir?İtibaren tüm doğrusal fonksiyonlar y fonksiyonu gösterge en küçüğüdür, yani ailesindeki en iyi yaklaşımdır. Ve bu arada, problemin son sorusu tesadüfi değil: ya önerilen üstel fonksiyon Deney noktalarını yakınlaştırmak daha iyi olur mu?

Karşılık gelen kare sapmaların toplamını bulalım - ayırt etmek için bunları "epsilon" harfiyle göstereceğim. Teknik tamamen aynı:


Ve yine, her ihtimale karşı, 1. nokta için hesaplamalar:

Excel'de standart işlevi kullanıyoruz EXP (söz dizimi Excel Yardımında bulunabilir).

Çözüm: , bu, üstel fonksiyonun deneysel noktalara düz bir çizgiden daha kötü bir şekilde yaklaştığı anlamına gelir .

Ancak burada şunu da belirtmek gerekir ki “daha ​​kötüsü” henüz anlamına gelmiyor ki bu kötü. Şimdi bu üstel fonksiyonun bir grafiğini oluşturdum - ve aynı zamanda noktaların yakınından da geçiyor - öyle ki analitik araştırma olmadan hangi fonksiyonun daha doğru olduğunu söylemek zordur.

Bu, çözümü sonuçlandırıyor ve argümanın doğal değerleri sorusuna dönüyorum. Genellikle ekonomik veya sosyolojik olan çeşitli çalışmalarda ayları, yılları veya diğer eşit zaman aralıklarını numaralandırmak için doğal “X”ler kullanılır. Örneğin aşağıdaki problemi düşünün.

Ekonometride parametrelerinin net bir ekonomik yorumu şeklinde yaygın olarak kullanılır.

Doğrusal regresyon, formun bir denklemini bulmaya gelir

veya

Formun denklemi belirtilen parametre değerlerine göre izin verir X Ortaya çıkan özelliğin teorik değerlerine sahip olmak, faktörün gerçek değerlerini yerine koymak X.

Doğrusal regresyonun yapısı, parametrelerinin tahmin edilmesine bağlıdır - A Ve V. Doğrusal regresyon parametre tahminleri farklı yöntemler kullanılarak bulunabilir.

Doğrusal regresyon parametrelerini tahmin etmeye yönelik klasik yaklaşım, en küçük kareler yöntemi(ÇUŞ).

En küçük kareler yöntemi bu tür parametre tahminlerini elde etmemizi sağlar A Ve V, sonuçta ortaya çıkan özelliğin gerçek değerlerinin karesel sapmalarının toplamı (y) hesaplanandan (teorik) minimum:

Bir fonksiyonun minimumunu bulmak için her parametrenin kısmi türevlerini hesaplamanız gerekir. A Ve B ve bunları sıfıra eşitleyin.

Haydi belirtelim S aracılığıyla, o zaman:

Formülü dönüştürerek parametreleri tahmin etmek için aşağıdaki normal denklem sistemini elde ederiz. A Ve V:

Normal denklem sistemini (3.5) değişkenlerin sıralı eliminasyonu yöntemiyle veya belirleyiciler yöntemiyle çözerek, parametrelerin gerekli tahminlerini buluruz. A Ve V.

Parametre V regresyon katsayısı denir. Değeri, faktördeki bir birimlik değişiklikle sonuçtaki ortalama değişimi gösterir.

Regresyon denklemi her zaman bağlantının yakınlığının bir göstergesi ile desteklenir. Doğrusal regresyon kullanıldığında böyle bir gösterge doğrusal korelasyon katsayısıdır. Doğrusal korelasyon katsayısı formülünün farklı modifikasyonları vardır. Bunlardan bazıları aşağıda verilmiştir:

Bilindiği üzere doğrusal korelasyon katsayısı şu sınırlar içerisindedir: -1 1.

Doğrusal bir fonksiyonun seçim kalitesini değerlendirmek için kare hesaplanır

Doğrusal korelasyon katsayısı denir belirleme katsayısı. Belirleme katsayısı, ortaya çıkan özelliğin varyans oranını karakterize eder. sen, ortaya çıkan özelliğin toplam varyansındaki regresyonla açıklanır:

Buna göre 1 değeri varyans payını karakterize etmektedir. sen, modelde dikkate alınmayan diğer faktörlerin etkisinden kaynaklanmaktadır.

Kendini kontrol etmeye yönelik sorular

1. En küçük kareler yönteminin özü?

2. İkili regresyon kaç değişken sağlar?

3. Değişiklikler arasındaki bağlantının yakınlığını hangi katsayı belirler?

4. Belirleme katsayısı hangi sınırlar dahilinde belirlenir?

5. Korelasyon-regresyon analizinde b parametresinin tahmini?

1.Christopher Dougherty. Ekonometriye giriş. - M.: INFRA - M, 2001 - 402 s.

2. S.A. Borodich. Ekonometri. Minsk LLC “Yeni Bilgi” 2001.


3. R.U. Rakhmetova Ekonometride kısa kurs. Çalışma kılavuzu. Almatı. 2004. -78s.

4.I.I. Eliseeva. - M.: “Finans ve İstatistik”, 2002

5. Aylık bilgi ve analitik dergi.

Doğrusal olmayan ekonomik modeller. Doğrusal olmayan regresyon modelleri. Değişkenlerin dönüşümü.

Doğrusal olmayan ekonomik modeller..

Değişkenlerin dönüşümü.

Esneklik katsayısı.

Ekonomik olaylar arasında doğrusal olmayan ilişkiler varsa, bunlar karşılık gelen doğrusal olmayan işlevler kullanılarak ifade edilir: örneğin eşkenar hiperbol , ikinci dereceden paraboller vb.

Doğrusal olmayan regresyonların iki sınıfı vardır:

1. Analize dahil edilen açıklayıcı değişkenlere göre doğrusal olmayan, ancak tahmin edilen parametrelere göre doğrusal olan regresyonlar, örneğin:

Çeşitli derecelerde polinomlar - , ;

Eşkenar hiperbol - ;

Yarı logaritmik fonksiyon - .

2. Tahmin edilen parametrelerde doğrusal olmayan regresyonlar, örneğin:

Güç - ;

Gösterici - ;

Üstel - .

Ortaya çıkan özelliğin bireysel değerlerinin kare sapmalarının toplam toplamı en ortalama değerden çıkması birçok nedenin etkisiyle ortaya çıkmaktadır. Tüm nedenler kümesini şartlı olarak iki gruba ayıralım: incelenen faktör x Ve diğer faktörler.

Faktör sonucu etkilemiyorsa grafikteki regresyon çizgisi eksene paraleldir Ah Ve

Bu durumda, ortaya çıkan özelliğin tüm varyansı, diğer faktörlerin etkisinden kaynaklanmaktadır ve sapmaların toplam karesi toplamı, artık ile çakışacaktır. Diğer faktörler sonucu etkilemiyorsa, o zaman berabere kaldıkİle X işlevsel olarak ve kalan kareler toplamı sıfırdır. Bu durumda regresyonun açıkladığı sapmaların kareleri toplamı, toplam kareler toplamına eşittir.

Korelasyon alanının tüm noktaları regresyon çizgisi üzerinde olmadığından bunların dağılması her zaman faktörün etkisinin bir sonucu olarak ortaya çıkar. X yani regresyon enİle X, ve diğer nedenlerden kaynaklanmaktadır (açıklanamayan varyasyon). Bir regresyon çizgisinin tahmin için uygunluğu, özelliğin toplam varyasyonunun hangi kısmına bağlıdır? en açıklanan varyasyonu hesaba katar

Açıkçası, eğer regresyondan kaynaklanan sapmaların kareleri toplamı kalan kareler toplamından büyükse, o zaman regresyon denklemi istatistiksel olarak anlamlıdır ve faktör X sonuç üzerinde önemli bir etkisi vardır sen.

, yani bir özelliğin bağımsız varyasyonunun serbestlik sayısıyla. Serbestlik derecesinin sayısı, n popülasyon biriminin sayısı ve bundan belirlenen sabitlerin sayısıyla ilgilidir. İncelenmekte olan problemle ilgili olarak, serbestlik derecesi sayısı, ondan ne kadar bağımsız sapma olduğunu göstermelidir. N

Regresyon denkleminin bir bütün olarak öneminin değerlendirilmesi şu şekilde verilmiştir: F-Fisher kriteri. Bu durumda regresyon katsayısının sıfıra eşit olduğuna dair sıfır hipotezi ileri sürülmektedir; b = 0 ve dolayısıyla faktör X sonucu etkilemez sen.

F testinin anında hesaplanmasından önce varyans analizi yapılır. Buradaki merkezi yer, bir değişkenin toplam karesel sapmalarının toplamının ayrıştırılmasıyla işgal edilir. en ortalama değerden en“açıklanmış” ve “açıklanmamış” olmak üzere iki bölüme ayrılmıştır:

- sapmaların karelerinin toplamı;

- regresyonla açıklanan sapmaların karelerinin toplamı;

- sapmaların karelerinin kalan toplamı.

Herhangi bir kare sapma toplamı serbestlik derecesi sayısıyla ilgilidir , yani bir özelliğin bağımsız varyasyonunun serbestlik sayısıyla. Serbestlik derecesi sayısı nüfus birimlerinin sayısıyla ilgilidir N ve ondan belirlenen sabit sayısıyla. İncelenmekte olan problemle ilgili olarak, serbestlik derecesi sayısı, ondan ne kadar bağımsız sapma olduğunu göstermelidir. N Belirli bir kareler toplamını oluşturmak için gerekli olan olasılık.

Serbestlik derecesi başına dağılımD.

F oranları (F testi):

Sıfır hipotezi doğruysa ise faktör ve artık varyanslar birbirinden farklı değildir. H 0 için, faktör dağılımının artık dağılımını birkaç kez aşması için bir çürütme gereklidir. İngiliz istatistikçi Snedekor kritik değer tabloları geliştirdi F-sıfır hipotezinin farklı önem seviyelerindeki ve farklı serbestlik derecelerindeki ilişkiler. Tablo değeri F-kriter, sıfır hipotezinin varlığının belirli bir olasılık düzeyi için rastgele sapma durumunda meydana gelebilecek varyans oranının maksimum değeridir. Hesaplanan değer F- o tablodan büyükse ilişkiler güvenilir kabul edilir.

Bu durumda işaretler arasında bir ilişkinin bulunmadığı yönündeki sıfır hipotezi reddedilir ve bu ilişkinin önemi hakkında bir sonuca varılır: F olgusu > F tablosu H 0 reddedilir.

Değer tablodan küçükse F gerçeği ‹, F tablosu ise sıfır hipotezinin olasılığı belirli bir seviyeden yüksektir ve bir ilişkinin varlığına ilişkin ciddi bir yanlış sonuca varma riski olmadan reddedilemez. Bu durumda regresyon denkleminin istatistiksel olarak anlamsız olduğu kabul edilir. Ama sapmaz.

Regresyon katsayısının standart hatası

Regresyon katsayısının önemini değerlendirmek için değeri standart hatasıyla karşılaştırılır, yani gerçek değer belirlenir. T-Öğrenci testi: daha sonra belirli bir önem düzeyinde ve serbestlik derecesi sayısında tablo değeriyle karşılaştırılır ( N- 2).

Standart parametre hatası A:

Doğrusal korelasyon katsayısının önemi hatanın büyüklüğüne göre kontrol edilir korelasyon katsayısı tr:

Toplam özellik varyansı X:

Çoklu Doğrusal Regresyon

Model oluşturma

Çoklu regresyon etkili bir özelliğin iki veya daha fazla faktörle regresyonunu temsil eder, yani formun bir modeli

Çalışmanın nesnesini etkileyen diğer faktörlerin etkisi ihmal edilebilirse, regresyon modellemede iyi sonuçlar verebilir. Bireysel ekonomik değişkenlerin davranışı kontrol edilemez, yani incelenen bir faktörün etkisini değerlendirmek için diğer tüm koşulların eşitliğini sağlamak mümkün değildir. Bu durumda, diğer faktörlerin etkisini modele dahil ederek belirlemeye çalışmalısınız, yani bir çoklu regresyon denklemi oluşturmalısınız: y = a+b 1 x 1 +b 2 +…+b p x p + .

Çoklu regresyonun temel amacı, çok sayıda faktörden oluşan bir model oluşturmak ve her birinin ayrı ayrı etkisini ve bunların modellenen gösterge üzerindeki birleşik etkisini belirlemektir. Modelin spesifikasyonu iki konu aralığını içerir: faktörlerin seçimi ve regresyon denklemi türünün seçimi

Fonksiyona 2. derece polinomla yaklaşalım. Bunu yapmak için normal denklem sisteminin katsayılarını hesaplıyoruz:

, ,

Aşağıdaki forma sahip normal bir en küçük kareler sistemi oluşturalım:

Sistemin çözümünü bulmak kolaydır:, , .

Böylece 2. dereceden bir polinom bulunur: .

Teorik bilgiler

Sayfaya dön<Введение в вычислительную математику. Примеры>

Örnek 2. Bir polinomun optimal derecesini bulma.

Sayfaya dön<Введение в вычислительную математику. Примеры>

Örnek 3. Ampirik bağımlılığın parametrelerini bulmak için normal bir denklem sisteminin türetilmesi.

Katsayıları ve fonksiyonları belirlemek için bir denklem sistemi türetelim belirli bir fonksiyonun noktalara göre ortalama karekök yaklaşımını gerçekleştiren. Bir fonksiyon oluşturalım ve bunun için gerekli ekstremum koşulu yazın:

Daha sonra normal sistem şu şekli alacaktır:

Bilinmeyen parametreler için kolayca çözülebilen doğrusal bir denklem sistemi elde ettik.

Teorik bilgiler

Sayfaya dön<Введение в вычислительную математику. Примеры>

Örnek.

Değişkenlerin değerlerine ilişkin deneysel veriler X Ve en tabloda verilmektedir.

Hizalamalarının bir sonucu olarak, fonksiyon elde edilir

Kullanma en küçük kareler yöntemi, bu verilere doğrusal bir bağımlılıkla yaklaşın y=ax+b(parametreleri bul A Ve B). İki çizgiden hangisinin (en küçük kareler yöntemi anlamında) deneysel verileri daha iyi hizaladığını bulun. Bir çizim yapın.

En küçük kareler yönteminin (LSM) özü.

Görev, iki değişkenli fonksiyonun geçerli olduğu doğrusal bağımlılık katsayılarını bulmaktır. A Ve Ben küçük değeri alır. Yani verilen A Ve B Deneysel verilerin bulunan düz çizgiden sapmalarının karelerinin toplamı en küçük olacaktır. En küçük kareler yönteminin asıl amacı budur.

Dolayısıyla örneği çözmek, iki değişkenli bir fonksiyonun ekstremumunu bulmaya indirgenir.

Katsayıları bulmak için formüllerin türetilmesi.

İki bilinmeyenli iki denklemden oluşan bir sistem derlenip çözülür. Bir fonksiyonun kısmi türevlerini bulma değişkenlere göre A Ve B, bu türevleri sıfıra eşitliyoruz.

Ortaya çıkan denklem sistemini herhangi bir yöntemi kullanarak çözeriz (örneğin ikame yöntemiyle veya Cramer yöntemi) ve en küçük kareler yöntemini (LSM) kullanarak katsayıları bulmak için formüller elde edin.

Verilen A Ve B işlev en küçük değeri alır. Bu gerçeğin ispatı aşağıda sayfanın sonundaki metinde verilmektedir.

En küçük kareler yönteminin tamamı budur. Parametreyi bulma formülü A toplamları , , ve parametrelerini içerir N— deneysel veri miktarı. Bu tutarların değerlerinin ayrı ayrı hesaplanmasını öneririz.

Katsayı B Hesaplamadan sonra bulunan A.

Orijinal örneği hatırlamanın zamanı geldi.

Çözüm.

Örneğimizde n=5. Gerekli katsayıların formüllerinde yer alan tutarların hesaplanmasında kolaylık sağlamak için tabloyu dolduruyoruz.

Tablonun dördüncü satırındaki değerler, her sayı için 2. satırdaki değerlerin 3. satırdaki değerlerle çarpılmasıyla elde edilir. Ben.

Tablonun beşinci satırındaki değerler, her sayı için 2. satırdaki değerlerin karesi alınarak elde edilir. Ben.

Tablonun son sütunundaki değerler satırlar arasındaki değerlerin toplamıdır.

Katsayıları bulmak için en küçük kareler yönteminin formüllerini kullanıyoruz A Ve B. Tablonun son sütunundaki karşılık gelen değerleri bunların yerine koyarız:

Buradan, y = 0,165x+2,184- İstenilen yaklaşık düz çizgi.

Hangi satırlardan hangisinin olduğunu bulmak için kalır y = 0,165x+2,184 veya orijinal verilere daha iyi yaklaşır, yani en küçük kareler yöntemini kullanarak bir tahmin yapar.

En küçük kareler yönteminde hata tahmini.

Bunu yapmak için orijinal verilerin bu çizgilerden sapmalarının karelerinin toplamını hesaplamanız gerekir. Ve , daha küçük bir değer, en küçük kareler yöntemi anlamında orijinal verilere daha iyi yaklaşan bir çizgiye karşılık gelir.

O zamandan beri düz y = 0,165x+2,184 orijinal verilere daha iyi yaklaşır.

En küçük kareler (LS) yönteminin grafiksel gösterimi.

Grafiklerde her şey açıkça görülüyor. Kırmızı çizgi bulunan düz çizgidir y = 0,165x+2,184, mavi çizgi , pembe noktalar orijinal verilerdir.

Buna neden ihtiyaç duyuldu, neden tüm bu yaklaşımlar?

Kişisel olarak bunu veri yumuşatma, enterpolasyon ve ekstrapolasyon problemlerini çözmek için kullanıyorum (orijinal örnekte onlardan gözlemlenen bir değerin değerini bulmaları istenmiş olabilir) sen en x=3 veya ne zaman x=6 en küçük kareler yöntemini kullanarak). Ancak bunun hakkında daha sonra sitenin başka bir bölümünde daha fazla konuşacağız.

Sayfanın başı

Kanıt.

Böylece bulunduğunda A Ve B Fonksiyon en küçük değeri alırsa, bu noktada fonksiyon için ikinci dereceden diferansiyelin ikinci dereceden formunun matrisinin olması gerekir. pozitif kesindi. Hadi gösterelim.

İkinci dereceden diferansiyel şu şekildedir:

yani

Bu nedenle, ikinci dereceden formun matrisi şu forma sahiptir:

ve elemanların değerleri bağlı değildir A Ve B.

Matrisin pozitif tanımlı olduğunu gösterelim. Bunu yapmak için açısal küçüklerin pozitif olması gerekir.

Birinci dereceden açısal minör . Noktalar çakışmadığı için eşitsizlik kesindir. Aşağıda bunu ima edeceğiz.

İkinci dereceden açısal minör

Hadi bunu kanıtlayalım matematiksel tümevarım yöntemiyle.

Çözüm: bulunan değerler A Ve B fonksiyonun en küçük değerine karşılık gelir dolayısıyla en küçük kareler yöntemi için gerekli parametrelerdir.

Bunu çözecek zamanınız yok mu?
Bir çözüm sipariş edin

Sayfanın başı

En küçük kareler yöntemini kullanarak tahmin geliştirme. Sorun çözümü örneği

Ekstrapolasyon geçmiş ve şimdiki eğilimlerin, kalıpların, tahmin nesnesinin gelecekteki gelişimi ile bağlantıların yayılmasına dayanan bir bilimsel araştırma yöntemidir. Ekstrapolasyon yöntemleri şunları içerir: hareketli ortalama yöntemi, üstel düzeltme yöntemi, en küçük kareler yöntemi.

Öz en küçük kareler yöntemi gözlenen ve hesaplanan değerler arasındaki sapmaların karelerinin toplamının en aza indirilmesinden oluşur. Hesaplanan değerler seçilen denklem - regresyon denklemi kullanılarak bulunur. Gerçek değerler ile hesaplananlar arasındaki mesafe ne kadar küçük olursa, regresyon denklemine dayalı tahmin o kadar doğru olur.

Değişimin bir zaman serisi tarafından yansıtıldığı, incelenen olgunun özünün teorik bir analizi, bir eğri seçiminin temelini oluşturur. Bazen serinin seviyelerindeki artışın niteliğine ilişkin hususlar dikkate alınır. Dolayısıyla, çıktının aritmetik bir ilerlemeyle artması bekleniyorsa, düzleştirme düz bir çizgide gerçekleştirilir. Büyümenin geometrik ilerleme olduğu ortaya çıkarsa, üstel bir fonksiyon kullanılarak düzeltme yapılmalıdır.

En küçük kareler yöntemi için çalışma formülü : Y t+1 = a*X + b t + 1 – tahmin dönemi; Уt+1 – tahmin edilen gösterge; a ve b katsayılardır; X zamanın sembolüdür.

A ve b katsayılarının hesaplanması aşağıdaki formüller kullanılarak gerçekleştirilir:

nerede, Uf – dinamik serinin gerçek değerleri; n – zaman serisi seviyelerinin sayısı;

En küçük kareler yöntemini kullanarak zaman serilerinin yumuşatılması, incelenen olgunun gelişim modelini yansıtmaya hizmet eder. Bir trendin analitik ifadesinde zaman bağımsız bir değişken olarak ele alınır ve serinin seviyeleri bu bağımsız değişkenin bir fonksiyonu olarak hareket eder.

Bir olgunun gelişimi, başlangıç ​​noktasından bu yana kaç yıl geçtiğine değil, gelişimini hangi faktörlerin, hangi yönde ve hangi yoğunlukta etkilediğine bağlıdır. Buradan bir olgunun zaman içinde gelişmesinin bu faktörlerin etkisinin sonucu olduğu açıktır.

Eğrinin türünü, zamana analitik bağımlılığın türünü doğru bir şekilde belirlemek, tahmine dayalı analizin en zor görevlerinden biridir. .

Parametreleri en küçük kareler yöntemiyle belirlenen trendi tanımlayan fonksiyon tipinin seçimi, çoğu durumda ampirik olarak, bir dizi fonksiyon oluşturularak ve bunların değerlerine göre birbirleriyle karşılaştırılarak gerçekleştirilir. formülle hesaplanan ortalama kare hata:

burada UV, dinamik serinin gerçek değerleridir; Ur – dinamik serinin hesaplanan (düzeltilmiş) değerleri; n – zaman serisi seviyelerinin sayısı; p – trendi (gelişme trendi) tanımlayan formüllerde tanımlanan parametre sayısı.

En küçük kareler yönteminin dezavantajları :

  • İncelenen ekonomik olguyu bir matematiksel denklem kullanarak tanımlamaya çalışırken, tahmin kısa bir süre için doğru olacaktır ve yeni bilgiler elde edildikçe regresyon denklemi yeniden hesaplanmalıdır;
  • standart bilgisayar programları kullanılarak çözülebilen bir regresyon denklemi seçmenin karmaşıklığı.

Tahmin geliştirmek için en küçük kareler yöntemini kullanmaya bir örnek

Görev . Bölgedeki işsizlik oranını karakterize eden veriler var, %

  • Aşağıdaki yöntemleri kullanarak Kasım, Aralık ve Ocak ayları için bölgedeki işsizlik oranı tahminini oluşturun: hareketli ortalama, üstel düzeltme, en küçük kareler.
  • Her yöntemi kullanarak ortaya çıkan tahminlerdeki hataları hesaplayın.
  • Sonuçları karşılaştırın ve sonuçlar çıkarın.

En küçük kareler çözümü

Bunu çözmek için gerekli hesaplamaları yapacağımız bir tablo hazırlayacağız:

ε = 28,63/10 = %2,86 tahmin doğruluğu yüksek.

Çözüm : Hesaplamalardan elde edilen sonuçların karşılaştırılması hareketli ortalama yöntemi , üstel yumuşatma yöntemi ve en küçük kareler yöntemine göre üstel düzeltme yöntemi kullanılarak hesaplandığında ortalama bağıl hatanın %20-50 aralığında olduğunu söyleyebiliriz. Bu, bu durumda tahminin doğruluğunun yalnızca tatmin edici olduğu anlamına gelir.

Birinci ve üçüncü durumlarda, ortalama bağıl hata %10'dan az olduğundan tahmin doğruluğu yüksektir. Ancak hareketli ortalama yöntemi daha güvenilir sonuçlar elde etmeyi mümkün kıldı (Kasım için tahmin -% 1,52, Aralık için tahmin -% 1,53, Ocak için tahmin -% 1,49), çünkü bu yöntemi kullanırken ortalama göreceli hata en küçük - 1 0,13%.

En küçük kareler yöntemi

Bu konuyla ilgili diğer makaleler:

Kullanılan kaynakların listesi

  1. Sosyal risklerin teşhisi ve zorlukların, tehditlerin ve sosyal sonuçların tahmin edilmesine ilişkin bilimsel ve metodolojik öneriler. Rusya Devlet Sosyal Üniversitesi. Moskova. 2010;
  2. Vladimirova L.P. Piyasa koşullarında tahmin ve planlama: Ders Kitabı. ödenek. M .: "Dashkov and Co" Yayınevi, 2001;
  3. Novikova N.V., Pozdeeva O.G. Ulusal ekonomiyi tahmin etmek: Eğitimsel ve metodolojik el kitabı. Ekaterinburg: Ural Yayınevi. durum ekon. Üniv., 2007;
  4. Slutskin L.N. İş tahmini üzerine MBA kursu. M.: Alpina Business Books, 2006.

Çokuluslu şirket programı

Ayrıntıları girin

Veriler ve yaklaşım y = a + bx

Ben- deneysel nokta sayısı;
x ben- bir noktada sabit bir parametrenin değeri Ben;
sen ben- ölçülen parametrenin bir noktada değeri Ben;
ω ben- ağırlığın bir noktada ölçülmesi Ben;
y ben, hesapla.- ölçülen ve regresyon hesaplanan değeri arasındaki fark sen bu noktada Ben;
S x ben (x ben)- hata tahmini x benölçerken sen bu noktada Ben.

Veriler ve yaklaşım y = k x

Ben x ben sen ben ω ben y ben, hesapla. ey ben S x ben (x ben)

Grafiğe tıklayın

MNC çevrimiçi programının kullanım kılavuzu.

Veri alanına, her ayrı satıra bir deneysel noktada "x" ve "y" değerlerini girin. Değerler boşluk karakteriyle (boşluk veya sekme) ayrılmalıdır.

Üçüncü değer “w” noktasının ağırlığı olabilir. Bir noktanın ağırlığı belirtilmemişse bire eşittir. Çoğu durumda deneysel noktaların ağırlıkları bilinmiyor veya hesaplanmıyor; tüm deneysel veriler eşdeğer kabul edilir. Bazen çalışılan değer aralığındaki ağırlıklar kesinlikle eşdeğer değildir ve hatta teorik olarak hesaplanabilir. Örneğin spektrofotometride ağırlıklar basit formüller kullanılarak hesaplanabilir, ancak bu çoğunlukla işçilik maliyetlerini azaltmak için ihmal edilir.

Veriler, Microsoft Office'ten Excel veya Open Office'ten Calc gibi bir ofis paketindeki bir elektronik tablodan pano aracılığıyla yapıştırılabilir. Bunu yapmak için e-tabloda kopyalanacak veri aralığını seçin, panoya kopyalayın ve verileri bu sayfadaki veri alanına yapıştırın.

En küçük kareler yöntemini kullanarak hesaplama yapmak için, iki katsayıyı (b) (düz çizginin eğim açısının tanjantı) ve 'a' (düz çizginin "y" üzerinde kestiği değer) belirlemek için en az iki noktaya ihtiyaç vardır. eksen.

Hesaplanan regresyon katsayılarının hatasını tahmin etmek için deneysel nokta sayısını ikiden fazlaya ayarlamanız gerekir.

En küçük kareler yöntemi (LSM).

Deney noktalarının sayısı ne kadar fazla olursa, katsayıların istatistiksel değerlendirmesi o kadar doğru olur (Öğrenci katsayısının azalması nedeniyle) ve tahmin, genel örneklemin tahminine o kadar yakın olur.

Her deneysel noktada değer elde etmek genellikle önemli işçilik maliyetleriyle ilişkilidir, bu nedenle yönetilebilir bir tahmin veren ve aşırı işçilik maliyetlerine yol açmayan uzlaşma sayıda deney sıklıkla gerçekleştirilir. Kural olarak, iki katsayılı doğrusal en küçük kareler bağımlılığı için deneysel noktaların sayısı 5-7 puanlık bir bölgede seçilir.

Doğrusal İlişkiler İçin Kısa En Küçük Kareler Teorisi

Diyelim ki [`y_i`,`x_i`] değer çiftleri biçiminde bir dizi deneysel verimiz var; burada 'i', 1'den 'n'ye kadar bir deneysel ölçümün sayısıdır; 'y_i' - ölçülen miktarın 'i' noktasındaki değeri; `x_i` - `i` noktasında ayarladığımız parametrenin değeri.

Örnek olarak Ohm yasasının işleyişini düşünün. Bir elektrik devresinin bölümleri arasındaki voltajı (potansiyel farkı) değiştirerek bu bölümden geçen akım miktarını ölçeriz. Fizik bize deneysel olarak bulunan bir bağımlılığı verir:

'I = U/R',
burada 'ben' mevcut güçtür; 'R' - direnç; 'U' - voltaj.

Bu durumda, 'y_i' ölçülen mevcut değerdir ve 'x_i' voltaj değeridir.

Başka bir örnek olarak, çözelti içindeki bir maddenin çözeltisi tarafından ışığın emilmesini düşünün. Kimya bize şu formülü verir:

'A = ε l C',
burada 'A' çözeltinin optik yoğunluğudur; 'ε' - çözünen maddenin geçirgenliği; 'l' - ışık çözeltili bir küvetten geçtiğinde yol uzunluğu; 'C' çözünmüş maddenin konsantrasyonudur.

Bu durumda 'y_i', 'A' optik yoğunluğunun ölçülen değeri, 'x_i' ise belirttiğimiz maddenin konsantrasyon değeridir.

'x_i' spesifikasyonundaki göreceli hatanın 'y_i' ölçümündeki göreceli hatadan önemli ölçüde daha az olduğu durumu ele alacağız. Ayrıca ölçülen tüm 'y_i' değerlerinin rastgele ve normal dağıldığını varsayacağız, yani. normal dağılım kanununa uyun.

'Y'nin 'x'e doğrusal bağımlılığı durumunda teorik bağımlılığı yazabiliriz:
'y = a + b x'.

Geometrik açıdan bakıldığında, 'b' katsayısı, çizginin eğim açısının 'x' eksenine olan tanjantını ve 'a' katsayısı - çizginin kesişme noktasındaki 'y'nin değerini belirtir. "y" ekseniyle aynı çizgi ("x = 0"da).

Regresyon çizgisi parametrelerinin bulunması.

Bir deneyde, 'y_i'nin ölçülen değerleri, gerçek hayatta her zaman doğal olan ölçüm hataları nedeniyle tam olarak teorik düz çizgide bulunamaz. Bu nedenle doğrusal bir denklem, bir denklem sistemiyle temsil edilmelidir:
'y_i ​​= a + b x_i + ε_i' (1),
burada 'ε_i', 'i'inci deneyde 'y'nin bilinmeyen ölçüm hatasıdır.

Bağımlılık (1) aynı zamanda denir gerileme yani iki büyüklüğün birbirine istatistiksel anlamlı bağımlılığı.

Bağımlılığı yeniden sağlama görevi, deneysel noktalardan ['y_i', 'x_i'] 'a' ve 'b' katsayılarını bulmaktır.

'a' ve 'b' katsayılarını bulmak için genellikle kullanılır en küçük kareler yöntemi(ÇUŞ). Maksimum olabilirlik ilkesinin özel bir durumudur.

(1)'i `ε_i = y_i - a - b x_i` biçiminde yeniden yazalım.

Daha sonra karesel hataların toplamı şöyle olacaktır:
`Φ = toplam_(i=1)^(n) ε_i^2 = toplam_(i=1)^(n) (y_i - a - b x_i)^2'. (2)

En küçük kareler (en küçük kareler) prensibi 'a' ve 'b' parametrelerine göre toplamı (2) en aza indirmektir..

Minimum değere, toplamın (2) 'a' ve 'b' katsayılarına göre kısmi türevleri sıfıra eşit olduğunda ulaşılır:
`frac(kısmi Φ)(kısmi a) = frac(kısmi toplam_(i=1)^(n) (y_i - a - b x_i)^2)(kısmi a) = 0`
`frac(kısmi Φ)(kısmi b) = frac(kısmi toplam_(i=1)^(n) (y_i - a - b x_i)^2)(kısmi b) = 0`

Türevleri genişleterek iki bilinmeyenli iki denklemden oluşan bir sistem elde ederiz:
`toplam_(i=1)^(n) (2a + 2bx_i — 2y_i) = toplam_(i=1)^(n) (a + bx_i — y_i) = 0`
`toplam_(i=1)^(n) (2bx_i^2 + 2ax_i — 2x_iy_i) = toplam_(i=1)^(n) (bx_i^2 + ax_i — x_iy_i) = 0`

Parantezleri açıp gerekli katsayılardan bağımsız toplamları diğer yarıya aktarırız, bir doğrusal denklem sistemi elde ederiz:
`toplam_(i=1)^(n) y_i = a n + b toplam_(i=1)^(n) bx_i`
`toplam_(i=1)^(n) x_iy_i = a toplam_(i=1)^(n) x_i + b toplam_(i=1)^(n) x_i^2`

Ortaya çıkan sistemi çözerek 'a' ve 'b' katsayıları için formüller buluyoruz:

`a = frac(toplam_(i=1)^(n) y_i toplam_(i=1)^(n) x_i^2 — toplam_(i=1)^(n) x_i toplam_(i=1)^(n ) x_iy_i) (n toplam_(i=1)^(n) x_i^2 — (toplam_(i=1)^(n) x_i)^2)` (3.1)

`b = frac(n toplam_(i=1)^(n) x_iy_i — toplam_(i=1)^(n) x_i toplam_(i=1)^(n) y_i) (n toplam_(i=1)^ (n) x_i^2 — (toplam_(i=1)^(n) x_i)^2)` (3.2)

Bu formüllerin, 'n > 1' (doğru en az 2 nokta kullanılarak oluşturulabilir) ve determinantı 'D = n toplam_(i=1)^(n) x_i^2 - (sum_(i= 1) olduğunda çözümleri vardır. )^(n) x_i)^2 != 0`, yani. deneydeki "x_i" noktaları farklı olduğunda (yani çizgi dikey olmadığında).

Regresyon çizgisi katsayılarının hatalarının tahmini

'a' ve 'b' katsayılarının hesaplanmasındaki hatanın daha doğru bir şekilde değerlendirilmesi için çok sayıda deneysel nokta arzu edilir. 'n = 2' olduğunda katsayıların hatasını tahmin etmek imkansızdır çünkü yaklaşan çizgi benzersiz bir şekilde iki noktadan geçecektir.

Rastgele değişken 'V'nin hatası şu şekilde belirlenir: hata birikimi kanunu
`S_V^2 = toplam_(i=1)^p (frac(kısmi f)(kısmi z_i))^2 S_(z_i)^2`,
burada 'p', 'S_V' hatasını etkileyen, 'S_(z_i)' hatasına sahip 'z_i' parametrelerinin sayısıdır;
'f', 'V'nin 'z_i'ye bağımlılığının bir fonksiyonudur.

'a' ve 'b' katsayılarının hatası için hata birikimi yasasını yazalım.
`S_a^2 = toplam_(i=1)^(n)(frac(kısmi a)(kısmi y_i))^2 S_(y_i)^2 + toplam_(i=1)^(n)(frac(kısmi a )(kısmi x_i))^2 S_(x_i)^2 = S_y^2 toplam_(i=1)^(n)(frac(kısmi a)(kısmi y_i))^2 `,
`S_b^2 = toplam_(i=1)^(n)(frac(kısmi b)(kısmi y_i))^2 S_(y_i)^2 + toplam_(i=1)^(n)(frac(kısmi b )(kısmi x_i))^2 S_(x_i)^2 = S_y^2 toplam_(i=1)^(n)(frac(kısmi b)(kısmi y_i))^2 `,
Çünkü 'S_(x_i)^2 = 0' (daha önce 'x' hatasının ihmal edilebilir olduğuna dair bir rezervasyon yapmıştık).

'S_y^2 = S_(y_i)^2' - 'y' ölçümünde hata (varyans, standart sapmanın karesi), hatanın 'y'nin tüm değerleri için aynı olduğu varsayılarak.

Elde edilen ifadelerde 'a' ve 'b'yi hesaplamak için kullanılan formülleri yerine koymak

`S_a^2 = S_y^2 frac(toplam_(i=1)^(n) (toplam_(i=1)^(n) x_i^2 — x_i toplam_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n toplam_(i=1)^(n) x_i^2 — (toplam_(i=1)^(n) x_i)^2) toplam_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(toplam_(i=1)^(n) (n x_i — toplam_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n toplam_(i=1)^(n) x_i^2 — (toplam_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) '(4.2)

Çoğu gerçek deneyde 'Sy' değeri ölçülmez. Bunu yapmak için, planın bir veya birkaç noktasında birkaç paralel ölçümün (deneyin) yapılması gerekir, bu da deneyin süresini (ve muhtemelen maliyetini) artırır. Bu nedenle genellikle 'y'nin regresyon doğrusundan sapmasının rastgele kabul edilebileceği varsayılır. Bu durumda "y" varyansının tahmini aşağıdaki formül kullanılarak hesaplanır.

'S_y^2 = S_(y, geri kalan)^2 = frac(toplam_(i=1)^n (y_i - a - b x_i)^2) (n-2)'.

'n-2' böleni, aynı deneysel veri örneğini kullanarak iki katsayının hesaplanması nedeniyle serbestlik derecesi sayımızın azalması nedeniyle ortaya çıkar.

Bu tahmin aynı zamanda 'S_(y, rest)^2' regresyon çizgisine göre artık varyans olarak da adlandırılır.

Katsayıların önemi Öğrenci t testi kullanılarak değerlendirilir

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Hesaplanan 't_a', 't_b' kriterleri tablodaki 't(P, n-2)' kriterlerinden küçükse, o zaman karşılık gelen katsayının belirli bir 'P' olasılığı ile sıfırdan önemli ölçüde farklı olmadığı kabul edilir.

Doğrusal bir ilişkinin tanımının kalitesini değerlendirmek için, Fisher kriterini kullanarak 'S_(y, rest)^2' ve 'S_(bar y)'yi ortalamaya göre karşılaştırabilirsiniz.

`S_(çubuk y) = frac(toplam_(i=1)^n (y_i — çubuk y)^2) (n-1) = frac(toplam_(i=1)^n (y_i — (toplam_(i= 1)^n y_i) /n)^2) (n-1)` - ortalamaya göre 'y' varyansının örnek tahmini.

Bağımlılığı tanımlamada regresyon denkleminin etkinliğini değerlendirmek için Fisher katsayısı hesaplanır.
'F = S_(çubuk y) / S_(y, geri kalan)^2',
bu tablosal Fisher katsayısı 'F(p, n-1, n-2)' ile karşılaştırılır.

Eğer 'F > F(P, n-1, n-2)' ise, regresyon denklemi kullanılarak 'y = f(x)' ilişkisinin tanımı ile ortalama kullanılarak yapılan açıklama arasındaki fark, olasılık ile istatistiksel olarak anlamlı kabul edilir 'P'. Onlar. Regresyon, bağımlılığı 'y'nin ortalama etrafındaki yayılmasından daha iyi tanımlar.

Grafiğe tıklayın
tabloya değer eklemek için

En küçük kareler yöntemi. En küçük kareler yöntemi, kabul edilen fonksiyonel bağımlılık olan bilinmeyen a, b, c parametrelerinin belirlenmesi anlamına gelir

En küçük kareler yöntemi bilinmeyen parametrelerin belirlenmesini ifade eder a, b, c,… kabul edilen fonksiyonel bağımlılık

y = f(x,a,b,c,…),

hatanın minimum ortalama karesini (varyansını) sağlayacak olan

, (24)

burada x i, y i deneyden elde edilen sayı çiftlerinin kümesidir.

Çok değişkenli bir fonksiyonun ekstremumu için koşul, kısmi türevlerinin sıfıra eşit olması koşulu olduğundan, parametreler a, b, c,… denklem sisteminden belirlenir:

; ; ; … (25)

Fonksiyon türünden sonra parametrelerin seçiminde en küçük kareler yönteminin kullanıldığı unutulmamalıdır. y = f(x) tanımlanmış

Teorik değerlendirmelerden ampirik formülün ne olması gerektiği konusunda hiçbir sonuç çıkarılamıyorsa, o zaman görsel temsillerle, özellikle de gözlemlenen verilerin grafiksel temsilleriyle yönlendirilmek gerekir.

Uygulamada çoğunlukla aşağıdaki işlev türleriyle sınırlıdırlar:

1) doğrusal ;

2) ikinci dereceden a.

Belirli bir fonksiyonun diğer basit fonksiyonlarla yaklaşık olarak temsil edilmesine izin verdiği için birçok uygulamaya sahiptir. LSM, gözlemlerin işlenmesinde son derece yararlı olabilir ve rastgele hatalar içeren diğerlerinin ölçüm sonuçlarına dayanarak bazı miktarları tahmin etmek için aktif olarak kullanılır. Bu makalede Excel'de en küçük kareler hesaplamalarının nasıl uygulanacağını öğreneceksiniz.

Belirli bir örnek kullanarak sorunun ifadesi

X ve Y olmak üzere iki gösterge olduğunu varsayalım. Üstelik Y, X'e bağlıdır. OLS bizi regresyon analizi açısından ilgilendirdiğinden (Excel'de yöntemleri yerleşik işlevler kullanılarak uygulanır), hemen bir değerlendirmeye geçmeliyiz spesifik sorun.

Öyleyse X, bir bakkalın metrekare cinsinden perakende alanı olsun ve Y, milyonlarca ruble cinsinden belirlenen yıllık ciro olsun.

Mağazanın şu veya bu perakende alanına sahip olması durumunda ne kadar ciroya (Y) sahip olacağına dair bir tahmin yapılması gerekir. Açıkçası, hipermarket tezgahtan daha fazla mal sattığı için Y = f (X) fonksiyonu artıyor.

Tahmin için kullanılan ilk verilerin doğruluğu hakkında birkaç kelime

Diyelim ki n mağazanın verilerini kullanarak oluşturulmuş bir tablomuz var.

Matematiksel istatistiklere göre en az 5-6 nesneye ait veriler incelenirse sonuçlar az çok doğru olacaktır. Ayrıca “anormal” sonuçlar kullanılamaz. Özellikle elit bir küçük butik, "masmarket" sınıfının büyük perakende satış mağazalarının cirosundan kat kat daha fazla ciroya sahip olabilir.

Yöntemin özü

Tablo verileri Kartezyen düzlemde M 1 (x 1, y 1), ... M n (x n, y n) noktaları olarak gösterilebilir. Şimdi problemin çözümü, M 1, M 2, .. M n noktalarına mümkün olduğu kadar yakın geçen bir grafiği olan, yaklaşık bir y = f (x) fonksiyonunun seçimine indirgenecektir.

Elbette yüksek dereceli bir polinom kullanabilirsiniz, ancak bu seçeneğin uygulanması sadece zor değil, aynı zamanda tespit edilmesi gereken ana eğilimi yansıtmayacağı için de yanlıştır. En makul çözüm, deneysel verilere en iyi yaklaşan y = ax + b düz çizgisini veya daha doğrusu a ve b katsayılarını aramaktır.

Doğruluk değerlendirmesi

Herhangi bir yaklaşımda doğruluğunun değerlendirilmesi özellikle önemlidir. x i noktası için fonksiyonel ve deneysel değerler arasındaki farkı (sapmayı) e i ile gösterelim, yani. e i = y i - f (x i).

Açıkçası, yaklaşımın doğruluğunu değerlendirmek için sapmaların toplamını kullanabilirsiniz, yani X'in Y'ye bağımlılığının yaklaşık bir temsili için düz bir çizgi seçerken, en küçük değere sahip olanı tercih etmeniz gerekir. dikkate alınan tüm noktalarda toplam e i. Ancak her şey o kadar basit değil, çünkü olumlu sapmaların yanı sıra olumsuz sapmalar da olacaktır.

Sorun sapma modülleri veya bunların kareleri kullanılarak çözülebilir. Son yöntem en yaygın kullanılanıdır. Regresyon analizi de dahil olmak üzere birçok alanda kullanılır (Excel'de iki yerleşik işlev kullanılarak uygulanır) ve etkinliği uzun süredir kanıtlanmıştır.

En küçük kareler yöntemi

Bildiğiniz gibi Excel, seçilen aralıkta bulunan tüm değerlerin değerlerini hesaplamanıza olanak tanıyan yerleşik bir Otomatik Toplam işlevine sahiptir. Dolayısıyla hiçbir şey bizi (e 1 2 + e 2 2 + e 3 2 + ... e n 2) ifadesinin değerini hesaplamaktan alıkoyamaz.

Matematiksel gösterimde bu şöyle görünür:

Karar başlangıçta düz bir çizgi kullanılarak yaklaşık olarak verildiğinden, elimizde:

Dolayısıyla, X ve Y niceliklerinin spesifik bağımlılığını en iyi tanımlayan düz çizgiyi bulma görevi, iki değişkenli bir fonksiyonun minimumunun hesaplanmasına indirgenir:

Bunu yapmak için, yeni a ve b değişkenlerine göre kısmi türevleri sıfıra eşitlemeniz ve 2 bilinmeyenli iki denklemden oluşan ilkel sistemi çözmeniz gerekir:

2'ye bölme ve toplamların manipülasyonu da dahil olmak üzere bazı basit dönüşümlerden sonra şunu elde ederiz:

Örneğin Cramer yöntemini kullanarak çözerek, belirli a * ve b * katsayılarına sahip sabit bir nokta elde ederiz. Bu minimumdur, yani bir mağazanın belirli bir alan için ne kadar ciroya sahip olacağını tahmin etmek için söz konusu örnek için bir regresyon modeli olan y = a * x + b * düz çizgisi uygundur. Elbette kesin sonucu bulmanıza izin vermeyecek ancak mağaza kredisiyle belirli bir alanı satın almanın işe yarayıp yaramayacağı konusunda fikir edinmenize yardımcı olacaktır.

Excel'de En Küçük Kareler Nasıl Uygulanır?

Excel'in en küçük kareleri kullanarak değerleri hesaplamak için bir işlevi vardır. Şu biçimdedir: “TREND” (bilinen Y değerleri; bilinen X değerleri; yeni X değerleri; sabit). Excel'de OLS hesaplama formülünü tablomuza uygulayalım.

Bunu yapmak için Excel'de en küçük kareler yöntemini kullanarak hesaplama sonucunun görüntülenmesi gereken hücreye “=” işaretini girin ve “TREND” işlevini seçin. Açılan pencerede aşağıdakileri vurgulayarak uygun alanları doldurun:

  • Y için bilinen değer aralığı (bu durumda ticaret cirosu verileri);
  • aralık x 1 , …x n , yani perakende satış alanının boyutu;
  • Cironun boyutunu bulmanız gereken x'in hem bilinen hem de bilinmeyen değerleri (çalışma sayfasındaki konumları hakkında bilgi için aşağıya bakın).

Ayrıca formül "Const" mantıksal değişkenini de içerir. İlgili alana 1 girmeniz, hesaplamaları b = 0 varsayımıyla yapmanız gerektiği anlamına gelecektir.

Birden fazla x değeri için tahmin bulmanız gerekiyorsa, formülü girdikten sonra "Enter" tuşuna basmamalısınız, ancak klavyede "Shift" + "Control" + "Enter" kombinasyonunu yazmanız gerekir.

Bazı özellikler

Regresyon analizine kuklalar bile erişebilir. Bilinmeyen değişkenler dizisinin değerini tahmin etmeye yönelik Excel formülü (TREND), en küçük kareler kavramını hiç duymamış kişiler tarafından bile kullanılabilir. Sadece işinin bazı özelliklerini bilmek yeterlidir. Özellikle:

  • Y değişkeninin bilinen değerlerinin aralığını bir satır veya sütunda düzenlerseniz, x'in bilinen değerlerine sahip her satır (sütun) program tarafından ayrı bir değişken olarak algılanacaktır.
  • TREND penceresinde bilinen x'li bir aralık belirtilmemişse, o zaman Excel'deki işlevi kullanırken, program bunu, sayısı verilen değerlere sahip aralığa karşılık gelen tam sayılardan oluşan bir dizi olarak ele alacaktır. değişken y.
  • Bir "tahmin edilen" değerler dizisinin çıktısını almak için, trendin hesaplanmasına yönelik ifadenin bir dizi formülü olarak girilmesi gerekir.
  • Yeni x değerleri belirtilmezse TREND işlevi bunları bilinenlere eşit olarak değerlendirir. Belirtilmezse dizi 1 argüman olarak alınır; 2; 3; 4;…, önceden belirlenmiş y parametrelerinin aralığıyla orantılıdır.
  • Yeni x değerlerini içeren aralık, verilen y değerlerini içeren aralıkla aynı veya daha fazla satır veya sütuna sahip olmalıdır. Başka bir deyişle bağımsız değişkenlerle orantılı olması gerekir.
  • Bilinen x değerlerine sahip bir dizi birden fazla değişken içerebilir. Ancak sadece bir taneden bahsediyorsak o zaman verilen x ve y değerlerine sahip aralıkların orantılı olması gerekir. Birden fazla değişken olması durumunda, verilen y değerlerine sahip aralığın bir sütuna veya bir satıra sığması gerekir.

TAHMİN işlevi

Çeşitli işlevler kullanılarak uygulanır. Bunlardan birine “TAHMİN” denir. “TREND”e benzer yani en küçük kareler yöntemini kullanarak yapılan hesaplamaların sonucunu verir. Ancak yalnızca Y'nin değeri bilinmeyen bir X için.

Artık Excel'de belirli bir göstergenin gelecekteki değerini doğrusal bir eğilime göre tahmin etmenize olanak tanıyan kuklalar için formülleri biliyorsunuz.



Makaleyi beğendin mi? Arkadaşlarınızla paylaşın!