Хи квадрат тестийг ашиглах. Пирсоны тохирох байдлын тест (хи-квадрат тест)

1. Харьцуулж болох үзүүлэлтүүдийг хэмжинэ нэрлэсэн масштаб(жишээлбэл, өвчтөний хүйс нь эрэгтэй эсвэл эмэгтэй) эсвэл дотор дараалал(жишээлбэл, артерийн гипертензийн зэрэг, 0-ээс 3 хүртэлх утгыг авна).

2. Энэ аргаХүчин зүйл ба үр дүн нь хоёртын хувьсагч, өөрөөр хэлбэл зөвхөн хоёр хувьсагч байх үед зөвхөн дөрвөн талбарын хүснэгтэд дүн шинжилгээ хийх боломжийг танд олгоно. боломжит утгууд(жишээлбэл, эрэгтэй, эмэгтэй хүйс, анамнезид тодорхой өвчин байгаа эсэх ...). Пирсон хи-квадрат тестийг хүчин зүйл ба (эсвэл) үр дүн нь гурав ба түүнээс дээш утгыг авсан тохиолдолд олон талт хүснэгтэд дүн шинжилгээ хийх тохиолдолд ашиглаж болно.

3. Харьцуулсан бүлгүүд нь бие даасан байх ёстой, өөрөөр хэлбэл “өмнө-дараа” ажиглалтыг харьцуулахдаа хи-квадрат тестийг ашиглаж болохгүй. МакНемарын тест(холбоотой хоёр популяцийг харьцуулах үед) эсвэл тооцоолсон Кочраны Q тест(гурав ба түүнээс дээш бүлгийг харьцуулах тохиолдолд).

4. Дөрвөн талбарт хүснэгтэд дүн шинжилгээ хийх үед хүлээгдэж буй утгууднүд бүр дор хаяж 10 байх ёстой. Хэрэв дор хаяж нэг нүдэнд хүлээгдэж буй үзэгдэл 5-аас 9 хүртэлх утгыг авч байвал хи-квадрат тестийг тооцоолох шаардлагатай. Йейтсийн нэмэлт өөрчлөлтөөр. Хэрэв дор хаяж нэг нүдэнд хүлээгдэж буй үзэгдэл 5-аас бага байвал шинжилгээг ашиглах ёстой Фишерийн нарийн тест.

5. Олон талбарт хүснэгтэд дүн шинжилгээ хийхдээ хүлээгдэж буй ажиглалтын тоо 20%-иас дээш нүдэнд 5-аас багагүй байна.

Хи-квадрат тестийг тооцоолохын тулд танд дараахь зүйлс хэрэгтэй болно.

1. Хүлээгдэж буй ажиглалтын тоог тооцоолмөр, баганын нийлбэрийг үржүүлж, дараа нь гарсан үр дүнг хуваах замаар (харилцаа байхгүй гэсэн тэг таамаглалын үнэн зөвийг харгалзан) болзошгүй хүснэгтийн нүд бүрийн хувьд нийт тооажиглалт. Ерөнхий хэлбэрХүлээгдэж буй утгуудын хүснэгтийг доор үзүүлэв.

Үр дүн байна (1) Үр дүн байхгүй (0) Нийт
Эрсдлийн хүчин зүйл байдаг (1) (A+B)*(A+C) / (A+B+C+D) (A+B)*(B+D)/ (A+B+C+D) A+B
Эрсдлийн хүчин зүйл байхгүй (0) (C+D)*(A+C)/ (A+B+C+D) (C+D)*(B+D)/ (A+B+C+D) C+D
Нийт A+C B+D A+B+C+D

2. χ 2 шалгуурын утгыг ол By дараах томъёо:

Хаана би- мөрийн дугаар (1-ээс r хүртэл), j- баганын дугаар (1-ээс c хүртэл), О ij- ij нүдэнд ажиглалтын бодит тоо, Э ij– ij нүдэнд хүлээгдэж буй ажиглалтын тоо.

Хүлээгдэж буй үзэгдлийн тоо дор хаяж нэг нүдэнд 10-аас бага байвал дөрвөн талбарын хүснэгтэд дүн шинжилгээ хийхдээ үүнийг тооцоолох хэрэгтэй. Йейтсийн засвар бүхий хи-квадрат тест. Энэхүү нэмэлт өөрчлөлт нь 1-р төрлийн алдаа гарах магадлалыг бууруулж, өөрөөр хэлбэл ялгаа байхгүй тохиолдолд алдааг илрүүлэх боломжийг олгодог. Йейтесийн залруулга нь 0.5-аас хасах явдал юм үнэмлэхүй үнэ цэнэнүд тус бүрийн бодит болон хүлээгдэж буй ажиглалтын тоо хоорондын зөрүү бөгөөд энэ нь хи-квадрат тестийн үнэ цэнийг бууруулахад хүргэдэг.

Yates засварын тусламжтайгаар χ 2 шалгуурыг тооцоолох томъёо нь дараах байдалтай байна.

3. Эрх чөлөөний зэрэглэлийн тоог тодорхойлохтомъёоны дагуу: f = (r – 1) × (c – 1). Үүний дагуу 2 мөр (r = 2) ба 2 багана (c = 2) бүхий дөрвөн талбарт хүснэгтийн хувьд эрх чөлөөний зэрэглэлийн тоо f 2x2 = (2 - 1)*(2 - 1) = 1 байна.

4. Бид χ 2 шалгуурын утгыг чухал утгатай харьцуулна f эрх чөлөөний зэрэглэлийн тоогоор (хүснэгтийн дагуу).

Энэ алгоритмдөрвөн талбар болон олон талбарт хүснэгтэд аль алинд нь хамаарна.

Пирсоны хи-квадрат тестийн утгыг хэрхэн тайлбарлах вэ?

Хэрэв χ 2 шалгуурын олж авсан утга нь эгзэгтэй утгаас их байвал судлагдсан эрсдэлийн хүчин зүйл болон үр дүнгийн хооронд зохих түвшний ач холбогдлын статистик хамаарал байгаа гэж бид дүгнэж байна.

Пирсоны хи-квадрат тестийг тооцоолох жишээ

Тодорхойлъё статистикийн ач холбогдолДээр дурдсан хүснэгтийн дагуу артерийн гипертензийн өвчлөлд тамхи татах хүчин зүйлийн нөлөөлөл:

1. Нүд бүрийн хүлээгдэж буй утгыг тооцоолно уу:

2. Пирсоны хи-квадрат тестийн утгыг ол:

χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

3. Чөлөөт зэргийн тоо f = (2-1)*(2-1) = 1. Хүснэгтээс ол. чухал үнэ цэнэПирсоны хи-квадрат тест нь ач холбогдлын түвшинд p=0.05, чөлөөт байдлын зэрэг нь 1 байх үед 3.841 байна.

4. Бид хи-квадрат тестийн олж авсан утгыг чухал үзүүлэлттэй харьцуулж үздэг: 4.396 > 3.841, иймээс артерийн гипертензийн өвчлөл нь тамхи татах эсэхээс хамаарах нь статистикийн хувьд чухал юм. Энэ харилцааны ач холбогдлын түвшин p-тэй тохирч байна<0.05.

Эрх чөлөөний зэрэглэлийн тоо, f p=0.05 үед χ 2 p=0.01 үед χ 2
3.841 6.635
5.991 9.21
7.815 11.345
9.488 13.277
11.07 15.086
12.592 16.812
14.067 18.475
15.507 20.09
16.919 21.666
18.307 23.209
19.675 24.725
21.026 26.217
22.362 27.688
23.685 29.141
24.996 30.578
26.296
27.587 33.409
28.869 34.805
30.144 36.191
31.41 37.566

Биологийн судалгааны практикт ихэвчлэн нэг эсвэл өөр таамаглалыг шалгах шаардлагатай байдаг, өөрөөр хэлбэл туршилт хийгчийн олж авсан бодит материал нь онолын таамаглалыг хэр зэрэг баталж, дүн шинжилгээ хийсэн өгөгдөл нь онолын хүлээгдэж буйтай хэр зэрэг давхцаж байгааг олж мэдэх шаардлагатай байдаг. нэг. Бодит өгөгдөл ба онолын хүлээлт хоёрын хоорондын ялгааг статистикийн хувьд үнэлэх, энэ ялгааг ямар тохиолдолд, ямар магадлалаар найдвартай гэж үзэж болохыг тогтоох, харин эсрэгээр, боломжийн хязгаарт хэзээ ч ач холбогдолгүй, ач холбогдолгүй гэж үзэх даалгавар гарч ирдэг. Сүүлчийн тохиолдолд онолын хувьд хүлээгдэж буй өгөгдөл эсвэл үзүүлэлтүүдийг тооцоолсон таамаглалыг хэвээр үлдээдэг. Таамаглалыг шалгах ийм вариаци-статистик арга нь арга юм хи-квадрат (χ 2). Энэ хэмжүүрийг ихэвчлэн "тохирох шалгуур" эсвэл "Пирсоны сайн чанарын тест" гэж нэрлэдэг. Түүний тусламжтайгаар эмпирик байдлаар олж авсан өгөгдлүүд нь онолын хувьд хүлээгдэж буй өгөгдөлтэй нийцэж байгаа эсэхийг янз бүрийн магадлалаар шүүж болно.

Албан ёсны үүднээс авч үзвэл хоёр вариацын цуврал, хоёр популяцийг харьцуулж үздэг: нэг нь эмпирик тархалт, нөгөө нь ижил параметртэй түүвэр ( n, М, Сгэх мэт) нь эмпириктэй ижил боловч түүний давтамжийн тархалтыг судалж буй санамсаргүй хэмжигдэхүүний зан төлөвийг дагаж мөрдөх ёстой сонгосон онолын хуульд (хэвийн, Пуассон, бином гэх мэт) хатуу нийцүүлэн бүтээдэг. .

Ерөнхийдөө дагаж мөрдөх шалгуурын томъёог дараах байдлаар бичиж болно.

Хаана a -ажиглалтын бодит давтамж,

А -тухайн ангийн онолын хувьд хүлээгдэж буй давтамж.

Тэг таамаглал нь харьцуулсан тархалтын хооронд мэдэгдэхүйц ялгаа байхгүй гэж үздэг. Эдгээр ялгааны ач холбогдлыг үнэлэхийн тулд та чухал хи-квадрат утгуудын тусгай хүснэгтэд хандах хэрэгтэй (Хүснэгт 9). П) болон тооцоолсон утгыг харьцуулах χ 2-р хүснэгтийн дагуу эмпирик тархалт нь онолынхоос найдвартай эсвэл найдваргүй зөрүүтэй эсэхийг шийднэ. Тиймээс эдгээр ялгаа байхгүй гэсэн таамаглал нь няцаагдах эсвэл хүчинтэй хэвээр үлдэх болно. Хэрэв тооцоолсон утга χ 2 нь хүснэгттэй тэнцүү буюу давсан χ ² ( α , df), эмпирик тархалт нь онолынхоос эрс ялгаатай болохыг шийднэ. Тиймээс эдгээр ялгаа байхгүй гэсэн таамаглал няцаагдах болно. Хэрэв χ ² < χ ² ( α , df), тэг таамаглал хүчинтэй хэвээр байна. Ач холбогдлын хүлээн зөвшөөрөгдөх түвшин гэж нийтээр хүлээн зөвшөөрдөг α = 0.05, учир нь энэ тохиолдолд тэг таамаглал зөв байх магадлал ердөө 5%, тиймээс үүнийг үгүйсгэх хангалттай шалтгаан (95%) байна.


Тодорхой асуудал бол эрх чөлөөний зэрэглэлийн тоог зөв тодорхойлох явдал юм ( df), шалгуур үзүүлэлтийн утгыг хүснэгтээс авсан болно. Нийт ангиудын тооноос эрх чөлөөний зэрэглэлийн тоог тодорхойлох кта хязгаарлалтын тоог (өөрөөр хэлбэл онолын давтамжийг тооцоолоход ашигласан параметрийн тоог) хасах хэрэгтэй.

Судалж буй шинж чанарын тархалтын төрлөөс хамааран эрх чөлөөний зэрэглэлийн тоог тооцоолох томъёо өөрчлөгдөнө. Учир нь хувилбархуваарилалт ( к= 2) тооцоонд зөвхөн нэг параметр (түүврийн хэмжээ) оролцдог тул эрх чөлөөний зэрэг нь df= к−1=2−1=1. Учир нь олон гишүүнтТархалтын томъёо нь ижил төстэй байна: df= к−1. Вариацын цувралын тархалттай тохирч байгаа эсэхийг шалгах Пуассонхоёр параметрийг аль хэдийн ашигласан - дээжийн хэмжээ ба дундаж утга (тоон хувьд тархалттай давхцах); эрх чөлөөний зэрэглэлийн тоо df= к−2. Эмпирик тархалтын тууштай байдлыг шалгахдаа сонголт хэвийнэсвэл биномХуулийн дагуу эрх чөлөөний зэрэглэлийн тоог бодит ангиудын тооноос цуваа байгуулах гурван нөхцөлийг хасч авна - түүврийн хэмжээ, дундаж ба дисперс, df= к−3. χ² шалгуур нь зөвхөн дээжийн хувьд ажилладаг гэдгийг нэн даруй тэмдэглэх нь зүйтэй хамгийн багадаа 25 хувилбарын эзэлхүүн, мөн бие даасан ангиудын давтамж байх ёстой 4-өөс багагүй байна.

Нэгдүгээрт, бид дүн шинжилгээний жишээн дээр хи-квадрат тестийн хэрэглээг дүрслэн харуулав альтернатив хэлбэлзэл. Улаан лоолийн удамшлыг судлах нэг туршилтанд 3629 улаан, 1176 шар жимс олджээ. Хоёр дахь эрлийз үеийн тэмдэгтүүдийг хуваах давтамжийн онолын харьцаа нь 3: 1 (75% -аас 25%) байх ёстой. Хэрэгжиж байгаа юу? Өөрөөр хэлбэл, энэ түүврийг давтамжийн харьцаа 3:1 эсвэл 0,75:0,25 байгаа популяциас авсан уу?

Эмпирик давтамжийн утгууд болон онолын давтамжийг тооцоолох үр дүнг томъёогоор бөглөж хүснэгтийг (Хүснэгт 4) байгуулцгаая.

A = n∙p,

Хаана х- онолын давтамж (өгөгдсөн төрлийн бутархай);

n -дээжийн хэмжээ.

Жишээлбэл, А 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

ОХУ-ын Боловсрол, шинжлэх ухааны яам

Эрхүү хотын Холбооны боловсролын агентлаг

Байгаль нуурын улсын эдийн засаг, хуулийн их сургууль

Мэдээлэл зүй, кибернетикийн тэнхим

Хи квадрат тархалт ба түүний хэрэглээ

Колмыкова Анна Андреевна

2-р курсын оюутан

бүлэг IS-09-1

Хүлээн авсан өгөгдлийг боловсруулахын тулд бид хи-квадрат тестийг ашигладаг.

Үүнийг хийхийн тулд бид эмпирик давтамжийн тархалтын хүснэгтийг бүтээх болно, жишээлбэл. Бидний ажиглаж буй давтамжууд:

Онолын хувьд бид давтамжийг тэгш хуваарилна гэж найдаж байна, өөрөөр хэлбэл. давтамжийг охид, хөвгүүдийн хооронд пропорциональ хуваарилах болно. Онолын давтамжийн хүснэгтийг байгуулъя. Үүнийг хийхийн тулд мөрийн нийлбэрийг баганын нийлбэрээр үржүүлж, гарсан тоог нийт нийлбэрт хуваана.


Тооцооллын эцсийн хүснэгт дараах байдалтай байна.

χ2 = ∑(E - T)² / T

n = (R - 1), энд R нь хүснэгтийн мөрүүдийн тоо юм.

Манай тохиолдолд хи-квадрат = 4.21; n = 2.

Шалгуурын эгзэгтэй утгуудын хүснэгтийг ашиглан бид олж мэднэ: n = 2, алдааны түвшин 0.05 бол чухал утга нь χ2 = 5.99 байна.

Үүссэн утга нь эгзэгтэй утгаас бага байгаа нь тэг таамаглалыг хүлээн зөвшөөрсөн гэсэн үг юм.

Дүгнэлт: багш нар хүүхдэд зориулсан шинж чанарыг бичихдээ түүний хүйсийг анхаарч үздэггүй.

Өргөдөл

χ2 тархалтын чухал цэгүүд

Хүснэгт 1

Дүгнэлт

Бараг бүх мэргэжлээр суралцаж буй оюутнууд дээд математикийн курсын төгсгөлд "Магадлалын онол ба математикийн статистик" хэсгийг судалж, бодит байдал дээр зөвхөн зарим үндсэн ойлголт, үр дүнтэй танилцдаг бөгөөд энэ нь практик ажилд хангалтгүй юм. Оюутнуудыг тусгай хичээлээр математикийн судалгааны зарим аргуудтай (жишээлбэл, "Урьдчилан таамаглах, техник-эдийн засгийн төлөвлөлт", "Техник-эдийн засгийн шинжилгээ", "Бүтээгдэхүүний чанарын хяналт", "Маркетинг", "Хяналт", "Таамаглах математик аргууд"-тай танилцуулдаг. ”) ", "Статистик" гэх мэт - эдийн засгийн мэргэжлээр суралцаж буй оюутнуудын хувьд), гэхдээ ихэнх тохиолдолд танилцуулга нь маш товчилсон бөгөөд томъёололтой байдаг. Үүний үр дүнд хэрэглээний статистикийн мэргэжилтнүүдийн мэдлэг хангалтгүй байна.

Иймд техникийн их дээд сургуулиудад “Хэрэглээний статистик” хичээл, эдийн засгийн их, дээд сургуулиудад “Эконометрик” хичээл нь чухал ач холбогдолтой бөгөөд учир нь эконометрикс нь эдийн засгийн тодорхой өгөгдөлд статистик дүн шинжилгээ хийдэг.

Магадлалын онол, математик статистик нь хэрэглээний статистик, эконометрикийн суурь мэдлэгийг олгодог.

Эдгээр нь мэргэжилтнүүдэд практик ажилд шаардлагатай байдаг.

Үргэлжилсэн магадлалын загварыг үзээд түүний хэрэглээг жишээгээр харуулахыг хичээсэн.

Ном зүй

1. Орлов А.И. Хэрэглээний статистик. М .: "Шалгалт" хэвлэлийн газар, 2004 он.

2. Гмурман В.Е. Магадлалын онол ба математик статистик. М.: Дээд сургууль, 1999. – 479 х.

3. Айвозян С.А. Магадлалын онол ба хэрэглээний статистик, 1-р боть. М.: Эв нэгдэл, 2001. – 656 х.

4. Хамитов Г.П., Ведерникова Т.И. Магадлал ба статистик. Эрхүү: BGUEP, 2006 – 272 х.

5. Ежова Л.Н. Эконометрик. Эрхүү: БГУЭП, 2002. – 314 х.

6. Mosteller F. Шийдэл бүхий тавин хөгжилтэй магадлалын бодлого. М.: Наука, 1975. – 111 х.

7. Мостеллер Ф.Магадлал. М.: Мир, 1969. – 428 х.

8. Яглом А.М. Магадлал ба мэдээлэл. М.: Наука, 1973. – 511 х.

9. Чистяков В.П. Магадлалын онолын хичээл. М.: Наука, 1982. – 256 х.

10. Кремер Н.Ш. Магадлалын онол ба математик статистик. М.: НЭГДЭЛ, 2000. – 543 х.

11. Математик нэвтэрхий толь, 1-р боть. М.: Зөвлөлтийн нэвтэрхий толь бичиг, 1976. – 655 х.

12. http://psystat.at.ua/ - Сэтгэл судлал, сурган хүмүүжүүлэх ухааны статистик. Нийтлэл Хи-квадрат тест.

Шалгуур үзүүлэлтийн тодорхойлолт

Шалгуурын зорилго

Пирсоны хи-квадрат тест

Лекцийн материал

Сэдэв 6. Шинж тэмдгийн тархалтын ялгааг тодорхойлох

Пирсоны шалгуур: шалгуурын зорилго, түүний тодорхойлолт, хэрэглээний хамрах хүрээ, тооцоолох алгоритм.

Тоон хэмжилтийн үр дүнг харьцуулах Колмогоров-Смирновын шалгуур: шалгуурын зорилго, түүний тодорхойлолт, хэрэглээний хамрах хүрээ, тооцоолох алгоритм.

Энэ сэдвийг судлахдаа хоёр шалгуур үзүүлэлт нь давтамжтай ажилладаг гэдгийг анхаарч үзэх хэрэгтэй. Үзэж буй шалгуурын хувьд шийдвэр гаргах дүрмүүдэд онцгой анхаарал хандуулаарай: эдгээр дүрмүүд нь эсрэгээрээ байж болно. Шалгуурыг хэрэглэхэд тавигдах хязгаарлалтуудыг сайтар нягталж үзнэ үү.

Лекцийн материалыг судалсны дараа тестийн асуултуудад хариулж, хариултыг тэмдэглэлдээ бичнэ үү.

Пирсоны хи-квадрат тест нь тархалтыг харьцуулах зэрэг хэд хэдэн асуудлыг шийдэж чадна.

χ 2 тестийг хоёр зорилгоор ашигладаг;

1) харьцуулах эмпирикшинж чанарын хуваарилалт онолын -жигд, хэвийн эсвэл өөр хэлбэрээр;

2) харьцуулах хоёр, гурав ба түүнээс дээш эмпирикижил шинж чанарын хуваарилалт, өөрөөр хэлбэл тэдгээрийн нэгэн төрлийн байдлыг шалгах;

3) санамсаргүй үйл явдлын систем дэх стохастик (магадлал) бие даасан байдлыг үнэлэх гэх мэт.

χ 2 шалгуур нь шинж чанарын өөр өөр утгууд эмпирик ба онолын тархалтад ижил давтамжтай эсвэл хоёр ба түүнээс дээш эмпирик тархалтад тохиолддог уу гэсэн асуултад хариулдаг.

Аргын давуу тал нь нэрсийн масштабаас эхлээд дурын масштабаар танилцуулсан шинж чанаруудын тархалтыг харьцуулах боломжийг олгодог. Альтернатив хуваарилалтын хамгийн энгийн тохиолдолд ("тийм - үгүй", "гажигтай байхыг зөвшөөрсөн - согогийг зөвшөөрөөгүй", "асуудлыг шийдсэн - асуудлыг шийдээгүй" гэх мэт) бид аль хэдийн χ 2-г хэрэглэж болно. шалгуур.

1. Түүврийн хэмжээ хангалттай том байх ёстой: N>30. Хэзээ Н<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. Хүснэгтийн нүд бүрийн онолын давтамж 5-аас багагүй байна: f ≥ 5 . Энэ нь хэрэв цифрүүдийн тоог урьдчилан тодорхойлсон бөгөөд өөрчлөх боломжгүй бол χ 2 аргыг ашиглах боломжгүй гэсэн үг юм. , хамгийн бага тооны ажиглалтыг хуримтлуулахгүйгээр. Жишээлбэл, бид Итгэмжлэгдсэн утасны үйлчилгээний давтамж долоо хоногийн 7 хоногт жигд бус тархсан гэсэн таамаглалыг шалгахыг хүсч байвал бидэнд 5-7 = 35 дуудлага хэрэгтэй болно. Тиймээс, хэрэв цифрүүдийн тоо (к)Энэ тохиолдолд ажиглалтын хамгийн бага тоог (N мин) дараахь томъёогоор тодорхойлно. .



3. Сонгосон категориуд нь бүхэл бүтэн тархалтыг, өөрөөр хэлбэл шинж чанарын хэлбэлзлийн бүх хүрээг хамрах ёстой. Энэ тохиолдолд ангиллаар бүлэглэх нь харьцуулсан бүх хуваарилалтад ижил байх ёстой.

4. Зөвхөн 2 утгыг авсан шинж чанаруудын тархалтыг харьцуулахдаа "тасралтгүй байдлын засвар" хийх шаардлагатай. Залруулга хийх үед χ 2-ийн утга буурдаг (тасралтгүй байдлын засвартай жишээг үзнэ үү).

5. Ангилалууд нь давхцахгүй байх ёстой: хэрэв ажиглалтыг нэг ангилалд хамааруулсан бол өөр ангилалд хамааруулах боломжгүй. Зэрэглэлээр хийсэн ажиглалтын нийлбэр нь нийт ажиглалтын тоотой үргэлж тэнцүү байх ёстой.

χ 2 шалгуурыг тооцоолох алгоритм

1. Дараах төрлийн шинж чанарын утгуудын харилцан хамаарлын хүснэгтийг үүсгэнэ үү (үндсэндээ энэ нь хамтарсан шинж чанарын утгуудын давтамжийг харуулсан хоёр хэмжээст өөрчлөлтийн цуврал юм) - хүснэгт 19. Хүснэгтэнд агуулагдах болно. нөхцөлт давтамжийг бид ерөнхий хэлбэрээр f ij гэж тэмдэглэнэ. Жишээлбэл, шинж чанарын зэрэглэлийн тоо X 3-тай тэнцүү (k=3), шинж чанарын зэрэглэлийн тоо цагттэнцүү 4 (m=4); Дараа нь би 1-ээс k хооронд хэлбэлздэг ба j 1-ээс м-ийн хооронд хэлбэлздэг.

Хүснэгт 19

x i y j x 1 x 2 x 3
1 цагт f 11 f 21 f 31 f –1
2 цагт f 12 f 22 f 32 f –2
3 цагт f 13 f 23 f 33 f –3
4 цагт f 14 f 24 f 34 f –4
f 1– f 2– f 3– Н

2. Дараа нь тооцоо хийхэд хялбар болгох үүднээс бид харилцан болзошгүй байдлын анхны хүснэгтийг дараах хэлбэрийн хүснэгт болгон хувиргаж (Хүснэгт 20) нөхцөлт давтамжтай багануудыг нэг нэгээр нь доор байрлуулна: Хүснэгтэд ангиллын нэрийг оруулна. (1 ба 2-р багана) ба харгалзах эмпирик давтамжууд (3-р багана).

Хүснэгт 20

x i y j f ij f ij * f ij – f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
x 1 1 цагт f 11 f 11*
x 1 2 цагт f 12 f 12*
x 1 3 цагт f 13 f 13*
x 1 4 цагт f 14 f 14*
x 2 1 цагт f 21 f 21 *
x 2 2 цагт f 22 f 22 *
x 2 3 цагт f 23 f 23 *
x 2 4 цагт f 24 f 24 *
x 3 1 цагт f 31 f 31 *
x 3 2 цагт f 32 f 32 *
x 3 3 цагт f 33 f 33 *
x 3 4 цагт f 34 f 34*
∑=………….

3. Эмпирик давтамж бүрийн хажууд онолын давтамжийг (4-р багана) бичнэ үү, үүнийг дараах томъёогоор (харгалзах мөрөнд байгаа нийт давтамжийг харгалзах баганад байгаа нийт давтамжаар үржүүлж, нийт давтамжид хуваана) бичнэ. ажиглалт):

5. Эрх чөлөөний зэрэглэлийн тоог томъёогоор тодорхойлно уу. ν=(k-1)(m-1) , Хаана к-шинж чанарын цифрүүдийн тоо X, m - тэмдгийн цифрүүдийн тоо цагт.

Хэрэв ν=1 бол “тасралтгүй байдал”-ын залруулга хийж 5a баганад бичнэ.

Тасралтгүй байдлын залруулга нь нөхцөлт болон онолын давтамжийн зөрүүгээс өөр 0.5-ыг хасахаас бүрдэнэ. Дараа нь манай хүснэгтийн баганын гарчиг дараах байдлаар харагдах болно (Хүснэгт 21):

Хүснэгт 21

X цагт f ij f ij * f ij – f ij * f ij – f ij * – 0.5 (f ij – f ij * – 0.5) 2 (f ij – f ij * – 0.5) 2 / f ij *
1 2 3 4 5 6 7

6. Үүссэн зөрүүг квадрат болгож 6-р баганад оруулна.

7. Үүссэн квадратын зөрүүг онолын давтамжид хувааж үр дүнг 7-р баганад бичнэ.

8. 7-р баганын утгыг нэгтгэн гарга. Үр дүнгийн хэмжээг χ 2 em гэж тэмдэглэнэ.

9. Шийдвэрлэх дүрэм:

Шалгуурын тооцоолсон утгыг эгзэгтэй (эсвэл хүснэгтэн) утгатай харьцуулах ёстой. Чухал утга нь Pearson χ 2 шалгуурын чухал утгуудын хүснэгтийн дагуу эрх чөлөөний зэрэглэлийн тооноос хамаарна (Хавсралт 1.6-г үзнэ үү).

Хэрэв χ 2 calc ≥ χ 2 хүснэгт бол тархалтын хоорондын зөрүү нь статистикийн ач холбогдолтой, эсвэл шинж чанар нь тогтмол өөрчлөгддөг, эсвэл шинж чанаруудын хоорондын хамаарал нь статистикийн хувьд чухал юм.

Хэрэв χ 2 тооцоолсон бол< χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

Хи-квадрат тест нь туршилтын үр дүн болон ашигласан статистик загвар хоорондын тохирлыг шалгах бүх нийтийн арга юм.

Пирсон зай X 2

Пятницкий A.M.

Оросын Улсын Анагаах Ухааны Их Сургууль

1900 онд Карл Пирсон загвар таамаглал болон туршилтын өгөгдлийн хоорондын тохирлыг шалгах энгийн, түгээмэл бөгөөд үр дүнтэй аргыг санал болгосон. Түүний санал болгосон "хи-квадрат тест" нь хамгийн чухал бөгөөд хамгийн түгээмэл хэрэглэгддэг статистик тест юм. Үл мэдэгдэх загварын параметрүүдийг тооцоолох, загвар болон туршилтын өгөгдлийн хоорондын тохирлыг шалгахтай холбоотой ихэнх асуудлыг түүний тусламжтайгаар шийдэж болно.

Судалж буй объект эсвэл үйл явцын априори (туршилтын өмнөх) загвар (статистикийн хувьд тэд "тэгш таамаглал" H 0 гэж ярьдаг), энэ объекттой хийсэн туршилтын үр дүн байх болтугай. Загвар нь хангалттай эсэхийг шийдэх шаардлагатай байна (энэ нь бодит байдалд нийцэж байна уу)? Туршилтын үр дүн нь бодит байдал хэрхэн ажилладаг тухай бидний санаатай зөрчилдөж байна уу, эсвэл өөрөөр хэлбэл H0-ээс татгалзах ёстой юу? Ихэнхдээ энэ даалгаврыг ажиглагдсан (O i = Ажиглагдсан) болон загварын дагуу хүлээгдэж буй (E i = Хүлээгдэж буй) тодорхой үйл явдлын дундаж давтамжийг харьцуулах хүртэл багасгаж болно. Ажиглагдсан давтамжийг тогтмол (!) нөхцөлд хийсэн N бие даасан (!) ажиглалтаар авсан гэж үздэг. Ажиглалт бүрийн үр дүнд М үйл явдлын аль нэгийг тэмдэглэнэ. Эдгээр үйл явдлууд нэгэн зэрэг тохиолдох боломжгүй (тэдгээр нь хос хосоороо үл нийцдэг) бөгөөд тэдгээрийн аль нэг нь зайлшгүй тохиолддог (тэдгээрийн хослол нь найдвартай үйл явдлыг бүрдүүлдэг). Бүх ажиглалтын нийлбэрийг давтамжийн хүснэгт (вектор) болгон бууруулж (O i )=(O 1 ,… O M ) туршилтын үр дүнг бүрэн дүрсэлсэн болно. O 2 =4 утга нь 2-р үйл явдал 4 удаа болсон гэсэн үг. Давтамжийн нийлбэр O 1 +… O M =N. N – тогтмол, санамсаргүй бус, N – санамсаргүй хэмжигдэхүүн гэсэн хоёр тохиолдлыг ялгах нь чухал. Тогтсон нийт N туршилтын хувьд давтамж нь олон гишүүнт тархалттай байна. Энэхүү ерөнхий схемийг энгийн жишээгээр тайлбарлая.

Энгийн таамаглалыг шалгахын тулд хи-квадрат тестийг ашиглах.

Загвар (нэг таамаглал H 0) нь тэгш хэмтэй байна гэж үзье - бүх нүүр царай p i =1/6, i =, M=6 магадлалаар ижил давтамжтайгаар гарч ирдэг. Туршилтыг 60 удаа шидсэн үхрийг хийсэн (N = 60 бие даасан туршилт явуулсан). Загварын дагуу бид O i үзэгдлийн бүх ажиглагдсан давтамжууд 1,2,... 6 оноо нь тэдний дундаж утгатай ойролцоо байх ёстой гэж найдаж байна E i =Np i =60∙(1/6)=10. H 0-ийн дагуу дундаж давтамжийн вектор (E i )=(Np i )=(10, 10, 10, 10, 10, 10). (Туршилт эхлэхээс өмнө дундаж давтамжийг бүрэн мэддэг таамаглалыг энгийн гэж нэрлэдэг.) Хэрэв ажиглагдсан вектор (O i ) нь (34,0,0,0,0,26) тэнцүү байсан бол тэр даруй болно. Загвар буруу байгаа нь тодорхой байна - яс зөв байж болохгүй, учир нь зөвхөн 1 ба 6-г 60 удаа өнхрүүлэв. Гэсэн хэдий ч загвар ба туршлага хоёрын хооронд ийм илэрхий зөрүү гарч байгаа нь үл хамаарах зүйл юм. Ажиглагдсан давтамжийн вектор (O i ) нь (5, 15, 6, 14, 4, 16) тэнцүү байг. Энэ нь H0-тэй нийцэж байна уу? Тиймээс бид хоёр давтамжийн векторыг (E i) ба (O i) харьцуулах хэрэгтэй. Энэ тохиолдолд хүлээгдэж буй давтамжийн вектор (Ei) нь санамсаргүй биш боловч ажиглагдсан давтамжийн вектор (Oi) нь санамсаргүй байдаг - дараагийн туршилтын үед (60 шидэлтийн шинэ цувралд) энэ нь өөр байх болно. Асуудлын геометрийн тайлбарыг танилцуулж, давтамжийн орон зайд (энэ тохиолдолд 6 хэмжээст) хоёр цэгийг координат (5, 15, 6, 14, 4, 16) ба (10, 10, 10, 10, 10, 10). Тэд H 0-тэй нийцэхгүй гэж үзэхэд хангалттай зайтай юу? Өөрөөр хэлбэл, бидэнд хэрэгтэй:

  1. давтамж хоорондын зайг хэмжиж сурах (давтамжийн орон зайн цэгүүд),
  2. Ямар зайг хэтэрхий том (“үнэмшихийн аргагүй”) гэж үзэх ёстой, өөрөөр хэлбэл H 0-тэй нийцэхгүй байх шалгууртай байна.

Энгийн Евклидийн зайны квадрат нь дараахтай тэнцүү байна.

X 2 Евклид = С(O i -E i) 2 = (5-10) 2 +(15-10) 2 + (6-10) 2 +(14-10) 2 +(4-10) 2 +(16-10) 2

Энэ тохиолдолд E i-ийн утгыг засаж, O i-г өөрчилвөл X 2 Евклид = const гадаргуу нь үргэлж бөмбөрцөг хэлбэртэй байдаг. Карл Пирсон давтамжийн орон зайд Евклидийн зайг ашиглах ёсгүй гэж тэмдэглэжээ. Иймд (O = 1030 ба E = 1000) болон (O = 40 ба E = 10) цэгүүд хоорондоо ижил зайд байна гэж үзэх нь буруу боловч хоёр тохиолдолд ялгаа нь O -E = 30 байна. Эцсийн эцэст, хүлээгдэж буй давтамж өндөр байх тусам үүнээс илүү их хазайлт боломжтой гэж үзэх хэрэгтэй. Иймд (O =1030 ба E =1000) цэгүүдийг "ойрхон", (O =40 ба E =10) цэгүүдийг бие биенээсээ "хол" гэж үзэх хэрэгтэй. Хэрэв H 0 таамаглал үнэн бол E i -тэй харьцуулахад O i давтамжийн хэлбэлзэл нь E i -ийн квадрат язгуурын (!) дарааллаар байгааг харуулж болно. Тиймээс Пирсон зайг тооцоолохдоо ялгааг (O i -E i) биш харин нормчлогдсон зөрүүг (O i -E i)/E i 1/2 квадрат болгохыг санал болгосон. Пирсоны зайг тооцоолох томъёо энд байна (энэ нь уг зайны квадрат):

X 2 Пирсон = С((O i -E i )/E i 1/2) 2 = С(O i -E i ) 2 /E i

Бидний жишээнд:

X 2 Пирсон = (5-10) 2 /10+(15-10) 2 /10 +(6-10) 2 /10+(14-10) 2 /10+(4-10) 2 /10+( 16-10) 2 /10=15.4

Ердийн үхрийн хувьд E i бүх хүлээгдэж буй давтамжууд ижил боловч ихэвчлэн өөр өөр байдаг тул Пирсоны зай тогтмол (X 2 Pearson =const) байх гадаргуу нь бөмбөрцөг биш эллипсоид хэлбэртэй байдаг.

Одоо зайг тооцоолох томъёог сонгосон тул аль зайг "хэт том биш" гэж үзэх ёстойг олж мэдэх шаардлагатай (H 0-тэй нийцэж байгаа бол жишээлбэл, бидний тооцоолсон зайны талаар бид юу хэлж чадах вэ 15.4). ? Тохиолдолын хэдэн хувьд (эсвэл ямар магадлалтайгаар) бид ердийн үхэртэй туршилт хийхэд 15.4-ээс их зай авах вэ? Хэрэв энэ хувь бага бол (<0.05), то H 0 надо отвергнуть. Иными словами требуется найти распределение длярасстояния Пирсона. Если все ожидаемые частоты E i не слишком малы (≥5), и верна H 0 , то нормированные разности (O i - E i )/E i 1/2 приближенно эквивалентны стандартным гауссовским случайным величинам: (O i - E i )/E i 1/2 ≈N (0,1). Это, например, означает, что в 95% случаев| (O i - E i )/E i 1/2 | < 1.96 ≈ 2 (правило “двух сигм”).

Тайлбар. i тоотой хүснэгтийн нүдэнд унасан хэмжилтийн тоо O i нь дараах параметрүүдтэй бином тархалттай байна: m =Np i =E i,σ =(Np i (1-p i)) 1/2, N нь тоо. хэмжилтийн тоо (N "1), p i - нэг хэмжилт нь тухайн нүдэнд унах магадлал (хэмжилт нь бие даасан бөгөөд тогтмол нөхцөлд хийгддэг гэдгийг санаарай). Хэрэв p i нь бага бол: σ≈(Np i ) 1/2 =E i ба бином тархалт нь ажиглалтын дундаж тоо E i =λ, стандарт хазайлт σ=λ 1/2 байх Пуассонтой ойролцоо байна. = E i 1/ 2. λ≥5-ын хувьд Пуассоны тархалт нь хэвийн N (m =E i =λ, σ=E i 1/2 =λ 1/2), нормчлогдсон утга (O i - E i )/E i 1-тэй ойролцоо байна. /2 ≈ N (0 ,1).

Пирсон санамсаргүй хэмжигдэхүүн χ 2 n - “n зэрэгтэй чөлөөт хи-квадрат”-ыг n бие даасан стандарт хэвийн санамсаргүй хэмжигдэхүүний квадратуудын нийлбэр гэж тодорхойлсон:

χ 2 n = T 1 2 + T 2 2 + …+ T n 2,бүгд хаана байна T i = N(0,1) - n. О. Р. -тай. В.

Статистикийн энэхүү хамгийн чухал санамсаргүй хэмжигдэхүүний утгыг тодорхой ойлгохыг хичээцгээе. Үүнийг хийхийн тулд хавтгайд (n = 2-той) эсвэл орон зайд (n = 3-тай) бид координат нь бие даасан, стандарт хэвийн тархалттай (-x 2 / 2) цэгүүдийн үүлийг үзүүлэв. ). Хавтгай дээр хоёр координатад бие даан хэрэгждэг "хоёр сигма" дүрмийн дагуу цэгүүдийн 90% (0.95*0.95≈0.90) нь квадрат дотор (-2) агуулагддаг.

f χ 2 2 (a) = Сexp(-a/2) = 0.5exp(-a/2).

Хангалттай олон тооны эрх чөлөөний зэрэгтэй n (n > 30) хи-квадрат тархалт хэвийн хэмжээнд ойртоно: N (m = n; σ = (2n) ½). Энэ нь "төв хязгаарын теорем"-ын үр дагавар юм: хязгаарлагдмал дисперстэй ижил тархсан хэмжигдэхүүнүүдийн нийлбэр нь гишүүний тоо нэмэгдэх тусам хэвийн хуульд ойртоно.

Практик дээр та зайны дундаж квадрат нь m (χ 2 n) = n, түүний дисперс нь σ 2 (χ 2 n) = 2n байна гэдгийг санах хэрэгтэй. Эндээс аль хи-квадрат утгыг хэт жижиг, хэт том гэж үзэхийг хялбархан дүгнэж болно: тархалтын ихэнх нь n -2∙(2n) ½-аас n +2∙(2n) ½ хооронд хэлбэлздэг.

Тиймээс, n +2∙ (2n) ½-ээс хэтэрсэн Пирсон зайг үнэмшмээргүй том (H 0-тэй нийцэхгүй) гэж үзэх хэрэгтэй. Хэрэв үр дүн нь n +2∙(2n) ½-тэй ойролцоо байвал ийм болон том хи-квадрат утгууд тохиолдлын хэдэн хувь нь гарч болохыг олж мэдэх боломжтой хүснэгтүүдийг ашиглах хэрэгтэй.

Эрх чөлөөний зэрэглэлийн тоог (n.d.f. гэж товчилсон) хэрхэн зөв сонгохыг мэдэх нь чухал юм. n нь ердөө л цифрүүдийн тоотой тэнцүү гэж таамаглах нь зүй ёсны хэрэг мэт санагдав: n =M. Пирсон нийтлэлдээ ийм зүйлийг санал болгосон. Шооны жишээнд энэ нь n =6 гэсэн үг юм. Гэсэн хэдий ч хэдэн жилийн дараа Пирсон андуурч байсныг харуулсан. O i санамсаргүй хэмжигдэхүүнүүдийн хооронд холболт байгаа тохиолдолд эрх чөлөөний зэрэглэлийн тоо нь цифрүүдийн тооноос үргэлж бага байна. Шооны жишээний хувьд O i нийлбэр нь 60 бөгөөд зөвхөн 5 давтамжийг бие даан өөрчлөх боломжтой тул зөв утга нь n = 6-1 = 5 байна. Энэ n утгын хувьд бид n +2∙(2n) ½ =5+2∙(10) ½ =11.3-ийг авна. 15.4>11.3 байгаа тул H 0 таамаглалыг няцаах хэрэгтэй.

Алдааг тодруулсны дараа одоо байгаа χ 2 хүснэгтүүдийг нэмж оруулах шаардлагатай болсон, учир нь тэд хамгийн бага оронтой тоо = 2 байсан тул n = 1 тохиолдол агуулаагүй болно. Одоо Пирсон зай нь χ 2 n =1 тархалттай байх тохиолдол гарч магадгүй юм.

Жишээ. 100 зоос шидэхэд толгойн тоо O 1 = 65, сүүлний тоо O 2 = 35. Цифрүүдийн тоо M = 2 байна. Хэрэв зоос тэгш хэмтэй байвал хүлээгдэж буй давтамжууд нь E 1 =50, E 2 =50 байна.

X 2 Пирсон = С(O i -E i) 2 /E i = (65-50) 2 /50 + (35-50) 2 /50 = 2*225/50 = 9.

Үр дүнгийн утгыг стандарт хэвийн утгын квадрат гэж тодорхойлсон χ 2 n =1 санамсаргүй хэмжигдэхүүнтэй харьцуулах хэрэгтэй χ 2 n =1 =T 1 2 ≥ 9. ó T 1 ≥3 эсвэл T 1 ≤-3. Ийм үйл явдлын магадлал маш бага P (χ 2 n =1 ≥9) = 0.006. Тиймээс зоосыг тэгш хэмтэй гэж үзэх боломжгүй: H 0-ээс татгалзах хэрэгтэй. Эрх чөлөөний зэрэглэлийн тоо нь цифрүүдийн тоотой тэнцүү байж болохгүй гэдэг нь ажиглагдсан давтамжуудын нийлбэр нь хүлээгдэж буй давтамжуудын нийлбэртэй үргэлж тэнцүү байдгаас тодорхой харагдаж байна, жишээ нь O 1 +O 2 =65+ 35 = E 1 +E 2 =50+50=100. Тиймээс O 1 ба O 2 координаттай санамсаргүй цэгүүд шулуун дээр байрладаг: O 1 +O 2 =E 1 +E 2 =100 бөгөөд төв хүртэлх зай нь энэ хязгаарлалт байхгүй байсантай харьцуулахад бага байна. Тэд бүхэл бүтэн онгоцонд байрлаж байсан. Үнэн хэрэгтээ, математикийн хүлээлт E 1 =50, E 2 =50 гэсэн хоёр бие даасан санамсаргүй хэмжигдэхүүний хувьд тэдгээрийн хэрэгжилтийн нийлбэр нь үргэлж 100-тай тэнцүү байх ёсгүй - жишээлбэл, O 1 =60, O 2 =55 утгууд байх болно. хүлээн зөвшөөрөгдөхүйц байх.

Тайлбар. Пирсоны шалгуурын M = 2-ын үр дүнг, Бернуллигийн N бие даасан туршилтын үр дүнд p магадлал бүхий ν =K /N үзэгдлийн тохиолдлын давтамжийн санамсаргүй хэлбэлзлийг тооцоолохдоо Мойвр-Лапласын томьёо өгч буй үр дүнг харьцуулж үзье. K нь амжилтын тоо):

χ 2 n =1 = С(O i -E i) 2 /E i = (O 1 -E 1) 2 /E 1 + (O 2 -E 2) 2 /E 2 = (Nν -Np) 2 /(Np) + (N () 1-ν )-N (1-p )) 2 /(N (1-p ))=

=(Nν-Np) 2 (1/p + 1/(1-p))/N=(Nν-Np) 2 /(Np(1-p))=((K-Np)/(Npq) ½ ) 2 = T 2

Утга T =(K -Np)/(Npq) ½ = (K -m (K))/σ(K) ≈N (0.1) σ(K)=(Npq) ½ ≥3. Энэ тохиолдолд Пирсоны үр дүн нь хоёр нэрийн тархалтын хувьд ердийн ойролцоолсон үзүүлэлттэй яг таарч байгааг бид харж байна.

Одоогийн байдлаар бид E i хүлээгдэж буй дундаж давтамжийг урьдчилан бүрэн мэддэг энгийн таамаглалуудыг авч үзсэн. Нарийн төвөгтэй таамаглалуудын эрх чөлөөний зэрэглэлийг хэрхэн зөв сонгох тухай мэдээллийг доороос үзнэ үү.

Нарийн төвөгтэй таамаглалыг шалгахын тулд хи-квадрат тестийг ашиглах

Тогтмол хэмжигдэхүүн, зоос бүхий жишээнүүдэд туршилтын өмнө (!) хүлээгдэж буй давтамжийг тодорхойлж болно. Ийм таамаглалыг "энгийн" гэж нэрлэдэг. Практикт "нарийн төвөгтэй таамаглал" илүү түгээмэл байдаг. Түүнчлэн, E i хүлээгдэж буй давтамжийг олохын тулд эхлээд нэг буюу хэд хэдэн хэмжигдэхүүнийг (загварын параметрүүдийг) тооцоолох шаардлагатай бөгөөд үүнийг зөвхөн туршилтын өгөгдлийг ашиглан хийж болно. Үүний үр дүнд "нарийн төвөгтэй таамаглал" -ын хувьд хүлээгдэж буй E i давтамжууд нь ажиглагдсан O i давтамжаас хамаардаг тул туршилтын үр дүнгээс хамааран өөр өөр байдаг санамсаргүй хэмжигдэхүүн болдог. Параметрүүдийг сонгох явцад Пирсон зай багасдаг - загвар ба туршилтын хоорондын тохиролцоог сайжруулахын тулд параметрүүдийг сонгосон. Тиймээс эрх чөлөөний зэрэглэлийн тоо буурах ёстой.

Загварын параметрүүдийг хэрхэн тооцоолох вэ? Үнэлгээний олон янзын аргууд байдаг - "хамгийн их магадлалтай арга", "моментийн арга", "орлуулах арга". Гэсэн хэдий ч та нэмэлт хөрөнгө ашиглах боломжгүй бөгөөд Pearson зайг багасгах замаар параметрийн тооцоог олох боломжгүй. Компьютерийн өмнөх эрин үед энэ аргыг бараг ашигладаггүй: гар аргаар тооцоолоход тохиромжгүй бөгөөд дүрмээр бол аналитик аргаар шийдвэрлэх боломжгүй юм. Компьютер дээр тооцоолохдоо тоон хэмжээг багасгах нь ихэвчлэн хялбар байдаг бөгөөд энэ аргын давуу тал нь түүний олон талт байдал юм. Тиймээс, "хи-квадратыг багасгах арга" -ын дагуу бид үл мэдэгдэх параметрүүдийн утгыг сонгох бөгөөд ингэснээр Пирсоны зай хамгийн бага байх болно. (Дашрамд хэлэхэд, олсон минимумтай харьцуулахад бага хэмжээний шилжилттэй энэ зайд гарсан өөрчлөлтийг судалснаар та тооцооллын нарийвчлалын хэмжүүрийг тооцоолж болно: итгэлцлийн интервалыг бий болгох.) Параметрүүд болон энэ хамгийн бага зайг өөрөө олсны дараа энэ нь хангалттай бага эсэх талаар дахин хариулах шаардлагатай.

Үйлдлийн ерөнхий дараалал дараах байдалтай байна.

  1. Загвар сонгох (таамаглал H 0).
  2. Цифрүүдийг сонгох, ажиглагдсан давтамжийн векторыг тодорхойлох O i .
  3. Үл мэдэгдэх загварын параметрүүдийг тооцоолох, тэдгээрийн итгэлцлийн интервалыг бий болгох (жишээлбэл, Пирсоны хамгийн бага зайг хайх замаар).
  4. Хүлээгдэж буй давтамжийн тооцоо E i .
  5. Пирсоны X 2 зайны олсон утгыг хи-квадрат χ 2 критийн эгзэгтэй утгатай харьцуулах нь хамгийн том нь үнэмшилтэй хэвээр байгаа бөгөөд H 0-тэй нийцдэг. Бид тэгшитгэлийг шийдэж хүснэгтүүдээс χ 2 крит утгыг олно

P (χ 2 n > χ 2 crit)=1-α,

Энд α нь "ач холбогдлын түвшин" эсвэл "шалгуурын хэмжээ" эсвэл "эхний төрлийн алдааны хэмжээ" (ердийн утга α = 0.05).

Ихэвчлэн n эрх чөлөөний зэрэглэлийн тоог томъёогоор тооцдог

n = (цифрүүдийн тоо) – 1 – (тооцох параметрийн тоо)

Хэрэв X 2 > χ 2 crit бол H 0 таамаглалыг үгүйсгэж, үгүй ​​бол хүлээн зөвшөөрнө. α∙100% тохиолдолд (өөрөөр хэлбэл маш ховор) H 0-ийг шалгах энэ арга нь "эхний төрлийн алдаа" -д хүргэдэг: H 0 таамаглалыг буруугаар үгүйсгэх болно.

Жишээ. 100 үрийн 10 цувралыг судлахдаа ногоон нүдтэй ялаагаар өвчилсөн тоог тоолсон. Хүлээн авсан өгөгдөл: O i =(16, 18, 11, 18, 21, 10, 20, 18, 17, 21);

Энд хүлээгдэж буй давтамжийн вектор урьдаас тодорхойгүй байна. Хэрэв өгөгдөл нь нэгэн төрлийн бөгөөд бином тархалтаар авсан бол нэг параметр тодорхойгүй байна: халдвар авсан үрийн эзлэх хувь p. Анхны хүснэгтэд 10 холболтыг хангах 10 биш харин 20 давтамж байгааг анхаарна уу: 16+84=100, ... 21+79=100.

X 2 = (16-100p) 2 /100p +(84-100(1-p)) 2 /(100(1-p))+…+

(21-100p) 2 /100p +(79-100(1-p)) 2 /(100(1-p))

Нэр томьёог хосоор нь нэгтгэж (зоосны жишээн дээрх шиг) бид Пирсоны шалгуурыг бичих хэлбэрийг олж авдаг бөгөөд үүнийг ихэвчлэн шууд бичдэг.

X 2 = (16-100p) 2 /(100p(1-p))+…+ (21-100p) 2 /(100p(1-p)).

Одоо, хэрэв хамгийн бага Пирсон зайг p-ийг тооцоолох арга болгон ашиглаж байгаа бол X 2 =min байх p-г олох шаардлагатай. (Загвар нь боломжтой бол туршилтын өгөгдөлд "тохируулах" оролдлого хийдэг.)

Пирсоны шалгуур нь статистикт хэрэглэгддэг бүх шалгууруудаас хамгийн түгээмэл нь юм. Үүнийг нэг болон олон хувьсах өгөгдөл, тоон болон чанарын шинж чанаруудад хэрэглэж болно. Гэсэн хэдий ч түүний олон талт байдлаас шалтгаалан алдаа гаргахаас болгоомжлох хэрэгтэй.

Чухал цэгүүд

1. Ангилал сонгох.

  • Хэрэв хуваарилалт нь салангид байвал цифрийг сонгохдоо дур зоргоороо байдаггүй.
  • Хэрэв хуваарилалт тасралтгүй байвал дур зоргоороо байх нь гарцаагүй. Статистикийн хувьд тэнцүү блокуудыг ашиглаж болно (бүх O ижил байна, жишээ нь =10). Гэсэн хэдий ч интервалын урт нь өөр өөр байдаг. Гарын авлагын тооцоолол хийхдээ тэд интервалыг ижил болгохыг оролдсон. Нэг хувьсах шинж чанарын тархалтыг судлах интервалууд тэнцүү байх ёстой юу? Үгүй
  • Хүлээгдэж буй (ажиглаагүй!) давтамж хэт бага (≥5) байхаар цифрүүдийг нэгтгэх ёстой. X 2-ийг тооцоолохдоо тэд (E i) хуваагчдад байдаг гэдгийг санацгаая! Нэг хэмжээст шинж чанарыг шинжлэхдээ E 1 =E max =1 гэсэн хоёр туйлын цифрээр энэ дүрмийг зөрчихийг зөвшөөрнө. Хэрэв цифрүүдийн тоо их, хүлээгдэж буй давтамж нь ойролцоо байвал X 2 нь E i =2-ийн хувьд ч гэсэн χ 2-ын сайн ойролцоо байна.

Параметрийн тооцоо. "Гэрээр хийсэн", үр ашиггүй үнэлгээний аргуудыг ашиглах нь Pearson зайны утгыг нэмэгдүүлэхэд хүргэдэг.

Эрх чөлөөний зэрэглэлийн тоог зөв сонгох. Хэрэв параметрийн тооцоог давтамжаас биш, харин өгөгдлөөс шууд хийсэн бол (жишээлбэл, арифметик дундажийг дундаж утгын тооцоо болгон авдаг) n-ийн эрх чөлөөний тодорхой тоо тодорхойгүй байна. Энэ нь тэгш бус байдлыг хангадаг гэдгийг л бид мэднэ:

(цифрүүдийн тоо - 1 - үнэлж буй параметрийн тоо)< n < (число разрядов – 1)

Тиймээс X 2-ийг энэ n мужид тооцоолсон χ 2 критийн чухал утгатай харьцуулах шаардлагатай.

Үл итгэмээргүй жижиг хи-квадрат утгыг хэрхэн тайлбарлах вэ?Зоос 10000 шидсэний дараа 5000 удаа төрийн сүлдэнд буувал тэгш хэмтэй гэж үзэх ёстой юу? Өмнө нь олон статистикчид H 0-ийг мөн үгүйсгэх ёстой гэж үздэг. Одоо өөр аргыг санал болгож байна: H 0-ийг хүлээн зөвшөөрөх боловч өгөгдөл, тэдгээрийн дүн шинжилгээ хийх аргачлалыг нэмэлт баталгаажуулалтад оруулна. Хоёр боломж бий: эсвэл хэт бага Пирсон зай нь загварын параметрүүдийн тоог нэмэгдүүлэх нь эрх чөлөөний зэрэглэлийн тоог зохих ёсоор бууруулаагүй, эсвэл өгөгдөл өөрөө хуурамчаар хийгдсэн (магадгүй хүлээгдэж буй үр дүнд тохируулсан байж магадгүй) гэсэн үг юм.

Жишээ.Хоёр судлаач А ба В моногибрид загалмайн AA * aa хоёр дахь үеийн рецессив гомозигот aa-ийн эзлэх хувийг тооцоолсон. Менделийн хуулиудын дагуу энэ хэсэг нь 0.25 байна. Судлаач бүр 5 туршилт хийж, туршилт бүрт 100 организмыг судалсан.

Үр дүн A: 25, 24, 26, 25, 24. Судлаачийн дүгнэлт: Менделийн хууль үнэн(?).

Үр дүн B: 29, 21, 23, 30, 19. Судлаачийн дүгнэлт: Менделийн хууль шударга бус байна(?).

Гэсэн хэдий ч Менделийн хууль нь статистик шинж чанартай бөгөөд үр дүнгийн тоон дүн шинжилгээ нь дүгнэлтийг өөрчилдөг! Таван туршилтыг нэг болгон нэгтгэснээр бид 5 зэрэглэлийн эрх чөлөө бүхий хи-квадрат тархалтад хүрнэ (энгийн таамаглалыг шалгасан):

X 2 A = ((25-25) 2 +(24-25) 2 +(26-25) 2 +(25-25) 2 +(24-25) 2)/(100∙0.25∙0.75)=0.16

X 2 B = ((29-25) 2 +(21-25) 2 +(23-25) 2 +(30-25) 2 +(19-25) 2)/(100∙0.25∙0.75)=5.17

Дундаж утга m [χ 2 n =5 ]=5, стандарт хазайлт σ[χ 2 n =5 ]=(2∙5) 1/2 =3.2.

Тиймээс, хүснэгтүүдийг дурдаагүй бол X 2 B-ийн утга нь ердийн, X 2 A-ийн утга нь үнэмшилгүй бага байх нь тодорхой байна. P хүснэгтийн дагуу (χ 2 n =5<0.16)<0.0001.

Энэ жишээ бол 1930-аад онд тохиолдсон бодит хэргийн дасан зохицох явдал юм (Колмогоровын "Менделийн хуулиудын өөр нэг нотолгооны тухай" бүтээлийг үзнэ үү). Сонирхолтой нь, судлаач А генетикийг дэмжигч байсан бол судлаач Б үүний эсрэг байв.

Тэмдэглэгээний төөрөгдөл.Тооцоолохдоо нэмэлт конвенц шаарддаг Пирсон зайг хи квадрат санамсаргүй хэмжигдэхүүний математикийн ойлголтоос ялгах шаардлагатай. Тодорхой нөхцөлд Пирсон зай нь n зэрэгтэй эрх чөлөөний хи-квадраттай ойролцоо тархалттай байна. Иймд Пирсон зайг χ 2 n тэмдгээр БИШ, харин ижил төстэй боловч өөр X 2 тэмдэглэгээг ашиглахыг зөвлөж байна.

Пирсоны шалгуур нь бүхнийг чадагч биш юм. H 0-ийн хязгааргүй олон хувилбарууд байдаг бөгөөд тэр үүнийг анхаарч үзэх боломжгүй юм. Та онцлог нь жигд тархалттай байсан гэсэн таамаглалыг шалгаж байна гэж бодъё, танд 10 орон байгаа бөгөөд ажиглагдсан давтамжийн вектор (130,125,121,118,116,115,114,113,111,110) тэнцүү байна. Пирсоны шалгуур нь давтамжууд нэг хэвийн буурч байгааг анзаарч чадахгүй бөгөөд H 0-ийг үгүйсгэхгүй. Хэрэв үүнийг цуврал шалгуураар нэмсэн бол тийм ээ!



Танд нийтлэл таалагдсан уу? Найзуудтайгаа хуваалцаарай!