Хи квадратын тархалт. MS EXCEL программ дахь математик статистикийн тархалт. Хоёр давтамжийн тархалтын харьцуулалт. Хи-квадрат тест

Хи квадратын тархалтыг авч үзье. MS EXCEL функцийг ашиглахCH2.DIST() Тархалтын функц ба магадлалын нягтын графикийг зурж, энэ тархалтыг математик статистикийн зорилгоор ашиглахыг тайлбарлая.

Хи квадратын тархалт (X 2, XI2,АнглиЧи- квадратхуваарилалт) -д ашигласан янз бүрийн аргаМатематик статистик:

  • барилгын ажлын явцад;
  • үед;
  • at (эмпирик өгөгдөл нь онолын тархалтын функцийн талаарх бидний таамаглалтай нийцэж байна уу, үгүй ​​юу, англи хэлний сайн байдал)
  • at (хоёр ангиллын хувьсагчийн хоорондын хамаарлыг тодорхойлоход ашигладаг, англи хэлний Chi-square test of association).

Тодорхойлолт: Хэрэв x 1 , x 2 , …, x n нь N(0;1) дээр тархсан бие даасан санамсаргүй хэмжигдэхүүн бол Y=x 1 2 + x 2 2 +…+ x n 2 санамсаргүй хэмжигдэхүүний тархалт дараах байдалтай байна. хуваарилалт X 2 эрх чөлөөний n зэрэгтэй.

Хуваарилалт X 2 гэж нэрлэгддэг нэг параметрээс хамаарна эрх чөлөөний зэрэг (df, градус-ийнэрх чөлөө). Жишээлбэл, барилга барих үед эрх чөлөөний зэрэглэлийн тоотэнцүү df=n-1, энд n нь хэмжээ дээж.

Түгээлтийн нягтрал X 2 томъёогоор илэрхийлнэ:

Функцийн графикууд

Хуваарилалт X 2 тэгш бус хэлбэртэй, n-тэй тэнцүү, 2n-тэй тэнцүү байна.

IN График хуудас дээрх жишээ файлөгсөн тархалтын нягтын графикуудмагадлал ба хуримтлагдсан хуваарилалтын функц.

Ашигтай өмч CH2 тархалт

x 1, x 2, …, x n нь бие даасан санамсаргүй хэмжигдэхүүнүүд дээр тархсан байг ердийн хуульμ ба σ ижил параметртэй, ба X avбайна Арифметик дундажэдгээр x утгууд.
Дараа нь санамсаргүй утга yтэнцүү

Байгаа X 2 - хуваарилалт n-1 зэрэглэлийн эрх чөлөөтэй. Тодорхойлолтыг ашиглан дээрх илэрхийллийг дараах байдлаар дахин бичиж болно.

Тиймээс, түүврийн хуваарилалтстатистик y, at дээж-аас хэвийн тархалт , Байгаа X 2 - хуваарилалт n-1 эрх чөлөөний зэрэгтэй.

Бидэнд энэ өмч хэрэгтэй болно. Учир нь тархалтмагадгүй зүгээр л эерэг тоо, А X 2 - хуваарилалтүүнийг үнэлэхэд ашигладаг y d.b. >0, тодорхойлолтод заасан.

MS EXCEL дээрх CH2 тархалт

MS EXCEL-д 2010 оны хувилбараас эхлэн X 2 - хуваарилалттусгай функц байдаг CHI2.DIST(), Англи нэр– CHISQ.DIST() нь тооцоолох боломжийг танд олгоно магадлалын нягт(дээрх томъёог үзнэ үү) ба (х санамсаргүй хэмжигдэхүүнтэй байх магадлал CI2-хуваарилалт, x-ээс бага буюу тэнцүү утгыг авна, P(X<= x}).

Анхаарна уу: Учир нь CH2 тархалтонцгой тохиолдол, дараа нь томъёо =ГАММА.DIST(x;n/2;2;ҮНЭН)эерэг бүхэл тооны хувьд n нь томьёотой ижил үр дүнг буцаана =CHI2.DIST(x;n; ҮНЭН)эсвэл =1-CHI2.DIST.PH(x;n) . Мөн томъёо =ГАММА.DIST(x;n/2;2;ХУДАЛ)томъёотой ижил үр дүнг буцаана =CHI2.DIST(x;n; ХУДАЛ), өөрөөр хэлбэл магадлалын нягт CH2 тархалт.

HI2.DIST.PH() функц буцаана түгээлтийн функц, илүү нарийвчлалтай, баруун талын магадлал, i.e. P(X > x). Тэгш эрх үнэн гэдэг нь ойлгомжтой
=CHI2.DIST.PH(x;n)+CHI2.DIST(x;n;ҮНЭН)=1
учир нь эхний гишүүн P(X > x), хоёр дахь P(X) магадлалыг тооцдог<= x}.

MS EXCEL 2010-аас өмнө EXCEL нь зөвхөн CHIDIST() функцтэй байсан бөгөөд энэ нь баруун талын магадлалыг тооцоолох боломжийг олгодог. P(X > x). MS EXCEL 2010-ын шинэ XI2.DIST() ба XI2.DIST.PH() функцүүдийн боломжууд нь энэ функцийн боломжуудыг хамардаг. CH2DIST() функцийг MS EXCEL 2010-д нийцтэй байлгах үүднээс үлдээсэн.

CHI2.DIST() нь буцах цорын ганц функц юм chi2 тархалтын магадлалын нягт(гурав дахь аргумент нь ХУДАЛ байх ёстой). Үлдсэн функцууд буцаж ирдэг хуримтлагдсан хуваарилалтын функц, өөрөөр хэлбэл Санамсаргүй хэмжигдэхүүн нь заасан мужаас утгыг авах магадлал: P(X<= x}.

Дээрх MS EXCEL функцуудыг -д өгөв.

Жишээ

Х санамсаргүй хэмжигдэхүүн нь өгөгдсөнөөс бага буюу тэнцүү утгыг авах магадлалыг олъё x: P(X<= x}. Это можно сделать несколькими функциями:

CHI2.DIST(x; n; ҮНЭН)
=1-HI2.DIST.PH(x; n)
=1-CHI2DIST(x; n)

CHI2.DIST.PH() функц нь P(X)-ийг олохын тулд баруун гар талын магадлал гэж нэрлэгддэг P(X > x) магадлалыг буцаана.<= x}, необходимо вычесть ее результат от 1.

Санамсаргүй хэмжигдэхүүн X нь өгөгдсөн хэмжээнээс их утгыг авах магадлалыг олъё x: P(X > x). Үүнийг хэд хэдэн функцээр хийж болно:

1-CHI2.DIST(x; n; ҮНЭН)
=HI2.DIST.PH(x; n)
=CHI2DIST(x; n)

Чи2 тархалтын урвуу функц

Тооцоолохдоо урвуу функцийг ашигладаг альфа-, i.e. утгыг тооцоолох xөгөгдсөн магадлалын хувьд альфа, ба X P(X) илэрхийллийг хангах ёстой<= x}=альфа.

CH2.INV() функцийг тооцоолоход ашигладаг хэвийн тархалтын дисперсийн итгэлцлийн интервалууд.

CHI2.OBR.PH() функцийг тооцоолоход ашигладаг, i.e. хэрэв ач холбогдлын түвшинг функцийн аргумент болгон зааж өгсөн бол жишээ нь 0.05 бол функц нь P(X>x)=0.05 байх x санамсаргүй хэмжигдэхүүнийг буцаана. Харьцуулбал: XI2.INR() функц нь P(X) санамсаргүй хувьсагчийн утгыг буцаана.<=x}=0,05.

MS EXCEL 2007 болон түүнээс өмнөх хувилбаруудад HI2.OBR.PH()-ийн оронд HI2OBR() функцийг ашигласан.

Дээрх функцуудыг сольж болно, учир нь Дараах томъёо нь ижил үр дүнг буцаана:
=CHI.OBR(альфа;н)
=HI2.OBR.PH(1-альфа;n)
=CHI2INV(1- альфа;n)

Тооцооллын зарим жишээг энд оруулав Функцийн хуудас дээрх жишээ файл.

MS EXCEL нь CH2 тархалтыг ашиглан ажилладаг

Орос, англи хэлний функцийн нэрсийн хоорондын захидал харилцааг доор харуулав.
CH2.DIST.PH() - Англи хэл. нэр CHISQ.DIST.RT, i.e. CHI-Squared ТАРХАЛТ Баруун сүүл, баруун сүүлт Chi-square(d) тархалт
CH2.OBR() - Англи хэл. нэр CHISQ.INV, i.e. CHI-квадрат тархалт урвуу
CH2.PH.OBR() - Англи хэл. нэр CHISQ.INV.RT, i.e. CHI-Squared тархалт урвуу баруун сүүл
CH2DIST() - Англи хэл. нэр CHIDIST, CHISQ.DIST.RT-тэй тэнцэх функц
CH2OBR() - Англи. нэр CHIINV, i.e. CHI-квадрат тархалт урвуу

Түгээлтийн параметрийн тооцоо

Учир нь ихэвчлэн CH2 тархалтматематикийн статистикийн зорилгоор ашигладаг (тооцоолол итгэлцлийн интервал, таамаглалыг шалгах гэх мэт),Бодит утгын загварыг бий болгоход бараг хэзээ ч байдаггүй, тэгвэл энэ хуваарилалтын хувьд тархалтын параметрүүдийг тооцоолох хэлэлцүүлгийг энд хийдэггүй.

CI2 тархалтыг хэвийн тархалтаар ойртуулах

Эрх чөлөөний зэрэглэлийн тоо n>30 хуваарилалт X 2сайн ойролцоолсон хэвийн тархалтхамт дундаж утгаμ=n ба хэлбэлзэл σ=2*n (харна уу жишээ хуудас файл Ойролцоо).

). Туршиж буй таамаглалын тодорхой томъёолол нь тохиолдол бүрт өөр өөр байх болно.

Энэ нийтлэлд би \(\chi^2\) шалгуур хэрхэн ажилладаг талаар дархлаа судлалын (таамаглал) жишээг ашиглан тайлбарлах болно. Бие махбодид тохирох эсрэгбиемүүдийг нэвтрүүлэх үед бичил биетний өвчний хөгжлийг дарах үр нөлөөг тодорхойлох туршилт хийсэн гэж төсөөлөөд үз дээ. Туршилтанд нийт 111 хулгана оролцсон бөгөөд бид 57, 54 амьтан гэсэн хоёр бүлэгт хуваасан. Эхний бүлгийн хулгануудад эмгэг төрүүлэгч бактерийн тарилга хийж, дараа нь эдгээр бактерийн эсрэг эсрэгбие агуулсан цусны ийлдсийг нэвтрүүлсэн. Хоёр дахь бүлгийн амьтад хяналтын үүрэг гүйцэтгэдэг байсан - тэд зөвхөн бактерийн тарилга хийсэн. Хэсэг хугацааны дараа инкубацийн дараа 38 хулгана үхэж, 73 нь амьд үлджээ. Амь үрэгдэгсдийн 13 нь нэгдүгээр бүлэгт, 25 нь хоёрдугаар бүлэгт (хяналтын) багтсан байна. Энэ туршилтаар шалгасан тэг таамаглалыг дараах байдлаар томъёолж болно: эсрэгбие бүхий ийлдэс хэрэглэх нь хулганын амьд үлдэхэд ямар ч нөлөө үзүүлэхгүй. Өөрөөр хэлбэл, хулгана амьд үлдэхэд ажиглагдсан ялгаа (эхний бүлэгт 77.2%, хоёрдугаар бүлэгт 53.7%) нь бүрэн санамсаргүй бөгөөд эсрэгбиеийн нөлөөлөлтэй холбоогүй гэдгийг бид баталж байна.

Туршилтаар олж авсан өгөгдлийг хүснэгт хэлбэрээр танилцуулж болно.

Нийт

Бактери + ийлдэс

Зөвхөн бактери

Нийт

Үзүүлсэнтэй адил хүснэгтүүдийг гэнэтийн хүснэгт гэж нэрлэдэг. Харж буй жишээн дээр хүснэгт нь 2х2 хэмжээтэй байна: хоёр ангиллын объектууд ("Бактери + ийлдэс" ба "Зөвхөн бактери") байдаг бөгөөд эдгээрийг хоёр шалгуурын дагуу ("Үхсэн" ба "Амьд үлдсэн") шалгадаг. Энэ бол гэнэтийн хүснэгтийн хамгийн энгийн тохиолдол юм: мэдээжийн хэрэг, судалж буй ангиудын тоо болон онцлог шинж чанаруудын тоо хоёулаа илүү байж болно.

Дээр дурдсан тэг таамаглалыг шалгахын тулд эсрэгбие нь хулганын амьд үлдэхэд ямар ч нөлөө үзүүлэхгүй бол нөхцөл байдал ямар байхыг мэдэх хэрэгтэй. Өөрөөр хэлбэл та тооцоолох хэрэгтэй хүлээгдэж буй давтамжуудэрсдэлийн хүснэгтийн харгалзах нүднүүдийн хувьд. Үүнийг хэрхэн хийх вэ? Туршилтанд нийт 38 хулгана үхсэн нь нийт амьтдын 34.2% болж байна. Хэрэв эсрэгбие нь хулганын амьд үлдэхэд нөлөөлөхгүй бол туршилтын хоёр бүлэгт нас баралтын ижил хувь, тухайлбал 34.2% байх ёстой. 57 ба 54-ийн 34.2% нь хэд болохыг тооцоолоход 19.5 ба 18.5 болно. Эдгээр нь манай туршилтын бүлгүүдийн хүлээгдэж буй нас баралтын түвшин юм. Хүлээгдэж буй амьд үлдэх түвшинг ижил төстэй байдлаар тооцдог: нийт 73 хулгана буюу нийт тооны 65.8% амьд үлдсэн тул хүлээгдэж буй амьд үлдэх хувь 37.5 ба 35.5 байна. Хүлээгдэж буй давтамжтай шинэ гэнэтийн хүснэгтийг үүсгэцгээе:

Үхсэн

Амьд үлдсэн хүмүүс

Нийт

Бактери + ийлдэс

Зөвхөн бактери

Нийт

Бидний харж байгаагаар хүлээгдэж буй давтамжууд нь ажиглагдсан давтамжаас эрс ялгаатай, жишээлбэл. эсрэгбие хэрэглэх нь эмгэг төрүүлэгчийн халдвар авсан хулганыг амьд үлдэхэд нөлөөлдөг бололтой. Бид энэ сэтгэгдлийг Пирсоны тохирох байдлын тест \(\chi^2\) ашиглан тоолж болно:

\[\chi^2 = \sum_()\frac((f_o - f_e)^2)(f_e),\]


Энд \(f_o\) ба \(f_e\) нь ажиглагдсан болон хүлээгдэж буй давтамжууд юм. Дүгнэлт нь хүснэгтийн бүх нүднүүдэд хийгддэг. Тиймээс бид авч үзэж буй жишээн дээр байна

\[\chi^2 = (13 – 19,5)^2/19,5 + (44 – 37,5)^2/37,5 + (25 – 18,5)^2/18,5 + (29 – 35,5)^2/35,5 = \]

Үр дүнд нь \(\chi^2\) утга нь тэг таамаглалыг үгүйсгэх хангалттай том уу? Энэ асуултад хариулахын тулд шалгуур үзүүлэлтийн харгалзах чухал утгыг олох шаардлагатай. \(\chi^2\)-ийн эрх чөлөөний зэрэглэлийн тоог \(df = (R - 1)(C - 1)\ гэж тооцдог бөгөөд \(R\) ба \(C\) нь тоо юм. хүснэгтийн нэгдэл дэх мөр, баганын . Манай тохиолдолд \(df = (2 -1)(2 - 1) = 1\). Эрх чөлөөний зэрэглэлийн тоог мэдсэнээр бид qchisq() стандарт R функцийг ашиглан эгзэгтэй утгыг \(\chi^2\) хялбархан олох боломжтой боллоо:


Тиймээс нэг зэрэглэлийн эрх чөлөөний хувьд зөвхөн 5% тохиолдолд \(\chi^2\) шалгуурын утга 3.841-ээс давсан байна. Бидний олж авсан 6.79 утга нь энэ чухал утгаас үлэмж давсан бөгөөд энэ нь эсрэгбиемийг нэвтрүүлэх, халдвар авсан хулганыг амьд үлдэх хоёрын хооронд ямар ч холбоо байхгүй гэсэн хоосон таамаглалыг үгүйсгэх эрхийг бидэнд олгож байна. Энэ таамаглалыг няцааснаар бид 5%-иас бага магадлалтайгаар алдаа гаргах эрсдэлтэй.

\(\chi^2\) шалгуурын дээрх томьёо нь 2х2 хэмжээтэй гэнэтийн хүснэгттэй ажиллахдаа бага зэрэг хөөрөгдсөн утгыг өгдөг гэдгийг тэмдэглэх нь зүйтэй. Шалтгаан нь \(\chi^2\) шалгуурын тархалт өөрөө тасралтгүй үргэлжилдэг бол хоёртын шинж чанаруудын давтамж ("нас барсан" / "амьд үлдсэн") нь салангид байдаг. Үүнтэй холбогдуулан шалгуур үзүүлэлтийг тооцоолохдоо энэ гэж нэрлэгддэг зүйлийг нэвтрүүлэх нь заншилтай байдаг тасралтгүй байдлын залруулга, эсвэл Йейтсийн нэмэлт өөрчлөлт :

\[\chi^2_Y = \sum_()\frac((|f_o - f_e| - 0.5)^2)(f_e).\]

"Ятестай хийсэн Хи квадратын тест" тасралтгүй байдлын залруулгын өгөгдөл: хулгана X квадрат = 5.7923, df = 1, p-утга = 0.0161


Бидний харж байгаагаар R нь Yates тасралтгүй байдлын засварыг автоматаар ашигладаг ( Pearson's Chi-squared test with Yates" тасралтгүй байдлын засвар). Програмаар тооцоолсон \(\chi^2\)-ийн утга 5.79213. Бид эсрэгбиеийн нөлөө байхгүй гэсэн тэг таамаглалыг 1% -иас дээш магадлалаар (p-утга = 0.0161) буруу байх эрсдэлтэй үгүйсгэж чадна.

Биологийн үзэгдлийн тоон судалгаа нь эдгээр үзэгдлийг тайлбарлах таамаглалыг бий болгохыг шаарддаг. Тодорхой таамаглалыг шалгахын тулд хэд хэдэн тусгай туршилтуудыг хийж, олж авсан бодит өгөгдлийг энэ таамаглалын дагуу онолын хувьд хүлээгдэж буй өгөгдөлтэй харьцуулдаг. Хэрэв давхцал байгаа бол энэ нь таамаглалыг хүлээн зөвшөөрөх хангалттай шалтгаан байж болно. Хэрэв туршилтын өгөгдөл нь онолын хувьд хүлээгдэж буй өгөгдөлтэй таарахгүй бол санал болгож буй таамаглал зөв эсэхэд ихээхэн эргэлзээ төрж байна.

Бодит өгөгдөл нь хүлээгдэж буй (таамаглал)-тай хэр зэрэг нийцэж байгааг хи-квадрат тестээр хэмждэг.

- дахь шинж чанарын бодит ажиглагдсан утга би-тухайн бүлгийн онолын хувьд хүлээгдэж буй тоо буюу тэмдэг (заагч); к-өгөгдлийн бүлгүүдийн тоо.

Уг шалгуурыг 1900 онд К.Пирсон дэвшүүлсэн бөгөөд заримдаа Пирсоны шалгуур гэж нэрлэдэг.

Даалгавар.Эцэг эхийн нэгээс хүчин зүйл, нөгөөгөөсөө хүчин зүйл удамшсан 164 хүүхдийн 46 нь хүчин зүйлтэй, 50 нь хүчин зүйлтэй, 68 нь хоёулаа хүчин зүйлтэй байжээ. Хүлээгдэж буй давтамжийг бүлгүүдийн хооронд 1:2:1 харьцаагаар тооцоолж, Пирсон тестийг ашиглан эмпирик өгөгдлүүдийн тохирлын зэргийг тодорхойлно.

Шийдэл:Ажиглагдсан давтамжийн харьцаа 46:68:50, онолын хувьд хүлээгдэж буй 41:82:41 байна.

Ач холбогдолын түвшинг 0.05 болгоё. Эрх чөлөөний зэрэгтэй тэнцүү тооны ач холбогдлын хувьд Пирсоны шалгуурын хүснэгтийн утга 5.99 байна. Тиймээс туршилтын өгөгдөл нь онолын өгөгдөлтэй тохирч байгаа тухай таамаглалыг хүлээн зөвшөөрч болно, учир нь .

Хи-квадрат тестийг тооцоолохдоо бид тархалтын зайлшгүй хэвийн байдлын нөхцлийг тогтоохоо больсон гэдгийг анхаарна уу. Хи-квадрат тестийг бидний таамаглалаар сонгох боломжтой аливаа тархалтад ашиглаж болно. Энэ шалгуурын зарим нийтлэг шинж чанар байдаг.

Пирсон тестийн өөр нэг хэрэглээ бол эмпирик тархалтыг Гауссын хэвийн тархалттай харьцуулах явдал юм. Түүнчлэн тархалтын хэвийн байдлыг шалгах шалгуурын бүлэг гэж ангилж болно. Цорын ганц хязгаарлалт бол энэ шалгуурыг ашиглах үед нийт утгын тоо (сонголт) хангалттай их (дор хаяж 40) байх ёстой бөгөөд тусдаа ангиллын утгын тоо (интервал) дор хаяж 5 байх ёстой. Үгүй бол зэргэлдээх интервалуудыг нэгтгэх хэрэгтэй. Тархалтын хэвийн байдлыг шалгахдаа эрх чөлөөний зэрэглэлийн тоог дараах байдлаар тооцоолно.

    1. Фишерийн шалгуур.

Энэхүү параметрийн тест нь хэвийн тархсан популяцийн дисперсүүд тэнцүү гэсэн тэг таамаглалыг шалгахад хэрэглэгддэг.

Эсвэл.

Түүврийн хэмжээ багатай тохиолдолд Оюутны тестийг ашиглах нь зөвхөн хэлбэлзэл нь тэнцүү байх тохиолдолд зөв байж болно. Тиймээс түүврийн хэрэгслийн тэгш байдлыг шалгахын өмнө Оюутны t тестийг ашигласан эсэхийг баталгаажуулах шаардлагатай.

Хаана Н 1 , Н 2 дээжийн хэмжээ, 1 , 2 эдгээр дээжийн эрх чөлөөний зэрэглэлийн тоо.

Хүснэгтийг ашиглахдаа илүү их тархалттай дээжийн эрх чөлөөний зэрэглэлийн тоог хүснэгтийн баганын дугаараар, бага тархалтыг хүснэгтийн мөрийн дугаараар сонгохыг анхаарах хэрэгтэй.

Ач холбогдлын түвшний  хувьд бид хүснэгтийн утгыг математик статистикийн хүснэгтүүдээс олно. Хэрэв сонгосон ач холбогдлын түвшинд дисперсийн тэгш байдлын таамаглал няцаагдана.

Жишээ.Кобальтын туулайн биеийн жинд үзүүлэх нөлөөг судалсан. Туршилтыг туршилтын болон хяналтын гэсэн хоёр бүлэг амьтад дээр хийсэн. Туршилтанд хамрагдсан хүмүүс кобальт хлоридын усан уусмал хэлбэрээр хоолны нэмэлт тэжээл авсан. Туршилтын явцад жингийн өсөлт нь граммаар:

Хяналт

Энэ нийтлэлд бид тэмдгүүдийн хоорондын хамаарлыг судлах талаар ярих болно, эсвэл таны хүссэнээр санамсаргүй утгууд, хувьсагчид. Ялангуяа бид Chi-square тестийг ашиглан шинж чанаруудын хоорондын хамаарлын хэмжүүрийг хэрхэн нэвтрүүлж, корреляцийн коэффициенттэй харьцуулах талаар авч үзэх болно.

Энэ яагаад хэрэгтэй байж болох вэ? Жишээлбэл, зээлийн оноог тогтоохдоо аль онцлог шинж чанар нь зорилтот хувьсагчаас илүү хамааралтай болохыг ойлгохын тулд үйлчлүүлэгчийн төлбөрийн чадваргүй болох магадлалыг тодорхойлох. Эсвэл миний хувьд арилжааны роботыг програмчлахад ямар үзүүлэлтүүдийг ашиглах шаардлагатайг ойлгоорой.

Би C# хэлийг өгөгдөлд дүн шинжилгээ хийхэд ашигладаг гэдгээ тусад нь тэмдэглэхийг хүсч байна. Магадгүй энэ бүгдийг R эсвэл Python дээр аль хэдийн хэрэгжүүлсэн байх, гэхдээ надад C# ашиглах нь сэдвийг нарийвчлан ойлгох боломжийг олгодог, үүнээс гадна энэ бол миний дуртай програмчлалын хэл юм.

Санамсаргүй тоо үүсгэгч ашиглан Excel дээр дөрвөн багана үүсгээд маш энгийн жишээнээс эхэлцгээе.
X=RANDBETWEEN(-100,100)
Ю =X*10+20
З =X*X
Т=RANDBETWEEN(-100,100)

Таны харж байгаагаар хувьсагч Юшугаман хамааралтай X; хувьсагч З-аас квадрат хамааралтай X; хувьсагч XТэгээд Тбие даасан. Бид хараат байдлын хэмжүүрээ корреляцийн коэффициенттэй харьцуулах тул би энэ сонголтыг зориуд хийсэн. Мэдэгдэж байгаагаар хоёр санамсаргүй хэмжигдэхүүн хоорондын "хамгийн хэцүү" хамаарал нь шугаман байвал модуль 1-тэй тэнцүү байна. Хоёр бие даасан санамсаргүй хэмжигдэхүүний хооронд тэг хамаарал байдаг, гэхдээ корреляцийн коэффициентийг тэгтэй тэнцүүлэх нь бие даасан байдлыг илэрхийлдэггүй. Дараа нь бид хувьсагчийн жишээн дээр үүнийг харах болно XТэгээд З.

Файлыг data.csv болгон хадгалаад эхний тооцооллыг эхлүүлнэ үү. Эхлээд утгуудын хоорондын хамаарлын коэффициентийг тооцоолъё. Би нийтлэлд код оруулаагүй; энэ нь миний github дээр байгаа. Бид бүх боломжит хосуудын хамаарлыг олж авдаг:

Энэ нь шугаман хамааралтай болохыг харж болно XТэгээд Юкорреляцийн коэффициент нь 1. Харин XТэгээд ЗЭнэ нь 0.01-тэй тэнцүү, гэхдээ бид хамаарлыг тодорхой зааж өгсөн З=X*X. Бидэнд донтолтыг илүү "мэдрэх" арга хэмжээ хэрэгтэй байгаа нь тодорхой. Гэхдээ Хи-квадрат тест рүү шилжихээсээ өмнө гэнэтийн матриц гэж юу болохыг харцгаая.

Гэнэтийн матрицыг бий болгохын тулд бид хувьсах утгуудын хүрээг интервалд хуваадаг (эсвэл ангилдаг). Ийм хуваах олон арга байдаг, гэхдээ бүх нийтийн арга байдаггүй. Тэдгээрийн зарим нь ижил тооны хувьсагчийг агуулсан байхаар интервалд хуваагддаг бол зарим нь ижил урттай интервалд хуваагддаг. Би хувьдаа эдгээр аргуудыг хослуулах дуртай. Би энэ аргыг ашиглахаар шийдсэн: Би хувьсагчаас шалны оноог хасдаг. хүлээлт, дараа нь үр дүнг стандарт хазайлтын тооцоонд хуваана. Өөрөөр хэлбэл би санамсаргүй хэмжигдэхүүнийг голлож, хэвийн болгодог. Үр дүнгийн утгыг коэффициентээр үржүүлнэ (энэ жишээнд энэ нь 1 байна), дараа нь бүх зүйлийг хамгийн ойрын бүхэл тоо хүртэл дугуйруулна. Гаралт нь анги танигч болох int төрлийн хувьсагч юм.

Тиймээс тэмдгүүдээ авч үзье XТэгээд З, бид дээр дурдсан аргаар ангилж, дараа нь бид анги тус бүрийн харагдах тоо, магадлал, хос шинж чанаруудын харагдах магадлалыг тооцоолно.

Энэ бол тоо хэмжээний матриц юм. Энд мөрүүдэд - хувьсагчийн ангиудын тохиолдлын тоо X, баганад - хувьсагчийн ангиудын тохиолдлын тоо З, эсүүдэд - хос ангийн нэгэн зэрэг харагдах тоо. Жишээлбэл, 0-р анги хувьсагчийн хувьд 865 удаа гарсан X, хувьсагчийн хувьд 823 удаа Зба хос (0,0) хэзээ ч байгаагүй. Бүх утгыг 3000-д хуваах замаар магадлал руу шилжье (ажиглалтын нийт тоо):

Бид онцлог шинж чанаруудыг ангилсны дараа олж авсан болзошгүй байдлын матрицыг олж авсан. Одоо шалгуурын талаар бодох цаг болжээ. Тодорхойлолтоор эдгээр санамсаргүй хэмжигдэхүүнүүдийн үүсгэсэн сигма алгебрууд бие даасан байвал санамсаргүй хэмжигдэхүүн нь бие даасан байна. Сигма алгебруудын бие даасан байдал нь тэдгээрээс үйл явдлын хос бие даасан байдлыг илэрхийлдэг. Хоёр үйл явдлыг бие даасан гэж нэрлэдэг, хэрэв тэдгээрийн хамтарсан тохиолдох магадлал нь эдгээр үйл явдлын магадлалын үржвэртэй тэнцүү бол. Pij = Pi*Pj. Бид шалгуурыг бий болгохын тулд энэ томъёог ашиглах болно.

Үгүй таамаглал: ангилсан шинж тэмдэг XТэгээд Збие даасан. Үүнтэй тэнцэхүйц: болзошгүй матрицын тархалтыг зөвхөн хувьсагчдын ангиллын (мөр ба баганын магадлал) үүсэх магадлалаар тодорхойлно. Эсвэл энэ: матрицын нүдийг мөр, баганын харгалзах магадлалын үржвэрээр олно. Бид шийдвэрийн дүрмийг бий болгохдоо тэг таамаглалын энэхүү томъёоллыг ашиглана: хооронд ихээхэн зөрүүтэй байна ПижТэгээд Pi*Pjтэг таамаглалыг үгүйсгэх үндэс болно.

Хувьсагчид 0 анги гарч ирэх магадлалыг үзье X. Бидний нийт nангиуд XТэгээд мангиуд З. Матрицын тархалтыг тогтоохын тулд бид эдгээрийг мэдэх хэрэгтэй болж байна nТэгээд ммагадлал. Гэхдээ үнэн хэрэгтээ бид мэдэж байгаа бол n-1магадлал X, дараа нь 1-ээс бусдын нийлбэрийг хасаж сүүлийнхийг олно. Тиймээс болзошгүй матрицын тархалтыг олохын тулд бид мэдэх хэрэгтэй l=(n-1)+(m-1)үнэт зүйлс. Эсвэл бидэнд байна уу л- хэмжээст параметрийн орон зай, вектор нь бидний хүссэн тархалтыг өгдөг. Хи квадратын статистик нь дараах байдлаар харагдах болно.

ба Фишерийн теоремын дагуу хи-квадрат тархалттай байна n*m-l-1=(n-1)(m-1)эрх чөлөөний зэрэг.

Ач холбогдолын түвшинг 0.95 (эсвэл I төрлийн алдаа гарах магадлал 0.05) болгоё. Өгөгдсөн ач холбогдлын түвшин ба чөлөөт байдлын зэрэгт зориулсан Чи квадратын тархалтын квантилыг жишээнээс олцгооё. (n-1)(m-1)=4*3=12: 21.02606982. Хувьсагчдын хувьд Хи квадратын статистик XТэгээд З 4088.006631-тэй тэнцэнэ. Тусгаар тогтнолын таамаглалыг хүлээн зөвшөөрөхгүй байгаа нь ойлгомжтой. Хи-квадрат статистикийн босго утгатай харьцааг авч үзэх нь тохиромжтой - энэ тохиолдолд энэ нь тэнцүү байна. Chi2Coeff=194.4256186. Хэрэв энэ харьцаа 1-ээс бага бол бие даасан байдлын таамаглалыг хүлээн зөвшөөрнө, хэрэв энэ нь илүү бол энэ нь тийм биш юм. Бүх хос шинж чанаруудын хувьд энэ харьцааг олъё:

Энд Хүчин зүйл 1Тэгээд Хүчин зүйл 2- онцлог нэрс
src_cnt1Тэгээд src_cnt2- анхны шинж чанаруудын өвөрмөц утгуудын тоо
mod_cnt1Тэгээд mod_cnt2- ангилсны дараа өвөрмөц шинж чанарын утгуудын тоо
чи2- Хи квадратын статистик
chi2max- 0.95-ийн ач холбогдлын түвшний хи-квадрат статистикийн босго утга.
chi2Coeff- Хи квадратын статистикийг босго утгад харьцуулсан харьцаа
корр- корреляцийн коэффициент

Үүнээс харахад тэд бие даасан байдаг (chi2coeff<1) получились следующие пары признаков - (Х,Т), (Ү,Т) ба ( З, Т), хувьсагчаас хойш логик юм Тсанамсаргүй байдлаар үүсгэгддэг. Хувьсагч XТэгээд Зхамааралтай, гэхдээ шугаман хамааралтайгаас бага XТэгээд Ю, энэ нь бас логик юм.

Би эдгээр үзүүлэлтүүдийг тооцдог хэрэгслийн кодыг data.csv файл байгаа github дээр нийтэлсэн. Тус хэрэгсэл нь csv файлыг оролт болгон авч, бүх хос баганын хоорондын хамаарлыг тооцдог: PtProject.Dependency.exe data.csv

    Хуваарилалт. Пирсоны тархалт Магадлалын нягт ... Википедиа

    хи квадрат тархалт- хи квадратын хуваарилалт - Сэдвийн мэдээллийн хамгаалалт EN хи квадратын тархалт ... Техникийн орчуулагчийн гарын авлага

    хи квадрат тархалт- 0-ээс утга бүхий тасралтгүй санамсаргүй хэмжигдэхүүний магадлалын тархалт, нягтыг нь томъёогоор өгөгдсөн бөгөөд параметрийн хувьд 0 =1,2,...; - гамма функц. Жишээ. 1) Бие даасан нормчлогдсон санамсаргүй квадратуудын нийлбэр... ... Социологийн статистикийн толь бичиг

    CHI-SQUARE QUARE (chi2)- Санамсаргүй хэмжигдэхүүний тархалт chi2 Хэрэв дундаж (болон дисперс q2) хэвийн тархалтаас 1 хэмжээтэй санамсаргүй түүврийг авбал chi2 = (X1 u)2/q2, энд X нь түүврийн хэмжээ. санамсаргүй байдлаар N хүртэл нэмэгдсэн, дараа нь chi2 = … …

    Магадлалын нягт ... Википедиа

    - (Snedecor тархалт) Магадлалын нягт ... Википедиа

    Фишерийн тархалт Магадлалын нягт Тархалтын функц ... бүхий тооны параметрүүд Википедиа

    Магадлалын онол, математик статистикийн үндсэн ойлголтуудын нэг. Орчин үеийн хандлагаар, математикийн хувьд судалж буй санамсаргүй үзэгдлийн загварт харгалзах магадлалын орон зай (W, S, P) авах ба W нь анхан шатны... Математик нэвтэрхий толь бичиг

    Гамма тархалт Магадлалын нягт Тархалтын функц Үзүүлэлтүүд ... Википедиа

    ХУВААРАЛТ F- Санамсаргүй хэмжигдэхүүний магадлалын онолын тархалт F. Хэрэв N хэмжээтэй санамсаргүй түүврийг энгийн хүн амын тооноос хамааралгүйгээр авбал тус бүр нь чөлөөт байдлын зэрэгтэй хи-квадрат тархалтыг үүсгэнэ = N. Ийм хоёрын харьцаа... ... Сэтгэл судлалын тайлбар толь бичиг

Номууд

  • Бодлого дахь магадлалын онол, математик статистик: 360 гаруй бодлого, дасгал, Борзых Д.. Санал болгож буй гарын авлагад янз бүрийн түвшний нарийн төвөгтэй асуудлууд багтсан болно. Гэсэн хэдий ч гол анхаарал нь дунд зэргийн нарийн төвөгтэй ажлуудад чиглэгддэг. Энэ нь оюутнуудыг...
  • Бодлого дахь магадлалын онол, математик статистик. 360 гаруй даалгавар, дасгал, Borzykh D.A.. Санал болгож буй гарын авлагад янз бүрийн түвшний нарийн төвөгтэй даалгаврууд багтсан болно. Гэсэн хэдий ч гол анхаарал нь дунд зэргийн нарийн төвөгтэй ажлуудад чиглэгддэг. Энэ нь оюутнуудыг...


Үүнтэй төстэй нийтлэлүүд

2024 parki48.ru. Бид хүрээ байшин барьж байна. Ландшафтын дизайн. Барилга. Суурь.