Testi hi-katror

Një test hi-katror (gjithashtu shënuar χ2 ) është një test hipoteze statistikore që përdoret në analizën e tabelave të kontigjencës kur madhësitë e kampionit janë të mëdha. Në terma më të thjeshtë, ky test përdoret kryesisht për të hetuar nëse dy variabla diskretë ( dy dimensione të tabelës së kontigjencës ) janë të pavarura në ndikimin e statistikave të testit (vlerat brenda tabelës ). [1] Testi është i vlefshëm kur statistika e testit ndjek shpërndarjen hi-katror sipas hipotezës zero, veçanërisht testi hi-katror i Pirsonit dhe variantet e tij. Testi hi-katror i Pirsonit përdoret për të përcaktuar nëse ka një ndryshim domethënës statistikor midis frekuencave të pritura dhe frekuencave të vëzhguara në një ose më shumë kategori të një tabele kontigjence . Për tabelat e kontigjencës me madhësi më të vogla të mostrës, përdoret një test i saktë i Fisheri .
Në zbatime standarde të këtij testi, vëzhgimet klasifikohen në klasa ndërsjellazi përjashtuese. Nëse hipoteza zero pohon se nuk ka dallime midis klasave në popullatë është e vërtetë, statistika e testit e llogaritur nga vëzhgimet ndjek një shpërndarje frekuence χ . Qëllimi i testit është të vlerësojë se sa kishin që të merreshin frekuencat e vëzhguara duke supozuar se hipoteza zero është e vërtetë.
Statistikat e testimit që ndjekin një shpërndarje χ2 ndodhin kur vëzhgimet janë të pavarura. Ekzistojnë gjithashtu teste χ2 për testimin e hipotezës zero të pavarësisë së një çifti variablash të rastësishëm bazuar në vëzhgimet e çifteve.
Testi hi-katror i Pearson
Në vitin 1900, Pearson botoi një paper [2] mbi testin χ2 i cili konsiderohet të jetë një nga themelet e statistikës moderne. [3] Në këtë letër, Pearson hetoi një test të mirësisë së përshtatjes.
Supozoni se n vëzhgime në një zgjedhje të rastësishme nga një popullatë klasifikohen në k klasa ndërsjellazi përjashtuese me numrat përkatës të vëzhguar Stampa:Mvar (për Stampa:Mvar ), dhe një hipotezë zero jep probabilitetin Stampa:Mvar që një vëzhgim të bjerë në klasën e i të. Pra kemi numrat e pritur Stampa:Mvar i për të gjithë i, ku
Pearson propozoi që, në rast se hipoteza zero është e saktë, pasi n → ∞ shpërndarja kufizuese e madhësisë së dhënë më poshtë është shpërndarja χ2 .
Shembull testi hi-katror për të dhënat kategorike
Supozoni se ekziston një qytet me 1,000,000 banorë të ndarë në katër lagje: A, B, C dhe D . Është marrë një kampion rastësor prej 650 banorësh të qytetit dhe profesioni i tyre është regjistruar si "jakë e bardhë", "jakë blu" ose "pa jakë" . Hipoteza zero është se lagja e banimit të çdo personi është e pavarur nga tipi i profesionit të personit. Të dhënat janë tabeluar si:
| Stampa:Math | Stampa:Math | Stampa:Math | Stampa:Math | Totali | |
|---|---|---|---|---|---|
| Jakë e bardhë | 90 | 60 | 104 | 95 | 349 |
| Jakë blu | 30 | 50 | 51 | 20 | 151 |
| Pa kollare | 30 | 40 | 45 | 35 | 150 |
| Totali | 150 | 150 | 200 | 150 | 650 |
Le të marrim kampionin që jeton në lagjen A, 150, për të vlerësuar se çfarë përqindje e të gjithë 1,000,000 banorëve jetojnë në lagjen A.Në mënyrë të ngjashme marrim vlerësuar se çfarë përqindje e 1,000,000 janë punëtorë me jakë të bardhë. Me supozimin e pavarësisë nën hipotezë ne duhet të "presim" që numri i punëtorëve jakë të bardhë në lagjen A të jetë
Pastaj në atë "qelizë" të tabelës, kemi
Shuma e këtyre madhësive mbi të gjitha qelizat është statistika e provës; në këtë rast, . Sipas hipotezës zero, kjo shumë ka afërsisht një shpërndarje hi-katrore, numri i shkallëve të lirisë së së cilës është
Nëse statistika e testit është çuditërisht e madhe sipas asaj shpërndarjeje në katror, atëherë hipoteza zero e pavarësisë refuzohet.
Aplikimet
Në kriptanalizë, testi hi-katror përdoret për të krahasuar shpërndarjen e tekstit të thjeshtë dhe (ndoshta) të deshifruar. Vlera më e ulët e testit do të thotë se deshifrimi ishte i suksesshëm me probabilitet të lartë. [4] [5] Kjo metodë mund të përgjithësohet për zgjidhjen e problemeve moderne kriptografike. [6]
Në bioinformatikë, testi hi-katror përdoret për të krahasuar shpërndarjen e disa vetive të gjeneve (p.sh., përmbajtja gjenomike, shkalla e mutacionit, grupimi i rrjetit të ndërveprimit, etj.) që u përkasin kategorive të ndryshme (p.sh., gjenet e sëmundjes, gjenet thelbësore, gjenet në një kromozom të caktuar etj. ). [7] [8]