Z-ball nima? P qiymati nima?

Ko'pgina statistik testlar nol gipotezani aniqlashdan boshlanadi. Naqshlarni tahlil qilish vositalari uchun bo'sh gipoteza (Analyzing Patterns toolet va Mapping Clusters toolet) - bu to'liq fazoviy tasodifiylik (CSR), bu xususiyatlarning o'zi yoki ushbu xususiyatlar bilan bog'liq bo'lgan qiymatlar. Naqshlarni tahlil qilish vositalari tomonidan qaytarilgan z-skorlar va p-qiymatlar bu nol gipotezani rad etish mumkinmi yoki yo'qligini aytib beradi. Ko'pincha siz naqshlarni tahlil qilish vositalaridan birini ishlatasiz, chunki z-ball va p-qiymatlari sizning bo'sh gipotezani rad etishingiz mumkinligini bildiradi, chunki bu tasodifiy naqsh emas, balki sizning xususiyatlaringiz (yoki bog'liq qiymatlar) sizning xususiyatlaringiz bilan) statistik jihatdan muhim klaster yoki dispersiyani namoyish eting. Landshaftda (yoki sizning fazoviy ma'lumotlaringizda) klasterlash kabi fazoviy tuzilmani ko'rganingizda,siz ishdagi ba'zi bir asosiy fazoviy jarayonlarning dalillarini ko'rmoqdasiz va geograf yoki GIS tahlilchisi sifatida bu sizni ko'pincha qiziqtiradi.

P qiymati bu ehtimollik. Naqshlarni tahlil qilish vositalari uchun kuzatilgan fazoviy naqshning tasodifiy jarayon tomonidan yaratilganligi ehtimoli. Agar p qiymati juda kichik bo'lsa, demak, kuzatilgan fazoviy naqsh tasodifiy jarayonlarning natijasi bo'lishi ehtimoldan yiroq (kichik ehtimollik), shuning uchun siz bo'sh gipotezani rad etishingiz mumkin. Siz shunday deb so'rashingiz mumkin: Qancha kichkina kichkina? Yaxshi savol. Quyidagi jadval va munozaraga qarang.

Z-skorlari - standart og'ishlar. Agar, masalan, vosita z-balini +2,5 ga qaytarsa, natijada 2,5 standart og'ish bo'ladi deb aytasiz. Ikkala z va ham p qiymatlari quyida ko'rsatilgan standart taqsimot bilan bog'liq.

Juda kichik yoki juda past (manfiy) z-ballar, juda kichik p qiymatlari bilan bog'liq bo'lib, normal taqsimotning dumlarida uchraydi. Xususiyat naqshini tahlil qilish vositasini ishga tushirganingizda va u kichik p-qiymatlarni va juda yuqori yoki juda past z-ballni hosil qilganda, bu sizning bo'sh gipotezangiz (CSR) tomonidan taqdim etilgan nazariy tasodifiy naqshni aks ettirishi ehtimoldan yiroq emas. ).

Nol gipotezani rad etish uchun siz noto'g'ri ekanligingiz uchun (nol gipotezani soxta rad etganingiz uchun) qabul qilishga tayyor bo'lgan xavf darajasi to'g'risida sub'ektiv qaror chiqarishingiz kerak. Binobarin, fazoviy statistikani ishga tushirishdan oldin siz ishonch darajasini tanlaysiz. Odatda ishonch darajasi 90, 95 yoki 99 foizni tashkil qiladi. 99 foizga bo'lgan ishonch darajasi bu holatda eng konservativ bo'ladi, bu sizning tasodifiy tasodifan yaratilganligi ehtimoli haqiqatan ham kichik bo'lmasa (1 foizdan kam bo'lsa), siz bo'sh gipotezani rad etishni istamasligingizni ko'rsatmoqda.

Ishonch darajasi

Quyidagi jadvalda har xil ishonchlilik darajalari uchun tuzatilmagan p-qiymatlari va z-ballari ko'rsatilgan.

False Discovery Rate (FDR) ni qo'llashga imkon beradigan vositalar tuzatilgan muhim p-qiymatlaridan foydalanadi. Ushbu muhim qiymatlar quyidagi jadvalda ko'rsatilganidan bir xil yoki kichikroq bo'ladi.

Bir misolni ko'rib chiqing. 95 foiz ishonchlilik darajasidan foydalanganda z-skorining muhim ko'rsatkichlari -1,96 va +1,96 standart og'ishlarga teng. 95 foiz ishonch darajasi bilan bog'liq tuzatilmagan p qiymati 0,05 ga teng. Agar sizning z-skoringiz -1.96 dan +1.96 gacha bo'lsa, sizning tuzatilmagan p-qiymati 0.05 dan katta bo'ladi va siz o'zingizning bo'sh gipotezangizni rad eta olmaysiz, chunki namoyish etilgan naqsh tasodifiy fazoviy jarayonlarning natijasi bo'lishi mumkin. Agar z-skor shu diapazondan tashqariga tushib qolsa (masalan, -2,5 yoki +5,4 standart og'ishlar), kuzatilgan fazoviy naqsh tasodifiy tasodif natijasi bo'lishi uchun juda g'ayrioddiy bo'lishi mumkin va p-qiymati buni aks ettirish uchun kichik bo'ladi. Bunday holda, bo'sh gipotezani rad etish va sizning ma'lumotlaringizdagi statistik jihatdan muhim fazoviy tuzilishga nima sabab bo'lishi mumkinligini aniqlash bilan davom etish mumkin.

Bu erda asosiy g'oya shundan iboratki, normal taqsimotning o'rtasidagi qiymatlar (masalan, 0,19 yoki -1,2 kabi z ballari) kutilgan natijani anglatadi. Agar z-balning mutlaq qiymati katta bo'lsa va ehtimolliklar kichik bo'lsa (normal taqsimotning dumlarida), ammo siz g'ayrioddiy va umuman juda qiziqarli narsani ko'rmoqdasiz. Masalan, "Hot Spot Analysis" vositasi uchun odatiy bo'lmagan holatlar statistik ahamiyatga ega issiq nuqta yoki statistik jihatdan muhim sovuq joy degan ma'noni anglatadi.

FDRni tuzatish

Mahalliy kosmik naqshlarni tahlil qilish vositalari, shu jumladan Hot Spot Analysis va klaster va Outlier Analysis Anselin Local Moran's I (I) ixtiyoriy mantiqiy parametrini taqdim etaman. Soxta Discovery Rate (FDR) tuzatish. Ushbu parametr tekshirilganda, False Discovery Rate (FDR) protsedurasi potentsial ravishda yuqoridagi jadvalda ko'rsatilgan p qiymatining muhim chegaralarini kamaytiradi va bir nechta sinov va fazoviy bog'liqlikni hisobga oladi. Agar mavjud bo'lsa, qisqartirish - bu kirish funktsiyalari soni va ishlatiladigan mahalla tuzilishining funktsiyasi.

Mahalliy kosmik naqshlarni tahlil qilish vositalari har bir xususiyatni qo'shni xususiyatlar doirasida ko'rib chiqish va mahalliy naqsh (maqsadli xususiyat va uning qo'shnilari) global naqshdan (ma'lumotlar bazasidagi barcha xususiyatlar) statistik jihatdan farq qiladimi yoki yo'qligini aniqlash orqali ishlaydi. Har bir xususiyat bilan bog'liq bo'lgan z-skor va p-qiymat natijalari farqning statistik jihatdan ahamiyatli yoki yo'qligini aniqlaydi. Ushbu analitik yondashuv bir nechta sinov va qaramlik bilan bog'liq muammolarni keltirib chiqaradi.

Ko'p test- 95 foiz ishonchlilik darajasi bilan, ehtimollik nazariyasi bizga fazoviy naqsh tuzilishi mumkin (masalan, klaster yoki tarqoq) paydo bo'lishi va statistik jihatdan ahamiyatli p qiymati bilan bog'liq bo'lishi mumkin bo'lgan 100 ta imkoniyatdan 5 tasi mavjudligini aytadi, aslida naqshni targ'ib qiluvchi asosiy fazoviy jarayonlar haqiqatan ham tasodifiydir. Ushbu holatlarda biz CSR nol gipotezasini yolg'on rad etamiz, chunki statistik ahamiyatga ega p-qiymatlari. Mahalliy fazoviy statistika ma'lumotlar to'plamidagi har bir xususiyat uchun sinov o'tkazishini o'ylamaguningizcha, 100dan beshta imkoniyat juda konservativ bo'lib ko'rinadi. Masalan, 10000 funktsiya mavjud bo'lsa, biz 500 ta noto'g'ri natijalarni kutishimiz mumkin.

Mekansal qaramlik- bir-biriga yaqin xususiyatlar o'xshashlikka moyil; ko'pincha kosmik ma'lumotlar ushbu turdagi qaramlikni namoyon qiladi. Shunga qaramay, ko'plab statistik testlar mustaqil bo'lish xususiyatlarini talab qiladi. Mahalliy naqshlarni tahlil qilish vositalari uchun bu fazoviy bog'liqlik sun'iy ravishda statistik ahamiyatga ega bo'lishi mumkin. Mahalliy naqshlarni tahlil qilish vositalari bilan fazoviy bog'liqlik kuchayadi, chunki har bir xususiyat qo'shnilarining kontekstida baholanadi va bir-biriga yaqin bo'lgan xususiyatlar bir xil qo'shnilarning ko'pini baham ko'rishi mumkin. Bu bir-birining ustiga chiqib ketish fazoviy bog'liqlikni ta'kidlaydi.

Ham sinov, ham fazoviy bog'liqlik masalalarini hal qilish uchun kamida uchta yondashuv mavjud. Birinchi yondashuv, ma'lumotlar to'plamidagi har bir xususiyat uchun bajarilgan individual test alohida ko'rib chiqilishi kerakligi sababli muammoni e'tiborsiz qoldirishdir. Biroq, ushbu yondashuv bilan ba'zi statistik ahamiyatga ega natijalar noto'g'ri bo'lishi ehtimoldan yiroq (aslida asosiy fazoviy jarayonlar tasodifiy bo'lganda statistik ahamiyatga ega bo'lib ko'rinadi). Ikkinchi yondashuv - Bonferroni yoki Sidak tuzatishlari singari klassik ko'p sinov usulini qo'llash. Biroq, bu usullar odatda juda konservativdir. Ular yolg'on pozitivlar sonini sezilarli darajada kamaytirsa-da, ular mavjud bo'lganda statistik ahamiyatga ega natijalarni topishni sog'inishadi.Uchinchi yondashuv - bu aniq ishonchlilik darajasi uchun noto'g'ri pozitsiyalar sonini taxmin qiladigan va muhim p-qiymatini moslashtiradigan FDR tuzatishni qo'llash. Ushbu usul uchun statistik jihatdan ahamiyatli p qiymatlari eng kichik (eng kuchli) dan eng katta (eng zaif) darajasiga qarab ajratiladi va noto'g'ri ijobiy bahoga asoslanib, eng kuchsizlari ushbu ro'yxatdan o'chiriladi. Statistik jihatdan ahamiyatli p-qiymatlarga ega bo'lgan qolgan xususiyatlar chiqish xususiyati sinfidagi Gi_Bin yoki COType maydonlari tomonidan aniqlanadi. Ampirik testlar mukammal bo'lmasa-da, ushbu usul har bir mahalliy testni yakka tartibda o'tkazilishini taxmin qilishdan yoki an'anaviy, o'ta konservativ, bir nechta test usullarini qo'llashdan ko'ra ancha yaxshi ishlashini ko'rsatadi. Qo'shimcha resurslar bo'limi FDRni tuzatish haqida ko'proq ma'lumot beradi.

Null gipoteza va fazoviy statistika

Kosmik statistika asboblar qutisidagi bir nechta statistik ma'lumotlar, fazoviy avtokorrelyatsiya (Global Moran's I), Klaster va Outlier Analysis (Anselin Local Moran's I) va Hot Spot Analysis (Getis-Ord Gi *) kabi fazoviy naqsh tahlil metodlari. Xulosa chiqarish statistikasi ehtimollar nazariyasiga asoslangan. Ehtimollar - bu tasodif o'lchovidir va barcha statistik testlar (to'g'ridan-to'g'ri yoki bilvosita) asosida sizning tahlil natijalarida tasodifning rolini baholaydigan ehtimollik hisob-kitoblari yotadi. Odatda, an'anaviy (natspatial) statistika bilan siz tasodifiy tanlov bilan ishlaysiz va sizning namunaviy ma'lumotlaringiz umuman aholining yaxshi vakili (aks etuvchi) bo'lish ehtimolini aniqlashga harakat qilasiz. Misol tariqasida siz "Mening exit-poll natijalarim (A nomzodini ko'rsatib, B nomzodini yengib chiqishini ko'rsatish) saylovlarning yakuniy natijalarini aks ettirish ehtimoli qanday? "Ammo ko'pgina fazoviy statistikalar, jumladan yuqorida sanab o'tilgan fazoviy avtokorrelyatsiya turlarining statistikasi bilan siz ko'pincha o'rganish hududi uchun mavjud bo'lgan barcha ma'lumotlar (barcha jinoyatlar, barcha kasalliklar, har bir ro'yxatga olish bloki uchun atributlar va boshqalar) bilan ishlash. Agar siz butun aholi uchun statistik hisob-kitob qilsangiz, endi sizda umuman taxmin yo'q. Binobarin, ehtimollik yoki ehtimolliklar haqida gapirishning ma'nosi yo'q.Shunday qilib, qanday qilib tez-tez o'rganilayotgan hududdagi barcha ma'lumotlarga qo'llaniladigan mekansal naqsh tahlil qilish vositalari qonuniy ravishda hisobot berishi mumkin? Javob, ular buni postulat orqali qilishlari mumkin, ma'lumotlar aslida nol gipoteza orqaliba'zi katta aholining bir qismi. Buni batafsilroq ko'rib chiqing.

Tasodifiy tasodifiy gipoteza- Kerakli hollarda, fazoviy statistika asboblar qutisidagi randomizatsiyalashgan nol gipotezani statistik ahamiyatni sinash uchun asos sifatida ishlatishadi. Tasodifiy tasodifiy gipoteza sizning ma'lumotlaringizning kuzatilgan kosmik namunasi ko'plab (n!) Mumkin bo'lgan kosmik kelishuvlardan birini ifodalaydi deb ta'kidlaydi. Agar siz o'zingizning ma'lumotlaringizning qiymatlarini olib, ularni o'zingiz o'rganadigan joyning xususiyatlariga tashlab qo'ysangiz, siz ushbu qiymatlarning bitta fazoviy joylashuviga ega bo'lar edingiz. (Ma'lumotlaringizni yig'ish va o'zboshimchalik bilan tashlab yuborish tasodifiy fazoviy jarayonning namunasi ekanligini unutmang). Tasodifiy tasodifiy gipotezada aytilishicha, agar siz ushbu mashqni (ularni ko'tarib, uloqtirib tashlasangiz) cheksiz marta bajarishingiz mumkin bo'lsa, aksariyat hollarda siz kuzatilgan naqshdan (sizning haqiqiy ma'lumotlaringizdan) farq qilmaydigan naqsh hosil qilasiz.Vaqti-vaqti bilan siz barcha eng yuqori qadriyatlarni o'qigan joyingizning bir burchagiga tashlab qo'yishingiz mumkin, ammo buni amalga oshirish ehtimoli unchalik katta emas. Tasodifiy tasodifiy gipotezada sizning ma'lumotlaringiz to'liq fazoviy tasodifiy variantlarning ko'p sonli va ko'p sonli variantlaridan biri ekanligi ta'kidlangan. Ma'lumotlar qiymatlari aniqlangan; faqat ularning fazoviy joylashuvi turlicha bo'lishi mumkin.

Normalizatsiya bo'yicha bo'sh gipoteza- Joylashgan statistika vositalar qutisi uchun amalga oshirilmagan umumiy alternativ null gipoteza - bu normallashtirish null gipotezasi. Normallashtirilgan nol gipoteza, kuzatilgan qiymatlar biron bir tasodifiy tanlab olish jarayonida cheksiz katta, normal taqsimlangan qiymatlar populyatsiyasidan kelib chiqadi degan postulat. Boshqa namunada siz har xil qiymatlarni olasiz, ammo baribir siz ushbu qiymatlar kattaroq taqsimotning vakili bo'lishini kutasiz. Normallashtirish nol gipotezasi, qiymatlar qiymatlarning mumkin bo'lgan namunalaridan birini ifodalaydi. Agar siz kuzatilgan ma'lumotlaringizni normal egri chiziqqa moslashtira olsangiz va ushbu taqsimotdagi qiymatlarni tasodifiy tanlasangiz, o'zingizning ish joyingizga borsangiz,ko'pincha siz naqsh va taqsimotdan (sizning haqiqiy ma'lumotlaringiz) sezilarli darajada farq qilmaydigan qiymatlarni taqsimlash va taqsimlashni ishlab chiqarasiz. Normallashtirish nol gipotezasi sizning ma'lumotlaringiz va ularning joylashuvi juda ko'p, juda ko'p va mumkin bo'lgan tasodifiy namunalardan biri ekanligini ta'kidlaydi. Ma'lumotlarning qiymatlari ham, ularning fazoviy joylashuvi ham aniqlanmagan. Normalizatsiya null gipotezasi faqat ma'lumotlar qiymatlari normal taqsimlanganda mos keladi.