Ma'lumotlar: ma'lumotlarni tahlil qilish va statistik dasturlar

Ba'zi turdagi ma'lumotlar ko'pincha foiz darajalari sifatida ko'rsatiladi. Agar ballarning 95 foizi bu balldan kam yoki unga teng bo'lsa, test ballari 95 foizlik foiz darajasida qayd etilishi mumkin. Xuddi shunday yangi tug'ilgan chaqaloqning vazni haqida ham xabar berish mumkin.

Chizma pozitsiyasi g'oyasi, asosan, o'xshashdir, faqat an'anaviy chizilgan pozitsiyalar foizlar emas, balki nisbatlar sifatida ko'rsatiladi. Ularning nomi ehtimollik chizig'ida ishlatilishidan kelib chiqadi. Tartibga solingan qiymatlar majmuasini hisobga olgan holda, har bir qiymatda yoki undan pastda qiymatlar ulushini qayd etuvchi nisbatlar belgilanadi. Bu nisbatlar to'g'ridan -to'g'ri yoki bilvosita uchastkalarda ishlatilishi mumkin. Masalan, taqsimotning normalligini tekshirish uchun kvantil -kvantil uchastkasi kuzatilgan kvantillarni kvantil bilan bir xil o'lchamdagi oddiy taqsimot namunasi uchun taqqoslaydi, bu kvantil (teskari taqsimot) funktsiyasini normal holatdagi normal holat uchun baholash orqali aniqlanadi.

Rasmiy ma'lumotlarda bu hisob-kitoblar uchun hech qanday funktsiya yo'q, lekin foydalanuvchi tomonidan aniqlangan funktsiyalarni topish mumkin. Biroq, ular boshqa funktsiyalar natijalari yordamida osongina bajarilishi mumkin. O'rnatilgan funktsiyalarning etishmasligining bitta afzalligi bor: u bir nechta boshqacha qoidalar mavjudligini hisobga olib, foydalanuvchilarni aniq tartibni tanlashga majbur qiladi.

Ampirik birikmaning taqsimlanishini hisoblash, hech bo'lmaganda Stata -da amalga oshirilganidek, bog'liq, lekin juda boshqacha muammo. Rasmiy ma'lumotlarda bu hisob -kitoblaryordamida amalga oshirilishi mumkin . cumulko'rsatuv ekranga tomonidan eng yaqin yig'indidan ehtimollar bir uchastkasi (tayyorgarlik uchun qaratilgan bo'lishi ykuzatilgan qadriyatlar versus o'qi) ( xo'qi). Bog'langan qiymatlar paydo bo'lganda, to'plang(yana, sukut bo'yicha) har bir bog'langan qiymatga bir xil kumulyativ ehtimollikni tayinlamaydi. Bu grafik maqsadlar uchun ahamiyatsiz va hatto maqsadga muvofiqdir: vertikal chiziqli segmentlar rishtalar to'g'risidagi konvensiya qanday bo'lishidan qat'i nazar ishlab chiqariladi va ko'rinadigan syujet belgilaridan foydalanilganda, tez -tez rishtalar chastotasi haqida taassurot olish foydali bo'ladi. Bundan farqli o'laroq, bu savollar asosan bir xil qiymatlar bir xil nisbat yoki foizga berilishi kerak bo'lgan muammolarga qaratilgan. Aytgancha, 2003 yil 17 -iyulda kommutatsiyagastandart variantni bekor qilish va bu shart bajarilishini ta'minlash uchun tengvariant qo'shildi .

2. Reytinglar

Reytingni belgilash uchun biz o'zgaruvchini (masalan, avtomatik ma'lumotlar to'plamidan mpg) saralashimizva keyin kuzatuv raqamidan foydalanishimiz mumkin:

Stata bo'yicha saralash eng past qiymatlarni birinchi o'ringa qo'ygani uchun, eng past qiymat - aniqrog'i, ma'lumotlar to'plamining yuqori qismiga ajratilgan qiymat - 1 -darajali bo'ladi. Bu ham eng keng tarqalgan statistik konventsiya. Biroq, bu kod juda oddiy, chunki hech qanday bog'langan qiymatlar va etishmayotgan qiymatlar bo'lmagan eng oddiy vaziyatdan tashqari. Masalan, mpgma'lumotlariga qarab , biz saralashdan keyingi dastlabki ikkita qiymat 12 ga bog'langanligini ko'ramiz, lekin ularga generator tomonidan 1 va 2 -darajalar berilgan.yuqoridagi buyruq. Statistikada, har bir bog'langan qiymatning har biriga bir xil darajani berish odatiy holdir, shuning uchun darajalar yig'indisi saqlanib qoladi. 1 va 2 -o'rinlar saqlanib qolishi uchun 3 -sonini beradi, shuning uchun ularning har biri 1,5 -o'rinni egallaydi. Biz hammamiz bog'lab qadriyatlar o'zimizni bu qayta belgilash amalga oshirish mumkin, lekin u sığdırılmıştır deb qulay egen"s qator ()funktsiyasi:

Bu funktsiya, shuningdek, yo'qolgan qiymatlarni ham nazorat qiladi. Saralashbuyrug'i shunday deb, ma'lumotlar oxirigacha har qanday (raqamli) etishmayotgan qadriyatlar tartiblashtirish edi gen qator = _nkeyin ularga yuqori mansablarga tayinlash edi. Odatda, etishmayotgan qiymat yo'qolgan darajaga to'g'ri kelishi kerak va buni egen, rank () bajaradi. Agar siz rishtalarni qayta tayinlash qanday amalga oshirilishini bilmoqchi bo'lsangiz, o'zingiz yoqtirgan matn muharriri bilan kodning ichiga qarang ( Stataningo'z diditiyaxshi bo'lar edi). Yozish

kod sizning tizimingizda qaerda ekanligini aytib beradi. ( _Gprefiksi barcha egenfunktsiyalariga xosdir.)

egenning rank ()funktsiyasi tasniflovchi o'zgaruvchi tomonidan aniqlangan har bir guruh uchun alohida darajalarni hisoblash imkonini beradi:

Haqida qo'shimcha ma'lumot olish uchun bysortyoki umuman, kuni bilan, onlayn qo'llanma usuli yoki ortiq Öğreticiye (2002) ga qarang.

Yana bir nuance teskari tartibda joylasha oladi. Biz eng yuqori (va eng yaxshi) qiymatini belgilash uchun afzal Aytaylik MPG1. Buning uchun unvonidan, biz haqiqatni foydalanish egen, qator ()(belgilangan ifodasi oziqlanadi expyilda egenko'proq murakkab bo'lishi mumkin, sintaktik diagrammasi) o'zgarmaydigan nomdan ko'ra, shuning uchun biz (ayniqsa) inkor qilingan qiymatlar bilan ishlashimiz mumkin. Shunday qilib,

biz uchun qatorlarni o'zgartiradi. Nihoyat, darajalarni tark etishdan oldin, egen, rank ()da maydon, trekva o'ziga xosvariantlar mavjudligiga e'tibor bering. Tracknomini yugurishkabi musobaqalar taklif qildi, unda nafaqat eng kam vaqt yutadi, balki birinchi bo'lib bog'langan ikkita qiymat ham birinchi bo'lib teng bo'ladi. (Sportda, hech kim 1,5 -daraja haqida gapirmaydi.) Xuddi shunday, nom maydoninisakrash yoki otish kabi eng katta masofa yoki balandlik g'olib bo'lgan voqealar taklif qilgan va rishtalar uchun tegishli qoidalar mavjud. noyobo'zboshimchalik bilan bir nechta bog'langan qiymatlarning har biriga o'ziga xos unvonlarni beradi va bu erda unchalik tashvishlanmaydi.

3. Pozitsiyalar tuzish

Keling, masalaning mohiyatiga kelsak, qulaylik uchun buyurtma qilingan etti qiymatning namunasini ko'rib chiqing:

Ko'rinib turibdiki, tartibga solingan qiymatlarning o'rtasi bo'lgan median 1.61803 ni tashkil qiladi va unga taqsimotning yarmida bo'lgan qiymat sifatida 50%lik foizli daraja yoki 0,5 ta chizmachilik pozitsiyasi berilishi kerak. Bu qiymatlarga mos keladigan darajalar aniq, birinchi navbatda eng past statistik (va statistik) konventsiya bilan, 1 2 3 4 5 6 7. iva ndan foydalanib , qiymatlar sonini va sonini ko'rsatish uchun i/ nning bir qismi hosil bo'ladi. 1/7 bu namunadagi pozitsiyalarni tuzish. 7/7, lekin o'rtacha qiymat uchun 4/7. Shuningdek, bunday qoida dumlarga nosimmetrik munosabatda bo'lmaydi. Xuddi shunday, ( i- 1)/ nqoidasi0/7 chizish pozitsiyalarini ishlab chiqaradi. 6/7, lekin o'rtacha qiymat uchun 3/7, va dumlarni ham nosimmetrik tarzda davolashmaydi. Bu erda aniq bir kelishuv - bu farqni ( i- 0.5)/ n ga bo'lish. Bu qoidani statistikaga qo'shgan hissasi, ayniqsa korrelyatsiya va regressiya haqidagi ishlari bilan mashhur britaniyalik olim Frensis Galton (1822–1911) qo'llagan. 1914 yilda uni statistik gidrologiyaga amerikalik qurilish muhandisi Allen Xezen (1869–1930) kiritdi, aks holda u shahar suv ta'minoti ishi bilan mashhur edi.

Chizma pozitsiyalarini tanlash bo'yicha turli adabiyotlar mavjud bo'lib, ularning yordamida har xil parametrlarni baholashda yoki ma'lum taqsimotlarda berilgan gipotezalarni sinab ko'rishga e'tibor qaratiladi. Odatda tavsiya etilgan lavozimlarning ko'pchiligi oila a'zolari ( i- a)/( n- 2 a+ 1). Shunday qilib, a= 0,5 Xazen qoidasini beradi; a= 0.375 - Gunnar Blom (1920–2003) tomonidan tavsiya etilgan qoida, ayniqsa, odatdagi ehtimollik uchastkalari uchun; a= 0 - Waloddi Weibull (1887–1979) va Emil J. Gumbel (1891–1966) tomonidan ilgari surilgan qoida. Tanlov hajmi g'alati bo'lganda, bu qoidalarning barchasi bitta o'rtacha qiymat uchun 0,5 ni beradi. Xazen qoidasi rasmiy Stata buyruqlar kvantiliga kiritilgan, Vaybull -Gumbel qoidasirasmiy Stata buyruqlariga kiritilgan pnorm, qnorm, pchiva qchi. Ko'proq muhokama qilish uchun Barnett (1975), Kunneyn (1978) yoki Xarter (1984) ga qarang.

Masalan, elektron jadval dasturida tez -tez ishlatiladigan boshqa qoida - a= 1, ( i- 1)/( n- 1). Namuna kattaligi g'alati bo'lganda va dumlarni nosimmetrik tarzda ko'rib chiqsa, bu bitta o'rtacha qiymat uchun 0,5 beradi. Biroq, namunaviy ekstremallar uchun 0 va 1 natijalari hamma uchun mos kelmasligi mumkin. Xususan, haqiqiy chiziqli kvant funktsiyalarining normal va boshqa taqsimotlari uchun ehtimollik uchastkalari uchun (teskari taqsimlash funktsiyalari) 0 va 1 argumentlari uchun cheklangan qiymatlar yo'q; Shunday qilib, namuna ekstremallari bu qoida bilan aniqlanmaydi. Amalda bu qoida ko'pincha bilan ishlatiladi izaloqalarni uchun qoida.

4. Statada natijalarni olish

Aniq qoidani tanlash, yuqorida aytilgan imkoniyatlardan yoki boshqalarga yoqishi mumkin, bu foydalanuvchining ixtiyorida. Namuna hajmini hisoblashgina qoladi, n. Oddiy holatda, bu faqat o'rnatilgan _N. Yo'qotilgan qadriyatlarni to'g'ri hisobga olish va bir nechta guruhlar bilan ishlashni bilish uchun, egen, count () qiymatlarini (o'tkazib yubormaslik) hisoblashuchun ishlatish yaxshiroqdir .

Faraz qilaylik, biz Xazenning varnameuchun pozitsiyalarini chizishnixohlaymiz :

Yoki biz Weibullningrejalarini tuzishni xohlaymiz, lekin byvartomonidan alohida :

Yoki biz elektron jadval uslubidagi foiz reytingini xohlaymiz:

Bu misollarning barchasi 0 dan 1 gacha bo'lgan natijalarni beradi; foizlar uchun 100 ga ko'paytiring.

Xulosa qilib aytganda, juda ko'p mayda -chuydatafsilotlar haqida o'ylash kerak bo'lsa -da, bu hisoblar ikkita egenfunktsiyasini qo'llangunga qadar kamayadi.