Logistik regressiya: foydalanish va noto'g'ri ishlatish

(logitni o'zgartirish, modelni noto'g'ri ko'rsatish, bosqichma -bosqich tanlash, qo'lda orqaga tanlash, o'zaro ta'sir)

Statistika kurslari, ayniqsa biologlar uchun, formulalar = tushunish va statistikani o'rgatishni nazarda tutadi, lekin bu protseduralar nimani nazarda tutganini va bu taxminlar asossiz bo'lsa, ularning natijalari qanday adashishini e'tiborsiz qoldiradi. Aytgancha, natijada noto'g'ri foydalanish bashorat qilinadi.

Qo'llash va noto'g'ri ishlatish

Logistik regressiya (aniqroq ikkilik logistik regressiya), javob o'zgaruvchisi ikkilik javob o'zgaruvchisidir, chunki bu erda odamlar ikki sinfdan biriga (masalan, yuqtirgan yoki yuqmagan) tayinlangan. Ijobiy javob (yuqtirgan deb ayting) Y = 1 (muvaffaqiyat sifatida tanilgan) va Y = 0 (muvaffaqiyatsiz deb nomlanuvchi) bilan salbiy javob (infektsiyalanmagan) deb kodlanadi. Bu javob o'zgaruvchisining o'rtacha qiymati p muvaffaqiyat ehtimoliga teng (ya'ni zararlangan ulush). Keyin biz regressiya tipidagi modelni quramiz, masalan, p = a + b 1 X 1 + b 2 X 2, bu erda X 1 va X 2 - tushuntirish o'zgaruvchilari, b 1 va b 2 - koeffitsientlar.

Biroq, javob o'zgaruvchisi chegaralangan (p 0 dan 1 gacha bo'lishi kerak) va odatdagi javob chiziqli emas, sigmasimon. Shuning uchun bizga mos keladigan o'zgartirish kerak. Bunga logit transformatsiyasi yordamida erishiladi. P logitigi chegaralanmagan va munosabatlar chiziqli. Keyin regressiya koeffitsientlari eksponent shaklida (exp b yoki eb) ko'proq talqin qilinadigan log koeffitsientlarini ifodalaydi, bu esa ularni koeffitsientlarga aylantiradi. Logistik regressiya - bu eng mos keladigan modelning parametrlari eng kichik kvadratlardan ko'ra maksimal ehtimollik yordamida baholangan umumlashtirilgan chiziqli model. Logistik regressiyaning umumiy ahamiyati ehtimollik nisbati testi bilan baholanadi.

Adabiyotlarni ko'rib chiqishimiz shuni ko'rsatadiki, modelni noto'g'ri ko'rsatish umumiy muammo hisoblanadi. Noma'lum indekslar va/yoki proksi o'zgaruvchilar emas, balki ma'lumotli tushuntirish o'zgaruvchilari kerak. Ba'zida odam o'zgarmaydigan tasodifan tanlanganmi degan savol tug'iladi. Yovvoyi tabiatning bo'rilar haqidagi bir qog'ozida, yil aniq faktor bo'lgan, lekin u bo'rilarning harakatining o'zgaruvchan naqshlari koridorda bir yil ichida paydo bo'lishini kutgan bo'lsada, logistika regressiya modeliga kiritilmagan. Boshqa maqolalarda, hamma narsa bosqichma -bosqich regressiya dasturiga kiritilishidan oldin transformatsiyalar va/yoki polinom funktsiyalari ko'rib chiqiladimi, degan savol tug'iladi.

Afsuski, model yaratish jarayonida bosqichma-bosqich tanlash usullari ustunlik qilmoqda. O'zgaruvchilar/modellarni tanlash mezoni sifatida Akaike ma'lumotlari kriteriyasi ishlatilganda, bu unchalik xavfli bo'lmasa -da, bosqichma -bosqich tanlash tavsiya etilmaydi. Yaxshiyamki, hozirda ko'plab ekologlar qo'lda tanlangan tanlovdan foydalanadilar, bu soxta o'zgaruvchilar va noto'g'ri ishonch oralig'ini kiritishdan ancha yaxshi himoya. Ammo, ehtimol, adabiyotdagi eng katta muammo shundaki, kamdan -kam hollarda modellarning umumiy mosligini ko'rsatuvchi belgilar mavjud, hatto modelni tekshirishga urinish ham yo'q. AIC qiymatlari (mutlaq) modelga moslik haqida hech qanday ma'lumot bermaydi va o'zgaruvchanlikning 0,6% yoki 6% yoki 60% ni tushuntirib beradimi yoki yo'qligini ko'rsatishi kerak.

Ayrim mualliflar, ehtimol, stavkalarni nazorat qilish dizaynidan olingan bo'lsa, ehtimollik koeffitsientlarini talqin qilishda muammolarga duch kelmoqdalar. Hali ham mualliflar bizni "kamdan -kam uchraydigan kasallik haqidagi taxminlar bajariladi", deb ishontirib aytishadi. Agar, masalan, nazorat butun aholi guruhidan tanlangan bo'lsa va agar kogort qat'iy emas, dinamik bo'lsa, unda odds nisbati to'g'ridan -to'g'ri kasallikning kam yoki tez-tez uchrashini baholaydi . Muhimi, biz barqaror aholini qabul qila olamizmi, lekin bu taxmin haqida kamdan -kam muhokama qilinadi.

Ko'p turdagi regressiyaning boshqa turlarida bo'lgani kabi, o'zaro ta'sir hali ham muammo tug'diradi. Umumiy yondashuv faqat "oddiy asosiy effektlar" modellaridan foydalanishdir - boshqacha qilib aytganda, o'zgaruvchilar o'rtasida hech qanday o'zaro ta'sir yo'qdek tuyuladi va shunga qarab tahlil qilinadi. Agar etarli replikatsiya bo'lsa, har doim o'zaro ta'sirni tekshirish kerak va agar kerak bo'lsa, uni modelga kiritish kerak.

Statistlar nima deyishadi

Nemes va boshqalar. (2009), logistika regressiyasi kichik va o'rtacha namuna kattaligidagi koeffitsientlarni yuqori baholaydi, agar bir nechta kichik tadqiqotlar natijalari birlashtirilsa, jiddiy muammo. Abreu va boshqalar. (2008) hayot sifatini o'rganishda tartibli logistik regressiya modellarining qo'llanilishini ko'rib chiqdi. Bieshevel va boshqalar. (2008) diagnostik tadqiqotlarda politomoz logistik regressiya tahlilidan keng foydalanishni yoqlaydi. King (2003) logistik regressiya modellarini ishga tushirishning bosqichma -bosqich usullariga alternativalarni ko'rib chiqadi. Mittlbck & Schemper (2002), (1996) logistik regressiya uchun tushuntirilgan o'zgaruvchanlik choralarini ko'rib chiqdi.

Steyerberg va boshqalar. (1999) logistik regressiya tahlilida kichik ma'lumotlar majmuasida bosqichma -bosqich tanlashda noaniqlik xavfini ta'kidlaydi. Bender & Grouven (1998) proportsional bo'lmagan koeffitsientli tartibli ma'lumotlar uchun ikkilik logistik regressiya modellaridan foydalanishni muhokama qiladi. Bender & Grouven (1996) tibbiy tadqiqot adabiyotlarida logistik regressiya modellarining yomon taqdimotini ko'rib chiqadi. Begg & Lagakos (1990) logistika regressiyasida modelni noto'g'ri ko'rsatishning oqibatlari haqida hisobot berdi.

Nagy va boshqalar. (2010), daraxtlarga asoslangan usullarni logistika regressiyasiga alternativa sifatida, otlarning beshik chaqishi xavf omillarini aniqlashda ko'rib chiqadi. Rezerford va boshqalar. (2007) er qoplamining murakkab o'zgarishlarini modellashtirish uchun tartibli va ko'p bosqichli logistika regressiyasini qo'llashni namoyish etadi. Boyce (2006) va Pearce & Boyce (2006) resurslarni tanlash funktsiyalarini baholash uchun ishni boshqarish dizaynidan foydalanishni ko'rib chiqadilar. Keating & Cherry (2004) logistik regressiyadan foydalanishni muhokama qiladi. Trexler & Travis (1993) ekologlar uchun "noan'anaviy" regressiya tahliliga umumiy nuqtai nazaridan logistika regresionidan foydalanishni oldindan ko'rib chiqadi.

Vikipediyada logistika regressiyasi (juda yaxshi emas) bo'limi, shuningdek, politomoz logistik regressiya, buyurtma qilingan logit modeli va Hosmer-Lemeshow testi bo'yicha qisqa bo'limlar mavjud.

Laura Tompson (2009) Agrestining logistik regressiyaning keng qamrovli ma'lumotlarini tasniflash bo'yicha kitobiga hamrohlik qilish uchun batafsil R (va S-PLUS) qo'llanmasini taqdim etadi. Alan Agresti o'z kitobidagi misollar uchun ma'lumotlarni (va SAS kodini) taqdim etadi. R -dagi logistik regressiya uchun boshqa manbalarga Kristofer Manning, Brayan Everitt va Torsten Xotorn va Rossiter va Loza kiradi. Newsom (2010a) (2010b) logistika regressiyasiga aniq va qisqa kirish beradi. Shuningdek qarang: Pia Veldt Larsen. UCLA Academic Technology Services "soxta R-kvadratchalar nima?" Gerard E. Dallal logistika regressiyasi va Puasson regressiyasi bo'limlariga ega.