Logistik regressiya 3: oddiy logistik regressiya

Ikki mavzuni yaxshi tushunish ushbu xabar uchun zaruriy shart:

Bizga logistika regressi nima uchun kerak

Logistik regressiya muvaffaqiyat ehtimolini bashorat qilmoqda. Muvaffaqiyat va muvaffaqiyatsizlik 1 ga qarshi 0 ga teng, HA va YO'Qga qarshi yoki Haqiqiy va FALSE kabi shakllarda bo'lishi mumkin. Muvaffaqiyat har doim faqat ikkita (ikkilik) qiymatda yoki muvaffaqiyat yoki muvaffaqiyatsizlik bilan o'lchanadigan bo'lsa, muvaffaqiyat ehtimoli har qanday qiymatni 0 dan 1 gacha olishi mumkin.

Ehtimolligi

  • \ (0,5 \) 50% muvaffaqiyatga erishish imkoniyatini anglatadi,
  • \ (>0,5 \) muvaffaqiyatsizlikka, keyin esa muvaffaqiyatsizlikka erishish imkoniyatini anglatadi
  • \ (

Ushbu chegara 50% dan foydalanib, bashorat qilinuvchilarning asl (yoki umuman yangi) qiymatlarini muvaffaqiyat yoki muvaffaqiyatsizlikka ikkita natijaga ajratish uchun bashorat qilingan ehtimolliklardan foydalanish mumkin. Ma'lumotlarni tasniflash qobiliyati logistik regressiyani foydali mashina algoritmiga aylantiradi. Logistik regressiya ham sonli, ham toifali bashorat qiluvchilarni osonlikcha boshqarishi mumkinligi sababli, bu sizga muvaffaqiyat ehtimolini (yoki koeffitsientlarini) oshirish yoki kamaytirish qobiliyatidagi har qanday narsani to'g'ridan-to'g'ri tekshirish imkoniyatini beradi.

Modellashtirishdan oldin: hisoblardan ehtimolliklarni oling

Ehtimoli bo'lsa soooomuhim, biz shunchaki mumkin bo'lsa, nima uchun Yer yuzida biz, hech qanday modellashtirish bo'lardi hisobga olingan ehtimolini hisoblash? Ta'rifni eslang: "Ehtimollik - bu sodir bo'layotgan narsaning va sodir bo'lishi mumkin bo'lgan narsalarning nisbati".Hisobga olsak, omon qolgan yo'lovchilar sonini barcha yo'lovchilar soniga bo'lish orqali osongina omon qolish ehtimolini olishimiz mumkin:

\ [ehtimollik \ ning \ omon qolish = \ frac * 100 \% = 38.2 \% \]

\ [ehtimollik \ o'lim = \ frac * 100 \% = 61.8 \% \]

Nuqtalarni ulang:Biroq, faqat hisoblar yordamida tirik qolish ehtimoli o'lim ehtimolligidan sezilarli farq qiladimi yoki yo'qmi, bilmaymiz. Ushbu savolga berilgan ehtimolliklar uchun (shuningdek, " Yaxshilash qobiliyati" deb nomlanuvchi) Chi-kvadratik test yordamida osongina javob berilishi mumkin edi va biz hali ham logistika regressiyasi deb nomlangan ushbu murakkab narsani qilishimiz yoki tushunishga hojat qolmasdik. Chi-kvadratik test bizning ma'lumotlarimizni (32,8% omon qolgan va 61,2% vafot etgan) kutilgan ma'lumotlar bilan taqqoslaydi (50% omon qoldi va 50% vafot etdi) va tirik qolish ehtimoli va o'lim ehtimoli o'rtasidagi sezilarli farqni ko'rsatadi:

Biroq, Chi-Square testi bilan taqqoslaganda, faqatgina o'zgaruvchan omon qolish taqsimoti (omon qolganmi yoki yo'qmi) logistik regressiyateng emasligini aytadi!Aynan:

omon qolish ehtimoli: exp (coef (simple_fit))

log-odds, confint (simple_fit) va koeffitsientlar uchun exp intervallari, exp (confint (simple_fit))

salbiy belgi bizga tirik qolish ehtimoli o'lim ehtimolligidan sezilarli darajada (p

ehtimollikni o'zi va hatto unutmang

Shunday qilib, Chi-Squared testi ehtimollik sonini hisoblash uchun qo'lda hisoblashdan ancha yaxshiroq bo'lsa-da, bu bizga faqat p-qiymatini beradi. Chi-kvadrat statistikasi logistik regressiya koeffitsienti bilan taqqoslaganda biroz befoyda, hatto uni hisobga olish mumkin - effekt hajmi (agar siz tanish bo'lmagan bo'lsangiz, effekt kattaligi ma'nosiga hali ahamiyat bermang) u bilan).

Rda oddiy logistik regressiya qanday o'tkaziladi

Intercept faqat modeli

To'xtab qolmaslik uchun barcha kerakli paketlarni birdaniga yuklang.

Faqat ikkilik javob o'zgaruvchisini (faqat 0 va 1 sonlarga ega) hech qanday bashorat qilmasdan modellashtirish mantiqiymi? Keling, Titanik halokatidan omon qolganlarning ma'lumotlarini olib, bilib olaylik. Quyidagi formuladagi har qanday prognoz o'rniga "1" faqat to'sibqo'yishni anglatadi :

muddat smeta std.error statistik p.value
(Intercept) -0.4811908 0.0568867 -8.458761 0

Faqatgina tutib olishmodeli bizga faqat (kutilmagan syurpriz) to'siqni taxmin qilish imkoniyatini beradi. Ushbu taxmin ijobiy natija (muvaffaqiyat) jurnali (koeffitsienti ), bu erda muvaffaqiyat - omon qolish. Jurnal (koeffitsientlar) ayniqsa intuitiv emas, lekin ularning afzalliklari bor!

  1. Avvalo, log- koeffitsientlar nol atrofida joylashganligisababli , bizning taxminimizning salbiy belgisi, tirik qolish ehtimoli o'lim ehtimolidan pastroqekanligini ko'rsatadi . Shunday qilib, agar siz vaqt mashinasidan foydalansangiz va o'zingizni Titanikda topsangiz, ehtimol siz o'lasiz'd.

Ammo nega log-koeffitsientlarni talqin qilish paytida ehtimollik haqida gaplashamiz?

  1. Ikkinchidan, avvalgi xabarda aytib o'tilganidek, ehtimolliklar chiziqli bo'lmaganligi sababli modellashtirish qiyin (s-egri), log (koeffitsientlar) chiziqli bo'lib, bu bizga ko'p sonlarni ifodalashga imkon beradi. faqat ikkitaraqam: Nishab va tutish.

"Lekin biz yo'q qiyaligiham ayirish faqat modelini!", - men siz deb eshitaman.

To'g'ri! Bu mening maqsadim edi. Avvalo, barqaror o'rganish uchun biz o'zaro ta'sirlashish bilan ko'p logistik regressiya bo'lgan eng murakkab bo'lgan oddiy modeldantortib to sekin o'rganishimiz kerak (kelgusi xabarlarga qarang). Ikkinchidan, nishabsiz modelni va nishab bilan modelni taqqoslab (keyingi bobda) biz log (koeffitsient) nishabini beradigan foydali ma'lumot miqdorini qadrlashni o'rganamiz!

Hozircha log-koeffitsientlarni faqat ikki bosqichda qanday qilib ehtimollikka aylantirishni eslaylik:

  1. olish uchun modeli log (stavkalari) exponentiate tikish) (exp () jurnalining qarama-qarshi, chunki,
  2. ehtimollik koeffitsienti formulasidan chiqarib oling: \ (koeffitsientlar = p / (1-p) \), keyin \ (p = koeffitsientlar / (1 + koeffitsientlar) \)

R dagi plogis () funktsiyasi siz uchun ikkala amalni bajaradi:

Xulosa: Titanikda omon qolish ehtimoli (38,2%) o'lim ehtimolligidan (100% -38,2% = 61,8%) sezilarli darajada past, bu biz faqatinteraktiv model yordamida birinchi statistik xulosaga kelganmiz!Shunday qilib, biz boshida bergan savolimizga quyidagicha javob bera olamiz: mutlaqo ha!, hech qanday bashorat qilmasdan modelni yaratish umuman mantiqan.

log-tafovut esa, salqin 😎 bo'lgan farq juda g'alati bo'ladi

Lekin nima uchun biz ikkala koeffitsientga ham , jurnalga (koeffitsientga) ham muhtojmiz ? Xo'sh, biz ba'zida "muvaffaqiyat ehtimoli" yoki "muvaffaqiyat ehtimoli" ni eshitamiz. Ammo biz hech qachon "muvaffaqiyatning logini (koeffitsientini)" eshitmaymiz! Buning sababi, ehtimollik va ehtimolliklar intuitivroq, keyin log ( koeffitsientlar ) . Ehtimollar ehtimollik yoki log-koeffitsientlardan ko'ra foydaliroqmi? Balki. Ammo ular juda chalkash bo'lishi mumkin. Mana nima uchun:

Yildan farq 1 atrofida etiladi, ularni talqin qilish qiyin. Masalan, ijobiy belgi bilan bizning 0.618 koeffitsientimiz umuman ijobiy emas, chunki ular 1dan pastroq. Qarang, bu chalkash narsa. Hech bo'lmaganda menga. Ayniqsa, biz log-koeffitsient belgisi (0 atrofida joylashgan) bizga koeffitsientlar yoki omon qolish ehtimolligi ortib borayotgani yoki kamayganligini aytishini bilib oldik.

Biroq, koeffitsientlar quyidagi hollarda juda foydali bo'ladi:

  1. foiz o'zgarishiga aylantirildi va
  2. modelga taxminchilarni (jinsi) kiritishni boshlaganimizda, boshqa imkoniyatlar bilan taqqoslaganda, masalan, erkak va ayollarning omon qolish ehtimoli.
  3. stavkalar tibbiyotda va xavfni boshqarish sohasida uzoq vaqtdan beri qo'llaniladi

Foiz o'zgarishi

Foizlarning o'zgarishi ham juda chalkash bo'lishi mumkin. Masalan, koeffitsientlar 3 (yoki 3 dan 1 gacha, yoki \ (\ frac \)) bo'lsa, unda bitta koeffitsient ikkinchisining 3 baravariga teng bo'ladi. Ammo foizli o'sish 300% o'rniga 200% ni tashkil qiladi:

\ [(koeffitsientlar - 1) * 100 = (\ frac - 1) * 100 \% = 200 \% \]

Shunday qilib, >1bo'lgan ijobiy koeffitsientlar uchun foiz o'sishi koeffitsientlardan oddiygina 1ni olib tashlash orqali hisoblanadi.

Bir lahza o'ylab ko'ring:agar biz foiz o'sishini 100% dan yuqori darajaga ko'tarishimiz mumkin bo'lsa, bizda ham foizning pasayishi 100% dan yuqori bo'lishi kerak. Mantiqan, to'g'rimi? Bu juda qo'pol! Ammo yuqoridagi formuladan ilmiy nashrlarda koeffitsient bo'lgan holatlar uchun juda tez-tez foydalaniladi , bu noto'g'ri!, Chunki bu formula hech qachon 100% dan past foiz hosil qilmaydi.

Biz nima qilishimiz kerak?

Logistik regressiya haqidagi birinchi xabarni eslang, u erda biz ijobiy koeffitsientlarni hisobladik: 2/1, 3/1, 4/1 va boshqalar. Ijobiy koeffitsientlar chiziqli ravishda1dancheksizgachao'sadi va "1" ga bo'linmaydi. ularni o'zgartiring. Shuning uchun yuqoridagi formula yaxshi ishlaydi

Biroq, koeffitsientlar tobora salbiylashib ketganda ( >1): 1/2, 1/3, 1/4 va boshqalar, ular boshida 0 ga yaqinlashadi, lekin 0 ga yaqinlashganda sekinlasha boshlaydi, bu esa ularning chiziqli emasliginiko'rsatadi . Muhimnarsa shundaki, salbiy koeffitsientlar ( >1) hech qachon 0dan pastga tushmaydi va shuning uchun hech qachon 100% foiz o'zgarishidan past bo'lmaydi. To'g'ri formula 1ni salbiy koeffitsientga bo'linib, keyin 1 ni olib tashlaydi!Faqatgina ushlash modelining koeffitsientlari salbiy, 0,62 ga teng. Shunday qilib, noto'g'ri foiz o'zgarishi quyidagicha bo'ladi:

\ [(koeffitsientlar - 1) * 100 = (0.618047 - 1) * 100 \% = -38.2 \% \]

To'g'ri foiz o'zgarishi quyidagicha bo'ladi:

\ [(1 / koeffitsientlar - 1) * 100 = (1 / 0.618047 - 1) * -100 \% = -61.8 \% \]

38,2 foizga pasayish va 61,8 foizga pasayish juda katta farq. Va agar bunday raqamlar ko'pincha tibbiyotda noto'g'ri hisoblansa, bu juda katta muammo.

Ikkinchi formulaning to'g'ri ekanligini isbotlash uchun, keling

  • birinchi navbatda foiz pasayishining 100% dan pastga tushishiga imkon berishini ko'rsating:

\ [(koeffitsientlar - 1) * 100 = (1 / .3 - 1) * -100 \% = -233 \% \]

  • ikkinchidan, Titanikda omon qolish imkoniyatining pasayishi foizning biz boshida hisoblagan o'lim ehtimolligiga = 61,8% ga teng ekanligini ko'rsating.

Standart xato, z-qiymati va p-qiymati

Taxminan tashqari, model chiqishi ikkita "unchalik muhim bo'lmagan" raqamlarni taqdim etadi: standart xato (SE) va z-qiymati. Ular p qiymatini hisoblash uchun kerak, bu o'z navbatida juda muhimdir. Shunday qilib, SE va z haqida kamida ikkita so'z aytishim kerak, ammo agar siz ularni tushunmasangiz, yaxshi.

Agar biz ko'plab namunalarni olgan bo'lsak (yoki tajribamizni ko'p takrorlasak), biz taxminiy noaniqlik o'lchovi sifatida bahoning standart xatosini hisoblashimiz mumkin edi. Bizning taxminimizni standart xatoga bo'lishimiz z qiymatini beradi. Z qiymati standart normal egri chiziqda kesish noldan uzoq bo'lgan standart og'ishlar sonini ko'rsatadi. Agar z qiymati 2 dan past bo'lsa, natija katta ahamiyatga ega bo'lmaydi. Bizda kesmaning z qiymati 2 dan yuqori bo'lib, natijada natijani sezilarli qiladi. Kichkina p qiymati (aslida nolga teng) bu xulosa bilan tasdiqlangan. P-qiymati ikkala tomonning normal taqsimot egri chizig'ida kesmaning 0 yoki undan yuqori og'ishini (farqini) olish ehtimolini ko'rsatadi.

Yaxshiyamki, zamonaviy statistik dastur sizga barcha natijalarni beradi, shuning uchun ularni qo'lda hisoblashning hojati yo'q.

Faqat ikkita toifadagi bitta nominativ bashorat qiluvchi model

Umuman olganda tirik qolish ehtimolini hisoblab chiqadigan yagona interaktiv model bilan taqqoslaganda, modelga "jinsiy aloqa" ni kiritish bizni tirik qolish ehtimolini 1) ayollarning tirik qolish ehtimoli va 2) ehtimolga bo'lishimizga imkon beradi. erkaklar hayotining saqlanib qolishi, bu bizning modelimizni biroz ma'lumotliroq qiladi.

Dastlab, model natijalarini ko'rib chiqamiz va ularni tushunamiz:

muddat smeta std.error statistik p.value
(Intercept) 0.981813 0.1040377 9.437085 0
jinsiy aloqa -2.425438 0.1360195 -17.831548 0

Bizning (Intercept) urg'ochilarning omon qolishining eng muhim omiliga aylanadi, chunki female alifbo bo'yicha male dan oldinroq . Ushbu to'siq endi bizning asosiy darajamiz bo'lib, u boshqa o'zgaruvchilarni talqin qilishda taqqoslash uchun ishlatiladi. 0.9818ni ushlab turish degani, agar atrofida erkaklar yo'q bo'lsa, ya'ni logit tenglamasidagi "SexMale" nolga teng bo'lsa, ayollarning log-koeffitsienti faqat 0.9818 kesmasi bilan qoladi:

\ [log (\ frac

) = 0.9818-2.4254 * SexMale = 0.9818-2.4254 * 0 = 0.9818 \]

Ushlamoq esa ISurg'ochining log-farq, "SexMale" (-2.4254) koeffitsienti EMASerkaklar real log-tafovut, aksincha: PRICEbazasi darajasida o'tish boshqasiga ( "ayol" bilan taqqoslanadi) daraja ("erkak")! Shunday qilib, bu ayolga nisbatan erkakningtirik qolish ehtimoli o'zgarishi. Ijobiy belgisiesa, ayol nisbatan erkak-omon qolish takomillashtirilgan ehtimolini anglatadi salbiy belgisi(bizning Masalan kabi) ayollar nisbatan erkak-omon qolish ehtimolini kamaygan ko'rsatadi. Erkaklarning haqiqiy log-stavkalaribir xil tenglamada "SexMale" ni 1 ga (chunki ayol = 0 va erkak = 1) o'rnatib osongina hisoblash mumkin:

\ [log (\ frac

) = 0.9818-2.4254 * SexMale = 0.9818-2.4254 * 1 = -1.4436 \]

Shunday qilib, erkaklarning omon qolishining haqiqiy log-koeffitsientlari -1.4436 ga teng. Yaxshi! Biroq,…

Koeffitsientlar nisbati tushunchasi

Hamma narsa nisbiy bo'lganligisababli , biz biron bir narsaning qadrini boshqa narsaga taqqoslash orqali yaxshiroq tan olamiz. Va shuning uchun koeffitsientlar, ehtimol boshqa koeffitsientlarga nisbatan koeffitsientlarning o'zgarish tezligidan foydasizdir.

Koeffitsientlar nisbati ... ajablanib, ajablanib ... ikki koeffitsientning nisbati!

Masalan. Ayollar koeffitsientini erkaklar koeffitsientiga bo'lishish , ayollarning tirik qolish ehtimoli erkaklar uchun tirik qolish imkoniyatidan necha martaoshib ketishini aytadi:

Xuddi shunday, biz erkaklar uchun omon qolish imkoniyatini ayollar bilan taqqoslaganda necha baravar pastliginihisoblashimiz mumkin :

Koeffitsientlar nisbati bizga bitta koeffitsient boshqasidan necha marta farq qilishini ko'rsatadi. Shunday qilib, bizning holatimizda ayollarning koeffitsientlari nisbati 11 dan 1 gacha, erkaklar uchun koeffitsientlar nisbati 1 dan 0,088 gacha (bu ham \ (\ taxminan 11 \)). Qarama-qarshiliklar koeffitsienti (log-koeffitsientlar kabi) effekt kattaligi sifatida qaralishi va ikki o'zgaruvchi o'rtasidagi munosabatlarning mustahkamligini tavsiflashi mumkin.

Shunday qilib, tirik qolish koeffitsienti ayollar uchun erkaklarnikiga qaraganda 11 baravar yuqori, bu bizning modelimizdan yana bir xulosa chiqarishdir!

Oran-nisbatlar uchun ishonch oralig'i

O'zgarish koeffitsienti yoki tezligini bilish juda yaxshi. Ammo, bizning koeffitsientlar nisbati bo'yicha biz qanchalik ishonchimiz komil? Ishonsak bo'ladimi? Ishonch oralig'i bu savolga javob berishga yordam berishi mumkin.

Nuqtalarni ulang: Masalan, erkaklar uchun koeffitsientlar koeffitsientini olishimiz mumkin va bu Fisher testining ishonch oralig'i :

Xo'sh, yana nima uchun biz Fisher testidan foydalansak, logistik regressiya haqida bilishimiz kerak?

Xo'sh, Fisher sinov emas, balki ayollar uchun, bizga erkaklar uchun faqat bitta farq-nisbati va ishonch oralig'ini beradi. Bundan tashqari, modelga har qanday qo'shimcha toifani yoki bashorat qiluvchini qo'shish Fisher testining ishonch oralig'ini ta'minlash qobiliyatini o'chirib qo'yadi.

Yaxshiyamki, agar biz model koeffitsientlarining eksponentligini va ularning ishonch oralig'ini olsak, biz aynan shu narsani olamiz - haqiqiy koeffitsientlar o'rniga koeffitsientlar va erkaklar va ayollar uchun ishonch oralig'i (bizning holatimizda Intercept).

Odds-nisbati va ularning ishonch oralig'ini olishning yanada oson usuli (ortiqcha p sifatida bonus qiymati sifatida) bu questions to'plamidan odds.ratio () funktsiyasi:

Yoki 2,5% 97,5% p
(Intercept) 2.6692913 2.1833794 3.2840372 0
jinsiy aloqa 0.0884393 0.0675248 0.1151132 0

Agar siz ayollar ehtimoli bo'yicha omon qolish ehtimoli qanchalik yuqori ekanligini bilmoqchi bo'lsangiz, shunchaki plogis funktsiyasidan foydalangan holda log-odds-ni ehtimollik darajasiga o'zgartiring:

Bu sizga ehtimollik nisbatlarini beradi. Biroq, ehtimolliklar chiziqli bo'lmaganligi sababli, bu ehtimollik koeffitsientlarini (o'zgarish tezligini) raqamli prediktorlarga qo'llash qiyin va shuning uchun chiziqli (va universal) log-koeffitsientlar nisbati kamroq mashhur.

Shunga qaramay, ehtimollik koeffitsientlari toifali o'zgaruvchilar uchun foydali bo'lishi mumkin. Biz ularni qo'lda hisoblashimiz mumkin (mavzuni kontseptual tushunish uchun yaxshi) log-odds ko'rsatkichlarini olish orqali:

Qarama-qarshilik koeffitsientlarini ishonch oralig'ida olishning so'nggi va eng qiziqarli usuli sjPlot to'plami tomonidan taqdim etilgan. Bu mening mutlaq sevimlisim! va men Daniel Lyudekka ushbu ajoyib to'plamni yaratgani uchun minnatdorchilik bildirmoqchiman:

Xulosa va talqin

Ko'p o'zaro bog'liq tushunchalarni uchratib, keling, shu vaqtgacha o'rganganlarimizni natijalarning katta jadvaliga jamlab, barchasini birgalikda sharhlaymiz:

jinsiy aloqa ayol erkak
log_OR 0.982 -2.425
pastki_log_OR 0.781 -2.695
yuqori_log_OR 1.189 -2.162
real_log_odds 0.982 -1.444
Yoki 2.669 0,088
pastki_OR 2.183 0,068
yuqori_OR 3.284 0.115
p 0 0
real_odds 2.669 0.236
foiz o'zgarishi 166.929 -1030.718
pastroq foizli o'zgarish 118.338 -1380.937
yuqori_sozlik_zgarishi 228.404 -768.710
prob_ratio 72.747 8.125
real_prob 0.727 0.191
pastki_haqiqiy_prob 0.685 0.166
yuqori_real_prob 0.766 0.219

To'liq talqin:

salbiy belgisiayollarda nisbatan sifatida log-zid-nisbati erkaklar omon qolish uchun erkaklar bilan bir kam ehtimolini bildiradi

real log-tafovut-nisbatierkak va urg'ochi aslida hech katta qiziqish va tez-tez hisob ehtimoli yo'lida faqat bir qadam hisoblanadi. Biz ularni hisoblab chiqdik, chunki ularni koeffitsientlardan farqlash muhim, ammo biz ularni izohlamaymiz va keyingi safar ularni o'tkazib yuboramiz

koeffitsientdan keyin unchalik foydali bo'lmagan haqiqiykoeffitsient bilan ham xuddi shunday , lekin ular erkaklarning tirik qolish koeffitsienti (0,236) ayollarga nisbatan 11 baravar past ekanligini ko'rsatishi mumkin (2,669)

koeffitsientlar biz istagan narsadir,chunki ular bashoratchining o'zgarish tezligini yoki bazaviy darajaga nisbatan bashorat qiluvchi o'zgaradigan omilni ko'rsatadi.

koeffitsientlar foizlarning o'zgarishigaaylantirilishi mumkin , ular ham foydali va tez-tez xabar qilinadi. Masalan, OR 1 atrofida joylashganligi sababli, erkaklar-OR 0,088 ayollarga nisbatan yashovchanlikning 1036% pasayishini anglatadi.

esa ehtimoli nisbatifarq-nisbati kam foydalidir, bir haqiqiy ehtimoliancha foydali, keyin haqiqiy farq bo'ladi. Shunday qilib, biz kelajakda ham ehtimollik koeffitsienti haqida xabar berishdan qochamiz, lekin asosiy ehtimollarga e'tibor qaratamiz

Shunday qilib, erkaklarning tirik qolish ehtimoliatigi 19,1% ni tashkil qiladi, ayollarning tirik qolish ehtimoli 72,7% ni tashkil etadi, bu esa 3,8 baravar yuqori (quyidagi uchastkaga qarang)

past p qiymati (p sezilarli darajadapast bo'lishini ko'rsatadi. Bu bizning modelimizdan ikkinchi yaxshi xulosa!

Tekshirishning yana bir usuli, ma'lum bir bashorat qiluvchi model uchun muhim ahamiyatga ega bo'ladimi, faqat kesilgan modelni ushbu taxminni o'z ichiga olgan model bilan taqqoslash:

Bashoratli "jinsiy" model qoldiqlarning pastroq og'ishini ko'rsatadi va shuning uchun bizga javob o'zgaruvchisi - "omon qolish" haqida ko'proq (p

Model natijalarini ingl

Model natijalarini vizualizatsiyadan yaxshiroq tushuntirib beradigan narsa yo'q! Buning uchun sjPlot paketidan plot_model () funktsiyasidan yoki effektlar paketidan plot (allEffects ()) buyrug'idan foydalanaman:

Ushbu model uchun uchastkalar juda o'xshash, ammo ko'proq o'zgaruvchilar qo'shilsa, har xil natijalarga erishiladi. Modelga qarab ikkalasini ham yoqtiraman va ishlataman. Ularni sinab ko'ring va o'zingiz qaror qiling.

Ikkita toifadagi bitta nominativ bashorat qiluvchi model

muddat smeta std.error statistik p.value
(Intercept) 0.4861330 0.1145866 4.242496 2.21e-05
yo'lovchi klassi2-chi -0.7696046 0.1669208 -4.610597 4.00e-06
yo'lovchiClass3rd -1.5567323 0.1433488 -10.859753 0.00e + 00

Bu erda yaxshi yangilik shundaki, har bir toifadagi talqin ikkilik bashorat qiluvchi talqinga tengdir.

Masalan, yuqoridagi jadvaldagi yo'qolgan toifa bizning to'siqimiz bo'ladi. Kesish har doim birinchi gradatsiyani nominativ o'zgaruvchilardan, alifbo yoki son bo'yicha oladi. "Jinsiy aloqa" holatida u (alifbo bo'yicha) urg'ochilarni oldi, agar "chiptalar sinfi" bo'lsa (raqamlar bo'yicha) birinchi sinfni oldi. "Yo'lovchilar sinfi" o'zgaruvchilarining boshqa toifalari birinchi sinfdan ikkinchisiga yoki uchinchisiga o'tish narxini (yoki kuchini) ko'rsatadi. Boshqacha qilib aytganda, har bir boshqa koeffitsient bazaviy darajadan boshqasiga o'tish orqali ijobiy natija ehtimoli o'zgarishini ko'rsatadi.

yo'lovchi klassi 1-chi 2-chi 3-chi
log_OR 0.486 -0.770 -1.557
pastki_log_OR 0.263 -1.099 -1.840
yuqori_log_OR 0.713 -0.444 -1.278
real_log_odds 0.486 -0.283 -1.071
Yoki 1.626 0.463 0.211
pastki_OR 1.301 0.333 0.159
yuqori_OR 2.040 0.642 0.279
p 0 0 0
real_odds 1.626 0.753 0.343
foiz o'zgarishi 62.602 -115.891 -374.330
pastroq foizli o'zgarish 30.124 -199.997 -529.630
yuqori_sozlik_zgarishi 104.004 -55.879 -258.856
prob_ratio 61.920 31.656 17.412
real_prob 0.619 0.430 0.255
pastki_haqiqiy_prob 0.565 0.373 0.225
yuqori_real_prob 0.671 0.489 0.289

Tafsir:

2-chi va 3-chi sinflarning manfiy belgisi shundan dalolat beradiki, yo'lovchilarning ikkinchi va uchinchi sinflarda omon qolish ehtimoli 1-sinfga nisbatan ancha past (ikkala p-qiymatlari

ikkinchi sinf uchun tirik qolish koeffitsienti 0,46 (OR ga qarang) yoki -116% ga kamayadi (foizga o'zgartirish qarang), uchinchi sinf uchun esa birinchi darajaga nisbatan 0,21 yoki -374% ga kamayadi. Boshqa barcha xususiyatlar bir xil bo'lishini hisobga olgan holda sinf.

birinchi toifadagi yo'lovchilarning omon qolish ehtimoli eng yuqori - 62% ni, ikkinchi toifadagilar 43% ni, uchinchi toifadagi eng past ko'rsatkich esa atigi 26% ni tashkil qiladi.

Ammo biz 3-sinfni 1-chi bilan emas, balki 2-chi bilan taqqoslashni istasak nima bo'ladi (bu bizning ma'lumotnoma / asosimiz)? Ushbu guruhlarni taqqoslash uchun biz shunchaki 2-sinf koeffitsientini 3-sinf koeffitsientidan chiqaramiz. Va bu farqning koeffitsientini olish uchun biz shunchaki bu farqni ifodalaymiz.

Bu bizga 3-chi chiptaga ega yo'lovchilar tirik qolish ehtimolini 2-chi chiptaga ega yo'lovchilarga nisbatan 0,45 baravarko'p ekanligini bildiradi. Yoki biz tirik qolish ehtimoli 3-sinfga nisbatan 2-sinfga nisbatan 122% ga kamaygan deb ayta olamiz. Biz olgan natijalar - post-hoc tahliliningbir qismi , bu albatta (allaqachon uzoq) post uchun juda muhimdir, ammo logistik regressiya bo'yicha keyingi xabarlarda ko'rib chiqiladi. Shunday qilib, bizni kuzatib turing 😉!

Bitta raqamli bashorat qiluvchi model

Raqamli bashorat qiluvchi toifalarga ega bo'lgan toifali bashoratchi sifatida qaralishi mumkin. Ammo har bir mumkin bo'lgan (minglab bo'lishi mumkin) toifadagi koeffitsientlarni va ehtimollarni tahlil qilish o'rniga, biz raqamli taxmin bilan nima bo'lishini ko'rish uchun o'zgarish tezligini (qiyalik yoki \ (\ beta_1 \) koeffitsientidan) foydalanishimiz mumkin:

muddat smeta std.error statistik p.value
(Intercept) -0.1365312 0.1447153 -0.9434472 0.3454522
yoshi -0.0078986 0.0044065 -1.7924866 0.0730550

Shunday qilib, raqamli o'zgaruvchimiz bilan nima sodir bo'lishini ta'riflashimiz kerak bo'lganda, haqiqiy log-koeffitsientlar va haqiqiy koeffitsientlar o'ta amaliy bo'lmagan holga keladi. Kategorik o'zgaruvchilar koeffitsientlarni hisoblash uchun bir nechta aniq qiymatlarni taqdim etgan bo'lsa, biz raqamli o'zgaruvchini tavsiflash uchun qaysi (minglab bo'lishi mumkin) qiymatlarni tanlaymiz? Bilmadim. Baland, o'rta va baland bo'lishi mumkinmi? Effektlar to'plamidan allEffects funktsiyasi nuqtalar orasidagi masofa teng bo'lgan 5 ta raqamni tanlaydi:

Bu ehtimollik qayerga borishi va tendentsiya bor-yo'qligi haqida fikr berishi mumkin. Biroq, chiziqli bo'lmagan ehtimolliklar tendentsiyasi (yoki moyilligi) foydasiz. Lekin nima uchun faqat javob va raqamli o'zgaruvchimiz o'rtasidagi chiziqli log-ords munosabati moyilligidan foydalanmasligimiz kerak? Nishab - butaxminiy javobga doimiy ta'siridirva u raqamli bashorat qiluvchining barcha qiymatlarini birdaniga bitta raqamda(nishabda) tavsiflaydi !

Qanday qilib biz model natijalaridagi smeta qiyalik yoki o'zgarish tezligini bilamiz? Buni biz 30 yoshdan 31 yoshgacha va 50 yoshdan 51 yoshgacha bo'lgan bir birlikdan iborat bo'lgan ikki yillik log-stavkalarni hisoblash orqali isbotlashimiz mumkin:

Qarang, ikkala farq ham bir-biriga va model natijalaridagi bahoga o'xshaydi, bu raqamli o'zgaruvchiga log-koeffitsientlarning doimiy ta'siriniko'rsatadi .

Biroq, bu faqat chiziqli munosabatlar uchun ishlaydi, shuning uchun logistik regressiya ehtimollarni emas, balki log-koeffitsientlarni beradiva shuning uchun biz toifalar uchun hisoblangan (va u erda mantiqiy) ehtimollik nisbati (ehtimollikning o'zgarishi tezligi) butunlay aylanadi bu erda foydasiz. Ehtimollik (ehtimoli nisbati farqli o'laroq) o'zi hali eng foydali narsa logistika regresyon, qutqarsa, lekin tufayli uning chiziqli bo'lmagan tabiatga u ham emas, balki mumkinbitta raqam orqali model koeffitsientida xabar qilinadi (koeffitsientlar qiyaligidan farqli o'laroq). Shunday qilib, biz ehtimollarni tasavvur qilamiz, agar ularning hammasi bo'lsa, lekin biz ularni jadvalda qayd etmaymiz. Ushbu mulohazalar bizni faqat bitta sonli o'zgaruvchiga ega bo'lgan logistik regressiya uchun eng foydali uchta ko'rsatkich sifatida yakuniy natijalardagi hisobga olish koeffitsientlari, koeffitsientlar nisbati va koeffitsientlarning foizli o'zgarishini qoldiradi:

log_OR -0.137 -0.008
pastki_log_OR -0.421 -0.017
yuqori_log_OR 0.147 0.001
Yoki 0.872 0.992
pastki_OR 0.657 0.984
yuqori_OR 1.159 1.001
p 0.345 0,073
foiz o'zgarishi -14.629 -0.793
pastroq foizli o'zgarish -52.277 -1.673
yuqori_sozlik_zgarishi 15.857 0,070

Keling, ehtimollarni tasavvur qilamiz:

Yoshning ta'siri ahamiyatli emas va ehtimollik rejasi o'sib borgan sari tirik qolishning ozgina pasayishini ko'rsatadi, 0 yoshida 47 foizdan 80 yoshda 32 foizgacha. Qizig'i shundaki, ishonch oralig'i butun dunyo bo'ylab butun yosh oralig'i (oq gorizontal chiziqni 40% dan boshlab va 0 yoshdan boshlab va 80 yoshga qadar quyuq kulrang CI rangidan o'tishga qarang). Demak, yoshning ahamiyati ajablanarli emas.

Biroq, ehtimolliklar chizig'i ajablanarli darajada chiziqli, biz bir necha bor ehtimolliklar chiziqli emasligini ta'kidladik. Keling, taxmin qilingan yoshni olaylik va uni "qo'lda" tuzaylik (biz oxirgi uchastkada foydalangan oldindan dasturlashtirilgan funktsiyadan farqli o'laroq):

Hmm, hali ham chiziqli. Ammo menimcha, bu bizning ma'lumotlarimizda mavjud bo'lgan yosh qiymatlarining kichik doirasi, bu bizga chiziqli bo'lmagan egri chiziqning juda kichik qismini ko'rsatadi. Ushbu gipotezani sinab ko'rish uchun keling, yangi (kulgili darajada katta) yosh oralig'ini yarataylik va modelimiz tomonidan taxmin qilingan "numeric_fit" ehtimolligini qayta tuzaylik:

Xo'sh, endi bu ajoyib ko'rinadi! Va biz uchastkaning qizil qismini ko'rishimiz mumkin, bu erda bizning ma'lumotlarimizning ehtimoli va ular nima uchun chiziqli ko'rinadi.

Tafsir:

  1. Biz yana koeffitsient belgisini ko'rib chiqamiz. Yoshning qiymatidan qat'i nazar, agar log_odds yoshi (nishab) ijobiy bo'lsa, unda yoshning o'sishi tirik qolish ehtimoli ortishi bilan bog'liq bo'ladi, va log_odds yoshi salbiy bo'lsa, yoshning o'sishi tirik qolish ehtimolining pasayishi bilan bog'liq bo'ladi.

Bizning misolimizdagi minus belgisi yoshning o'sishi Titanik halokatidan omon qolish ehtimolining pasayishi bilan bog'liqligini ko'rsatadi. Aniq bo'lishi uchun, yoshi bir-qism o'sish (bir yil) -0.007899 taga omon qolish log zid bir pasayishi bilan bog'liq. Shunday qilib, yosh odamlar omon qolish ehtimoli ko'proqko'rinadi . Ehtimol, ular yaxshi suzishadi yoki birinchi navbatda yosh bolali onalar yoki hatto chaqaloqlar qutqariladi (ayollar yuqorida aytganimizdek baribir omon qoladi).

Yoshni bir birlikka (yilga) oshirish, taxminiy tirik qolish koeffitsienti 0,992 marta o'zgaradi yoki 0,8% ga kamayadi.

Bunday kichik foizli o'zgarish, ehtimol, muhim bo'lishi mumkin emas. Va, albatta, mening taklifim ahamiyatsiz p qiymati bilan tasdiqlangan (p = 0.073).

Raqamli bashorat qilish uchun taxminiy to'siq odatda qiziq emas; uning asosiy maqsadi ma'lumotlarning o'rtacha miqdoriga moslashtirilgan o'rtacha ehtimollarni moslashtirishdir.

Shunday qilib, yosh odamlar hali ham omon qolish uchun biroz yuqoriroq o'zgarishlarga ega bo'lishsa-da, bizning ma'lumotlar bazamizdagi uchinchi xulosa shuki, yosh Titanikda omon qolishga ta'sir qilmaydi.

Xulosa

Ehtimollarni ta'minlash logistik regressiyani dunyoni anglash uchun eng foydali statistik vositalardan biriga aylantiradi. Bunday yuqori talqin qilinadigan boshqa ko'plab zamonaviy kompyuterlarni o'rganish texnikasi bilan taqqoslaganda ancha foydali va amaliydir. Biroq, zamonaviy mashinasozlik modellari, ba'zan logistik regressiya bilan taqqoslaganda, bashorat qilish (yoki tasniflash) samaradorligini oshirishi mumkin. Shunday qilib, agar sizga g'amxo'rlik qiladigan yagona narsa bashorat qilish bo'lsa, boshqa tasniflash usullarini o'rganing (tasodifiy o'rmon yoki neyron tarmoqlari, bir nechtasini aytib bering), lekin agar siz narsalar qanday ishlashini va qanday omillar muvaffaqiyat qozonish ehtimoliga ta'sir qilishini bilishni istasangiz, logistik regressiya boradigan yo'l!

Keyingisi nima

Shubhali muammo tufayli bir nechta logistik regressiya har doim ham bir necha oddiy logistik regresslardan yaxshiroqdir.

Agar o'ylayotgan bo'lsangiz, men bir narsani sog'indim, iltimos, sharh bering va men ushbu qo'llanmani yaxshilayman.

O'qiganingiz uchun tashakkur!

Qo'shimcha o'qishlar, videolar va ma'lumotnomalar

Kitob: «Interpretatsiya qilinadigan mashinani o'rganish. Qora quti modellarini tushuntirishga qodir bo'lgan qo'llanma. ” Kristof Molnar tomonidan: 2019-12-17 https://christophm.github.io/interpretable-ml-book/logistic.html

logistik regressiya koeffitsientlarini talqin qilishning intuitiv tushuntirishlaridan biri: https://www.displayr.com/how-to-interpret-logistic-regression-coefficients/

ajoyib video:

Yuriy Zablotski
Myunxen LMU-da veterinariya tibbiyoti fakulteti bo'yicha ma'lumot mutaxassisi

Biostatistika va mashinada o'rganishni hayot haqidagi ma'lumotlarga tatbiq etish