Logistik regressiya

Logistika regressiya modellari, DV ikkilamchi bo'lganda, qaram o'zgaruvchi (DV) va mustaqil o'zgaruvchilar (IV) o'rtasidagi munosabatni tahlil qilish uchun ishlatiladi. DV - natija o'zgaruvchisi, ya'ni taxmin qilingan o'zgaruvchi va IV (lar) - natijaga ta'sir qiladi, deb taxmin qilinadigan o'zgaruvchilar. Agar modelda 1 IV bo'lsa, bu oddiy logistik regressiya modeli, va agar modelda 2+ IV bo'lsa, u ko'p logistik regressiya modelidir.

Logistik regressiya modellari uchun taxminlar:

  • DV toifali (ikkilik)
    • Agar natija turlari bo'yicha 2 dan ortiq toifalar mavjud bo'lsa, multinomial logistik regressiya qo'llanilishi kerak
    • Dizaynni takrorlash mumkin emas, ya'ni natijalarni ikki xil vaqt nuqtasida yig'ish.
    Ushbu misolda ishlatilgan ma'lumotlar

    Bu misolda ishlatiladigan ma'lumotlar UCLA ning statistik ma'lumotlarning logistik regressiyasi misolida ishlatiladigan ma'lumotlar to'plamidir. GRE ballari, GPA va bakalavriat obro'si aspiranturaga kirishga qanday ta'sir qiladi, degan savol tug'iladi. DV - bu kirish maqomi (ikkilik) va IV -lar: GRE ballari, GPA va bakalavr obro'si.

    Keling, pandalarni pd sifatida import qilaylik, ma'lumotlar to'plamini yuklaymiz va o'zgaruvchilarni ko'rib chiqamiz! Ma'lumotni quyidagi kod bilan yoki GitHub -dan yuklash mumkin. Ikkala manbadan ma'lumotlarni yuklash quyida ko'rsatilgan.

    tan olish gre gpa martaba
    sanash 400.000000 400.000000 400.000000 400.000000
    anglatadi 0.317500 587.700012 3.389901 2.485000
    std 0.466087 115.516663 0.380567 0.944462
    min 0.000000 220.000000 2. 260000 1.000000
    25% 0.000000 520.000000 3. 130000 2.000000
    50% 0.000000 580.000000 3.395000 2.000000
    75% 1.000000 660.000000 3.670000 3.000000
    maksimal 1.000000 800.000000 4.000000 4.000000

    Ta'riflovchi statistikaga qaraganda, talabalarning 31 foizi aspiranturaga qabul qilinadi, o'rtacha GRE balli 587, standart og'ish katta, o'rtacha GPA 3.39, bakalavr maktabining obro'si 2.49.

    Shuni yodda tutish kerakki, "daraja" o'zgaruvchisi haqiqatan ham kategorikdir va uni modelga aniq kiritish uchun ushbu ma'lumot turiga o'tkazish kerak bo'ladi. Bu ishga tushirilganda formulada ifodalanadi. Farazni tekshirish uchun bu o'zgaruvchini qo'g'irchoq kodlash kerak bo'ladi. Bu pd.get_dummies () usuli bilan oddiy ish . U avtomatik ravishda har bir toifadagi asl o'zgaruvchiga yangi o'zgaruvchini yaratadi va yangi qo'g'irchoqlarni kodlaydi, bunda 1-bu toifaga a'zolik, 0-a'zolik emas.

    Ko'p logistik regressiya misoli

    Birinchidan, modelning taxminlarini tekshirish kerak- dastlabki 2 ta taxmin bajariladi. Keling, logistika regressiyasini, grafikli kutubxonani ishga tushirish uchun zarur bo'lgan kutubxonani import qilaylik va qolgan taxminlarni tekshirib ko'ramiz!

    Kundalik koeffitsientlar bilan chiziqli bog'liqlik uzluksiz IV ning taxminiyligi

    Logistik regressiya doimiy IV (lar) ning DV bilan chiziqli bog'liqligini talab qilmaydi. Bu doimiy IV (lar) ning IV ning log koeffitsientlari bilan chiziqli bog'liqligini talab qiladi. Buni tekshirish usuli-bu IV (lar) ni tuzish va S shaklidagi egri chiziqni qidirish. Ba'zida S shakli aniq bo'lmaydi. Uchastkaning yuqori va pastki qismi tekis yoki tekis bo'lishi kerak, o'rtasi ortadi yoki kamayadi.

    Buni Python uchun Seaborn statistik tuzish kutubxonasi yordamida quyidagi kod yordamida amalga oshirish mumkin.

    Ko'rish qiyin bo'lishi mumkin, lekin ma'lumotlarning S shaklidagi egri chizig'iga o'xshash bir oz egri chizig'i bor. Agar S shaklidagi bo'lmagan chiziq bo'lsa, ba'zida U shakli bo'ladi, bu ma'lumotni qanday boshqarishni ko'rib chiqish kerak.

    Multikollinerlik yo'qligining taxminlari

    Buni tekshirishning oson yo'li - korrelyatsion matritsadan foydalanish va har qanday yuqori korrelyatsiyali o'zgaruvchilarni qidirish va/yoki Variantli inflyatsiya omilining yuqori ko'rsatkichlarini (VIF) ko'rish. Agar yuqori korrelyatsiyali yoki yuqori VIFga ega bo'lgan o'zgaruvchilar bo'lsa, ularni to'g'rilash chorasi bo'ladi, chunki ular bir xil/o'xshash narsani o'lchaydilar.

    tan olish gre gpa daraja_1.0 daraja_2.0 daraja_3.0 daraja_4.0
    tan olish 1.000000 0.184434 0.178212 0.203651 0.067109 -0.121800 -0.133356
    gre 0.184434 1.000000 0.384266 0.088622 0.056202 -0773200 -0.068235
    gpa 0.178212 0.384266 1.000000 0.070550 -0.057867 0.074490 -0.084428
    daraja_1.0 0.203651 0.088622 0.070550 1.000000 -0.330334 -0.279354 -0.190274
    daraja_2.0 0.067109 0.056202 -0.057867 -0.330334 1.000000 -0.512837 -0.349304
    daraja_3.0 -0.121800 -0773200 0.074490 -0.279354 -0.512837 1.000000 -0.295397
    daraja_4.0 -0.133356 -0.068235 -0.084428 -0.190274 -0.349304 -0.295397 1.000000

    Bir -birlari bilan o'rtacha korrelyatsiyaga ega bo'lgan yagona mustaqil o'zgaruvchilar rank_2.0 va rank_3.0. Bu o'zgaruvchilar asl "daraja" o'zgaruvchisining qo'g'irchoq kodlari ekanligini hisobga olsak, multikollinearlikning mavjudligi haqida hech qanday tashvish yo'q.

    Tashqi belgilarning etishmasligi haqidagi taxmin

    Tashqi ko'rinish etishmasligi haqidagi taxminni tekshirish oson. Buni .describe () usulida berilgan tavsiflovchi statistika yordamida sezish mumkin . Ajralishlarni tekshirishning eng oson usuli - quti chizig'idan foydalanish.

    Agar GRE va GPA/ Rankni o'lchash uchun ishlatiladigan qiymatlar o'rtasida keskin farq bo'lsa, ikkita alohida katakli diagramma ishlab chiqariladi.

    GRE o'zgaruvchisi uchun 2 qiymat, GPA o'zgaruvchisi uchun 1 qiymat bo'lishi mumkin. Bu ikkala holatda ham, baholanayotgan qiymatlar tegishli o'zgaruvchidagi qolgan qiymatlardan unchalik uzoq emas. Shunday qilib, qiymatlarni saqlash va tahlil qilishda ishlatish mumkin.

    Logistik regressiya modeli

    Farazlar tekshirildi va ma'lumotlarni ishlatish yaxshi.

    Bu yerdan kerakli modelni formulaga kiritish oson. "Reyting" o'zgaruvchisida ko'p tarmoqlilikni ko'rib chiqish uchun yaratilgan qo'pol o'zgaruvchilardan yoki "C (o'zgaruvchilar_of_interest)" dan foydalanish mumkin. Agar qo'pol o'zgaruvchilardan foydalansangiz, qo'g'irchoqli tuzoqqa tushmaslik uchun 1 guruhni kiritmasligingizga ishonch hosil qiling. Yo'qotilgan guruh, xuddi o'sha asl o'zgaruvchidan kelgan boshqa qo'g'irchoqlar uchun mos yozuvlar guruhi hisoblanadi. Odatda, eng yuqori reytingga ega bo'lgan guruh tushib ketadi yoki ba'zida eng past darajadagi guruh tushib ketadi - hammasi gipotezaga bog'liq. "C (variable_of_interest)" usuli yordamida buni avtomatik tarzda amalga oshiradi.

    Xulosa qilib aytganda, tahlil GRE skorlari, GPA va universitet bakalavriat obro'sining dasturga kirishga ta'sirini o'rganadi. API formulasidan foydalanib, umumiy tuzilish quyidagicha smf.logit (formula:#272822; to'lib ketish: avtomatik; kenglik: avtomatik; chegara: qora; chegara kengligi: .1em; to'ldirish: .1em; ">

    Logistika regressiyasini talqin qilish

    Model xulosasida koeffitsientlar, standart xato, bog'liq z-skor va 95% ishonch intervallari ko'rsatilgan. Biz natijalarni quyidagicha talqin qilamiz, umumiy model LLR p-qiymati

    Raqamli o'zgaruvchilar

    Uzluksiz o'zgaruvchilarni talqin qilish ularni chiziqli regressiya modelida talqin qilishdan unchalik farq qilmaydi. Gre balining har bir birlik ortishi uchun qabul qilishning log koeffitsienti 0,0023 ga oshadi; har bir birlik uchun gpa ortishi uchun, kirish ehtimoli 0,8040 ga oshadi.

    Kategorik o'zgaruvchilar

    Kategorik o'zgaruvchilar boshqacha talqin qilinadi. 1 -darajali tahlildan chetlatilganligi sababli, bu taqqoslash guruhi va boshqa toifalarni talqin qilishda muhim rol o'ynaydi. Misol uchun, agar abituriyent 1 -darajali universitetga qaraganda 2 -darajali universitetda o'qigan bo'lsa, qabul qilishning koeffitsienti -0.6754 kamayadi; agar abituriyent 1 -darajali universitet bilan solishtirganda 3 -darajali universitetga o'qishga kirgan bo'lsa, qabul qilish koeffitsientining -1.3402 kamayishi kuzatiladi.

    Logistik regressiyani bir qadam oldinga surish

    Kundalik farqlarni talqin qilish, uning ta'siri haqida o'ylashda juda oson emas. Topilmalarni talqin qilishning eng oson yo'li - logistika regressiya modeli koeffitsientlarini toq nisbatlarga aylantirish. Buni koeffitsient qiymatining eksponentini olish orqali amalga oshirish mumkin.

    YoKI z-qiymati 2,5% 97,5%
    To'xtatish 0.018500 0.000465 0.001981 0.172783
    C (daraja) [T.2.0] 0.508931 0.032829 0.273692 0.946358
    C (daraja) [T.3.0] 0.261792 0.000104 0.133055 0.515089
    C (daraja) [T.4.0] 0.211938 0.000205 0.093443 0.480692
    gre 1.002267 0.038465 1.000120 1.004418
    gpa 2. 234545 0.015388 1.166122 4.281877

    Endi talqin qilish osonroq. Logistika koeffitsientlarini koeffitsientlarga aylantirish DVga ta'sirini izohlashni osonlashtiradi. Ishonch intervallari ham koeffitsiyentlarga aylantirildi.

    Raqamli o'zgaruvchilar

    Har bir birlik gpa ortishi uchun qabul qilinish ehtimoli 2,235 marta oshadi; gre balining har bir birlik oshishi uchun qabul qilish ehtimoli 1,002 barobar oshadi.

    Kategorik o'zgaruvchilar

    Hali ham natijalarni qoldirilgan guruh bilan taqqoslash. 2 -darajali universitet abituriyentlari 1 -darajali universitet bilan solishtirganda 0,509 qabul qilinadi; 3 -darajali universitet abituriyentlari 1 -darajali universitetga qaraganda 0,262 qabul qilinadi va hokazo.