Nyu-York Tayms nashrini chop etgan qarshilik a'zosini qidirish

Chorshanba kuni tushdan keyin, Nyu -York Tayms gazetasida, Oq uyning ba'zi maslahatchilari o'rtasida, Trumpning o'ta ehtiyotkor moyilligini cheklash haqidagi maxfiy qarama -qarshiliklar haqida ma'lumot tarqatilgan, bu kamdan -kam uchraydigan gazetaning anonim nashri. nashr qilingan. Muallifi faqat "Trump ma'muriyatining yuqori lavozimli amaldori" deb nomlangan ustun, muallifni zudlik bilan ishdan bo'shatib yubormaslik uchun, anonimlik niqobi ostida yozilgan, ammo o'quvchilar hikoyaning muhim xabariga emas, balki muhim xabariga e'tibor qaratishlari mumkin edi. messenjerda. Bir necha soniya ichida bu maqola virusga aylandi va 2018 yilgi kabi, Twitter va butun mamlakat bo'ylab siyosiy ekspertlar darhol muallifni qidirishdi. Ko'p sonli nazariyalar tezda tarmoqlararo to'rni to'ldirib yubordi va bir necha soat ichida bir nechta bukmeykerlar pul tikish imkoniyatlarini e'lon qilishdi.Internet -tergovchilar muallifning kimligini ko'rsatadigan g'alati iboralarni ajratishgan bo'lsa -da (maqolani o'qishdan oldin "lodestar" nimani anglatishini bilgan deb da'vo qiladigan har bir kishi uchun - Google Trends kvitansiyalarni saqlaydi), men ma'lumot faniga to'liq o'rganib qolganman. oxirgi 3 oy mobaynida muallifning shaxsini ochish uchun tabiiy tilni qayta ishlashdan foydalanish mumkinmi yoki yo'qmi, deb o'ylab qoldim. Mana, ishni ochishga bo'lgan birinchi urinishim.Mana, ishni ochishga bo'lgan birinchi urinishim.Mana, ishni ochishga bo'lgan birinchi urinishim.

Taxminlar

Birinchidan, men ustun haqida ba'zi taxminlar qilishim kerak edi. NYT tvitida dastlab muallifga "u" deb aytilgan bo'lsa (keyinchalik Times vakili buni xato deb tushuntirgan), men muallifning jinsi shunchalik beg'ubor tarzda oshkor qilingan degan tushunchaga e'tibor bermaganman. Buning o'rniga, men ularni erkak deb atashgan deb o'ylardim, chunki ma'muriyatda yuqori martabali ayollarning yo'qligi, agar muallif ayol sifatida oshkor qilinsa, jamoatchilikka o'z shaxsini oshkor qilishni osonlashtiradi. Men, shuningdek, fikrlar muallifi o'z ovozi bilan yozilgan deb taxmin qilishim kerak edi, aksincha, uni spiker yozgan yoki juda qattiq tahrir qilgan, uni muallifning o'ziga xos uslubiga mos keltirib bo'lmaydi.Axios'dan Jonatan Svandan oldingi hisobotda, Oq uy amaldori, ular "boshqa xodimlarning idiomalariga qanday e'tibor berishlari va ularning izlarini yopish uchun" o'z so'zlarining fonida "ishlatishlari haqida batafsil ma'lumot bergan.

Mening yakuniy taxminim shuki, ma'muriyat mansabdor shaxsining ochiqchasiga rad etishi, bu odamning maqolani yozganligini istisno qilmaydi, chunki uning chiqishining dahshatli oqibatlarini bilib, ularning ishtiroki haqida yolg'on gapirish ularning manfaati. Bu taxminlarsiz, muallifni aniq bashorat qilish imkonsiz bo'lardi va shuni ta'kidlashim kerakki, bu mashq hozirda aniq bo'lmagan tadqiqotdir.

Mening taxminlarim hal bo'lgach, men potentsial mualliflar ro'yxatini olishim kerak edi. Afsuski, men ham, mamlakat uchun ham, ijro etuvchi hokimiyatning keng doirasini qamrab oladigan, potentsial nomzodlarning dahshatli uzun ro'yxati bor edi.

Vaqtni qiziqtirgan holda, men o'z ro'yxatimni uch kishiga qisqartirdim, ularning har biri ishonchli nomzod bo'lgan, shuningdek, Internetda e'lon qilingan ma'ruzalari va ma'ruzalari bor edi. Men ko'rib chiqmoqchi bo'lgan uchta shaxs - vitse -prezident Mayk Pens, Birlashgan Millatlar Tashkilotidagi elchisi Nikki Xeyli va hozirgi iqtisodiy maslahatchilar kengashi raisi Kevin Xasset. Pens "lodestar" so'zining g'alati ishlatilganligi sababli kiritildi, u maqola chiqqanidan bir necha daqiqa o'tgach Twitter foydalanuvchisi @danbl00m tomonidan vitse -prezident (va hech kimga o'xshamaydigan) tez -tez ishlatiladigan so'zlardan biri sifatida topilgan. Maqolada tashqi siyosatdagi muvaffaqiyatsizliklar va iqtisodiy va tartibga soluvchi yutuqlar bilan faxrlangan narsalar batafsil ko'rib chiqilgan, shuning uchun men har bir fan bo'yicha mutasaddilarni kiritishni lozim deb bilardim.Men Xeyli va Xassetni tanladim, chunki mening fikrimcha, ular ikkalasi ham yuqori martabali amaldorlar, aksariyat hollarda hozirgi paytda Oq uyni qamrab oladigan televizion reallikdan uzoqlashgan.

Kosinika o'xshashligi

Men ko'rib chiqmoqchi bo'lgan uchta nomzodning ro'yxatini olganimdan so'ng, men Internetda o'sha odamlarga tegishli fikrlar yoki boshqa maqolalar va nutqlarni topdim. Men ishlatiladigan birinchi egallaydi Cosine o'xshashligi1 ko'proq o'xshash hisoblanadi yaqinroq bir chiqishi bilan, o'xshashlik o'lchash uchun ikki Vektorlu korpora o'rtasidagi kosinus burchakka foydalanadi. Har bir korpusni vektorlarga aylantirish uchun chastotaga teskari hujjat chastotasi (TF-IDF) yordamida potentsial mualliflar va anonim qarshilik a'zosi o'rtasidagi o'xshashlikni hisoblay oldim.

Yaxshi xabar shundaki, har bir muallifning kosinus o'xshashligi 1 ga yaqin edi, bu yaxshi o'yinni bildiradi. Yomon xabar shundaki, barcha uchta raqamlar bir -biriga shunchalik yaqin guruhlangan ediki, ularning qaysi biri muallifga ko'proq o'xshashligini aniqlashning iloji bo'lmadi. Men uchta kosinika o'xshashligi o'rtasidagi farqning yo'qligi kichik maqsadli maqsadga bog'liq, deb o'yladim, bu holda faqat ochilgan ustunga yozilgan 881 so'z.

TF-IDF o'lchamlarini kamaytirish

Men sinab ko'rgan keyingi usul-har bir nomzodning TF-IDF vektor matritsasining o'lchamlarini t-SNE yordamida uch o'lchovgacha qisqartirish va keyin har bir nomzodning yozuvchi bilan boshqalarga qaraganda ancha yaqinroq ekanligini aniqlash edi. Meni hayratga solganimdek, 4 nuqta men tasavvur qilganimdek bir tekisda tarqaldi va muallif kim bo'lishi mumkinligi haqida hech qanday tasavvurga ega emas edi.

Mualliflik huquqi

Mening oxirgi urinishim Neil Yager tomonidan ishlab chiqilgan mualliflik atribut kodidan foydalanilgan bo'lib, u qaysi muallif matn yozgan bo'lishi mumkinligini taxmin qilish uchun to'rt xil xususiyatni tahlil qiladi. To'rtta xususiyat quyidagilar edi: leksik xususiyatlar, masalan, jumlada so'zlarning o'rtacha soni va muallifning so'z boyligi hajmi; Tinish belgilari,ular jumlaga o'rtacha vergul, nuqta va nuqta qo'yishni o'z ichiga oladi; "Sumkalar so'zlari" funktsiyasi,ba'zi so'zlar hujjatda qanchalik tez -tez uchrab turishini aks ettiradi; va sintaktik xususiyatlar,har bir so'zni ma'lum bir nutq qismiga (ism, fe'l va boshqalar) tasniflaydi. Ko'pgina NLP holatlarida, barcha hujjatlarda tez -tez uchraydigan "va" kabi so'zlarni olib tashlash odatiy holdir; ammo, mualliflik atributi oddiy matn tasnifidan farq qiladi va mualliflar bu umumiy so'zlarni aniq, ammo izchil tarzda ishlatishadi, degan fikr bor.

Vektorli vektorlarni yaratgandan so'ng, men funktsiyalar maydonida uchta klasterni topa boshladim, umid qilamanki, hech bo'lmaganda, agar hamma op -eda bo'lmasa ham, nomzodning klasterlari bilan bo'lishadi. Men buni uchta klasterda sinab ko'rishga qaror qildim, bunda uchta mashhur muallifning har biri o'z xususiyatlarini noyob klasterlar tarkibiga kiritadi, deb taxmin qilgan edim va nashr qilingan xususiyatlar ulardan biriga kiradi.

Jadvaldagi har bir satr boshqa xususiyatni ifodalaydi, ustunlar to'rt xil muallifni ifodalaydi (oxirgi ustun nashr qilingan). Raqamlar har bir xususiyat qaysi klasterga tegishli ekanligini ko'rsatadi. Shunga qaramay, natijalar aniq emas, garchi ular oldingi ikkita yondashuvga qaraganda biroz ko'proq ma'lumot beradi. Nashrning tinish belgilari va so'zlar to'plami Nikki Xeyliga o'xshash xususiyatlarga ega bo'lgan klasterni taqsimlaydi, shu bilan birga uning boshqa xususiyatlari ham boshqa ikkita muallifning mos keladigan xususiyati bilan bir xil klasterga kirmaydi. Bu to'g'ri yo'nalishdagi qadam, lekin hali aniq javob bermaydi.

Yaqin kunlarda ma'muriyatning qo'shimcha a'zolaridan ma'ruzalar va maqolalar yig'ib, chiqib ketadigan amaldor bormi, deb umid qilaman. Bu dastlabki urinish menga aniq bashorat qilish uchun foydalanishim kerak bo'lgan texnikani yaxshi tushunishga imkon berdi. Men ushbu modelni takomillashtirishni va muallifning haqiqiy kimligi to'g'risida ishonchli taxminni kutmoqdaman.

Yangilanish:WikiLeaks * qidiruvni yoshi kattaroq konservativ erkak uchun toraytiradi.