誰(shuí)在橢圓形辦公室發(fā)推:機(jī)器學(xué)習(xí)揭露川普推文的真實(shí)作者
川普的癖好
有時(shí)候數(shù)據(jù)科學(xué)更像是藝術(shù)而不是科學(xué)。在開始構(gòu)建模型的時(shí)候,我首先考慮自己作為人類如何識(shí)別一條推文是川普式的。然后盡我所能將這些“感覺”轉(zhuǎn)換為基于規(guī)則的代碼。有一些明顯的癖好,可以識(shí)別是否川普本人在鍵盤后面,例如,全部使用大寫,隨機(jī)大寫某個(gè)特定詞匯,以及無(wú)理由!地使用感嘆號(hào)。!
事實(shí)上,我的模型中最緊要的特征之一就是引用轉(zhuǎn)推?雌饋(lái)川普不知道如何在推特上轉(zhuǎn)推別人的推文。在整個(gè)33000條推文的語(yǔ)料庫(kù)中,僅有一條來(lái)自Android設(shè)備的方法正確的轉(zhuǎn)推。在其他轉(zhuǎn)推中,川普復(fù)制別人的推文,@用戶,然后用引號(hào)包圍推文,然后自己發(fā)布:
這些轉(zhuǎn)推經(jīng)常(并非總是)是像這樣的自我慶祝推文。在本文后面討論結(jié)果的部分,你會(huì)看到,川普傾向于大量@自己,其原因就是這樣的轉(zhuǎn)推。
風(fēng)格
這里的風(fēng)格特征指可以用來(lái)識(shí)別任何一個(gè)推特用戶的特征,而不是指川普的個(gè)人風(fēng)格。風(fēng)格特征包括每條推文的平均長(zhǎng)度,每句話的平均長(zhǎng)度,每個(gè)單詞的平均長(zhǎng)度。我也考察了各種標(biāo)點(diǎn)符號(hào)的使用頻率(川普幾乎從不使用分號(hào);他的助手們相對(duì)而言經(jīng)常使用分號(hào))。@提及、#標(biāo)簽、URL的數(shù)目最終都成為強(qiáng)有力的預(yù)測(cè)特征。最后,在星期幾和一天的什么時(shí)間段發(fā)推也泄露了不少信息。
情感
我使用了C.J. Hutto的VADER包來(lái)提取每條推文的情感。VADER是Valence Aware Dictionary and sEntiment Reasoning的簡(jiǎn)稱(因?yàn),我猜,VADSR聽起來(lái)很蠢?),是一個(gè)為社交媒體特別調(diào)制的基于詞典和規(guī)則的工具。給定一個(gè)文本字符串,VADER為文本的消極性、積極性和中性各自輸出一個(gè)0到1之間的小數(shù),以及一個(gè)-1到1之間的匯總指標(biāo)。
關(guān)于VADER包的開發(fā)、驗(yàn)證、評(píng)估的完整描述可以參考這篇論文。VADER的精髓是,包作者首先構(gòu)造了一個(gè)對(duì)應(yīng)情感的詞匯特征的列表(用簡(jiǎn)單英語(yǔ)來(lái)說(shuō),“單詞和短語(yǔ)”),然后將這一列表與一些規(guī)則組合起來(lái),這些規(guī)則表述了短語(yǔ)的語(yǔ)法結(jié)構(gòu)如何加強(qiáng)或減弱這一情感。VADER的表現(xiàn)(精確度96%)超過(guò)了人類(精確度84%)。
情緒
加拿大國(guó)家研究委員會(huì)(National Research Council of Canada)編制了一個(gè)超過(guò)14000單詞的詞典,其中每個(gè)單詞標(biāo)注了對(duì)應(yīng)2種情感(消極、積極)和8種情緒(憤怒、希望、厭惡、恐懼、快樂、悲傷、驚訝、信任)的評(píng)分。加拿大國(guó)家研究委員會(huì)十分友善地允許我訪問這一詞典,我編寫了一個(gè)Python腳本,遍歷推文中的每個(gè)單詞,通過(guò)查詢這一詞典得出單詞對(duì)應(yīng)的情緒。根據(jù)推文中包含的對(duì)應(yīng)相應(yīng)情緒的單詞的數(shù)目,給每條推文包含的每種情緒分配一個(gè)相應(yīng)的分?jǐn)?shù)。
遣詞
我使用tf-idf技術(shù)分析推文的遣詞,tf-idf是Term Frequency?—?Inverse Document Frequency(詞頻-逆向文檔頻率)的簡(jiǎn)稱;旧,它衡量了文檔中的一個(gè)單詞的描述性和唯一性。例如,你希望分組一些新聞?lì)愇恼,并向讀者推薦相似文章。你讓計(jì)算機(jī)讀取每篇文章,其中一篇的特征是提到了10次“棒球”。那么,“棒球”應(yīng)該是文章中一個(gè)相當(dāng)顯著的單詞!這是詞頻的部分。
然而,同一篇文章同樣提到了8次“說(shuō)過(guò)”?雌饋(lái)這也是一個(gè)相當(dāng)顯著的單詞。但我們?nèi)祟惒⒉贿@么看;我們知道如果若干篇文章都提到了“棒球”,那么它們多半是關(guān)于同一主題的文章,不過(guò)如果若干篇文章都提到了“說(shuō)過(guò)”,這并不能說(shuō)明這些文章的相似性。因此我們查看集合內(nèi)的所有文章使用單詞“棒球”和“說(shuō)過(guò)”的詞頻。比如,結(jié)果是,1000篇文章中,只有30篇提到了“棒球”,卻有870篇提到了“說(shuō)過(guò)”。那么我們將這些單詞在所有文檔中的詞頻的倒數(shù)——1/30和1/870——乘以它們?cè)趩纹恼轮械脑~頻——10和8。這是逆向文檔頻率的部分。所以單詞“棒球”的評(píng)分是10/30 = 0.333,單詞“說(shuō)過(guò)”的評(píng)分是8/870 = 0.009。我們?yōu)槊科臋n中的每個(gè)單詞進(jìn)行這樣的計(jì)算,然后看看哪些文章具有相同的高分單詞。這就是tf-idf。
為了減少我的模型的運(yùn)算需求,我只考察了一元語(yǔ)法(unigram,單個(gè)單詞),沒有考察二元語(yǔ)法(bigram)和三元語(yǔ)法(trigram)。(tf-idf處理二元語(yǔ)法和三元語(yǔ)法的方法和處理單個(gè)單詞的方法一樣。)n元語(yǔ)法每增加一元,相應(yīng)的處理時(shí)間會(huì)指數(shù)級(jí)增長(zhǎng),并且我發(fā)現(xiàn)“Crooked Hillary”或“Lyin’ Ted Cruz”能被“crooked”和“l(fā)yin”代表。我同時(shí)忽略了在超過(guò)99%的推文中出現(xiàn)的詞匯(語(yǔ)料庫(kù)特定的停止詞),以及在不到1%的推文中出現(xiàn)的詞匯。我的這個(gè)項(xiàng)目大量使用了Python的scikit-learn包,它包含了一個(gè)tf-idf實(shí)現(xiàn)。
語(yǔ)法結(jié)構(gòu)
將自然語(yǔ)言處理技術(shù)應(yīng)用到時(shí)效性較強(qiáng)的文本時(shí),遇到的主要挑戰(zhàn)之一是事件隨時(shí)間發(fā)生變動(dòng)。比如,川普競(jìng)選期間的推文多次提到了“Crooked Hillary”和“Lyin’ Ted Cruz”,而川普現(xiàn)在的推文幾乎不提了。我希望刻畫川普推文更基本的形式,因此我使用NLTK將每條推文轉(zhuǎn)換成了詞類表示。
本質(zhì)上,這將每個(gè)單詞轉(zhuǎn)換成了它的詞類,也就是它在句子中的角色,例如,作為名詞的“羞辱”和作為動(dòng)詞的“羞辱”被區(qū)分開來(lái)了。
這將短語(yǔ)“I had to fire General Flynn because he lied to the Vice President and the FBI”轉(zhuǎn)換成它的基本詞類表示“PRP VBD TO VB NNP NNP IN PRP VBD TO DT NNP NNP CC DT NNP”。我使用了Penn詞類標(biāo)記(PRP = 人稱代詞,VBD = 動(dòng)詞過(guò)去式,TO = to,VB = 動(dòng)詞原形,NNP = 單數(shù)形式的專有名詞,等等)。使用之前的tf-idf過(guò)程,不過(guò)這次忽略一元語(yǔ)法,轉(zhuǎn)而關(guān)注二元語(yǔ)法和三元語(yǔ)法,我可以提取更一般的川普或其助手發(fā)推方式。
最后,我使用Stanford Named Entity Recognition (NER) Tagger(斯坦福命名實(shí)體識(shí)別)將推文中的所有人名替換為“PERSON”,所有地名替換為“LOCATION”,所有組織替換為“ORGANIZATION”。這是概括推文的又一嘗試。目前為止,這一NER(命名實(shí)體識(shí)別)過(guò)程是處理這些推文時(shí)計(jì)算開銷最高的過(guò)程,如果我重新進(jìn)行這個(gè)項(xiàng)目,我可能會(huì)認(rèn)真考慮使用一個(gè)次優(yōu)的NER工具(不依賴高級(jí)的統(tǒng)計(jì)學(xué)習(xí)算法的工具),從而顯著提升處理時(shí)間。勿謂言之不預(yù)!
模型如何工作

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 深圳跑出40億超級(jí)隱形冠軍:賣機(jī)器人年入6.1億,港股上市
- 7 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 8 “AI六小虎”到了下一個(gè)賽點(diǎn)
- 9 AI視頻,攪動(dòng)1.5萬(wàn)億市場(chǎng)
- 10 張勇等人退出阿里合伙人