誰在橢圓形辦公室發(fā)推:機(jī)器學(xué)習(xí)揭露川普推文的真實(shí)作者
你是否好奇,名人在社交網(wǎng)絡(luò)上發(fā)的消息,哪些是自己寫的,哪些是工作人員寫的呢?Coursera數(shù)據(jù)科學(xué)社區(qū)導(dǎo)師(Community Mentor)Greg Rafferty使用機(jī)器學(xué)習(xí)技術(shù)分析了川普的推文,預(yù)測(cè)哪些推文是川普親自發(fā)的,哪些推文是工作人員所發(fā)。
我創(chuàng)建了一個(gè)推特機(jī)器人@whosintheoval,這個(gè)機(jī)器人會(huì)轉(zhuǎn)推唐納德·川普的推特,然后預(yù)測(cè)這條推是否是川普本人所寫。在閱讀下文了解我是如何創(chuàng)建模型的之前,別忘了在推特上關(guān)注這個(gè)機(jī)器人。
我是Greg Rafferty,灣區(qū)的一個(gè)數(shù)據(jù)科學(xué)家。你可以在我的github上查看這個(gè)項(xiàng)目的代碼,也可以訪問我的LinkedIn頁面。有任何疑問和反饋,都?xì)g迎和我聯(lián)系。
動(dòng)機(jī)
2017年12月1日,邁克爾·弗林(Michael Flynn)承認(rèn)向FBI撒謊了。12月3日,川普的個(gè)人推特賬號(hào)發(fā)了這樣一條推:
由于弗林向副總統(tǒng)和FBI說謊,我不得不解雇了他。他已經(jīng)對(duì)這些謊言認(rèn)罪。這真可恥,因?yàn)樗谶^渡期間的行為是合法的。沒什么好隱瞞的!
這條推引起了很大的爭議,因?yàn)樵谶@一年的2月14日,在弗林辭職之后,川普曾要求FBI局長詹姆斯·科米(James Comey)停止對(duì)弗林的所有調(diào)查。如果川普在向科米要求時(shí)已經(jīng)知道弗林確實(shí)向FBI說謊了,那么川普的推特是川普試圖妨礙司法的證據(jù)。在若干法律專家主張這一觀點(diǎn)之后,川普為自己辯護(hù),聲稱撰寫并發(fā)布這條推的是他的律師約翰·多德(John Dowd)。然而,果真如此嗎?
介紹
本文分為四部分:
背景
特征選取
模型
結(jié)果
當(dāng)中的兩小節(jié)(特別是模型那一節(jié))技術(shù)性比較強(qiáng);所以如果你對(duì)此不感興趣,可以直接跳到結(jié)果一節(jié),看看到底是誰發(fā)了關(guān)于弗林的那條推。
背景
文本分析取證是一門“古老的”機(jī)器學(xué)習(xí)技術(shù),在各種各樣的案例中得到應(yīng)用,比如識(shí)別大學(xué)炸彈客(Unabomber),發(fā)現(xiàn)羅伯特·加爾布雷斯(Rob Galbraith)是J·K·羅琳(J. K. Rowling)的筆名,確定《聯(lián)邦黨人文集》中特定文章的歸屬。我們這個(gè)項(xiàng)目嘗試使用這一機(jī)器學(xué)習(xí)技術(shù)識(shí)別@realDonaldTrump所發(fā)的推是否是川普本人所寫。然而,這一任務(wù)比較特別,非常具有挑戰(zhàn)性,因?yàn)橥莆亩挤浅6獭谌绱硕痰奈谋局袥]有太多的信號(hào)可供分析。不過,我最終還是成功了,精確度幾乎達(dá)到了99%. 你可以關(guān)注我的推特機(jī)器人@whosintheoval,這樣一旦川普發(fā)推,你就可以實(shí)時(shí)查看相應(yīng)的預(yù)測(cè)。
數(shù)據(jù)
2017年3月26日之前,川普使用三星Galaxy發(fā)推而他的工作人員使用iPhone發(fā)推;谶@些推文的元數(shù)據(jù),我們可以知道是川普本人還是他的工作人員在發(fā)推(參考這些具體討論這一假設(shè)的文章的鏈接)。在此之后,川普轉(zhuǎn)而使用iPhone,因此發(fā)推者的身份無法基于元數(shù)據(jù)得出,需要通過推文內(nèi)容推斷。
我使用了Brendan Brown的Trump Tweet Data Archive(川普推文數(shù)據(jù)歸檔),得到了川普賬號(hào)在2009年中至2017年末所發(fā)的所有推文,約有33000條。盡管我知道推文來自于哪個(gè)設(shè)備,作者身份仍有一些模棱兩可,因?yàn)槿藗冎来ㄆ沼袝r(shí)會(huì)向助理口述發(fā)推內(nèi)容,因此一條具有川普特色的推文可能發(fā)自非川普所有的設(shè)備,同時(shí)(特別是大選期間)推文可能是由川普和助手們共同撰寫的,沒有明確的作者。
川普推特賬號(hào)從開始(2009年5月4日)至停止使用Android設(shè)備(2017年初)的超過30000條推文我知道(至少有比較大的把握能猜到)作者(關(guān)鍵在于,關(guān)于弗林的推文不在這一期間,所以我讓我的模型猜測(cè)真正的發(fā)推者——本文之后的結(jié)果一節(jié)會(huì)更多地討論這個(gè))。這30000條推文基本上是在Android和非Android設(shè)備間均勻分布的(47%/53%),所以不用擔(dān)心類別失衡問題。這是我用的訓(xùn)練數(shù)據(jù)。使用若干不同的技術(shù),我基于數(shù)據(jù)創(chuàng)建了將近900個(gè)不同的特征,我的模型可以使用這些特征預(yù)測(cè)作者。
選擇特征
我查看了六方面的特征以建立模型:
川普的癖好
風(fēng)格
情感
情緒
遣詞
語法結(jié)構(gòu)

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書》
-
8月5日立即報(bào)名>> 【在線會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
推薦專題
- 1 AI 眼鏡讓百萬 APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺語言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國跨境支付十大趨勢(shì)
- 5 中國最具實(shí)力AI公司TOP10
- 6 深圳跑出40億超級(jí)隱形冠軍:賣機(jī)器人年入6.1億,港股上市
- 7 特斯拉Robotaxi上路,馬斯克端上畫了十年的餅
- 8 “AI六小虎”到了下一個(gè)賽點(diǎn)
- 9 張勇等人退出阿里合伙人
- 10 AI視頻,攪動(dòng)1.5萬億市場(chǎng)