看板 EAseries 關於我們 聯絡資訊
無意間看到這篇文章 覺得蠻有趣的 雖然說內容我也是有看沒懂 不過似乎是在第七季開播前做的預測 而到目前第二集所做的預測都有實現 .. 有第七季雷 文長 煩請慎入~ https://buzzorange.com/techorange/2017/08/02/predict-game-of-thrones-character-dead/ 原文 https://cns.ceu.edu/article/2017-07-08/network-science-predicts-who-dies-next-game-thrones 數據分析也能預測美劇劇情?博士生神預測《冰與火之歌》龍媽要領飯盒了 http://imgur.com/a/MnzlC 大數據文摘作品,作者 | Milan Janosov,編譯 | Aileen、康璐、大力 新一季的《權力的遊戲》終於開!播!了! 和各位望眼欲穿的粉絲一樣,我也無比好奇,黑腦洞的編劇在這一季又安排了哪些角色去 領盒飯。所以我決定,做一個按照角色死掉可能性進行高低排序的排名算法。 本文的全部分析結果在新一季開播前已經完成,如與劇情雷同,純屬巧(牛)合(逼)。 http://imgur.com/a/8dTlH 《權力的遊戲》的世界和人物關係非常複雜,社會地位和真正的朋友顯得格外重要,所以 我用網絡科學(Network Science)工具來量化每一個角色的社會互動模式,用機器學習 的方法預測他們的命運。 建立維斯特洛大陸 Westeros 的社交網絡 我在 一個粉絲網站 上收集對話格式的劇中字幕作為數據源。不幸的是,第二季和第三 季的多數劇集都是缺失的,但是剩下的四季,包含將近 600 個場景,都能夠用統一格式 獲取。 首先,我建立了劇中社交系統的集成網絡。在這個網絡中,每個節點都代表一個故事中的 角色, 每兩個點之間的連線粗細代表他們的關係強度。 我把劇中的場景作為衡量社交互 動的基礎單位(每集平均有大概 20 個場景)。這代表 兩個人物在同一個場景中出現一 次(n 次)就會有一個強度為 1(n)的關係聯結 ,並且在一個場景中出現的任意兩個人 都會互相聯結。換句話說,場景就是完備圖(complete graph),或者團集(clique), 在其中出現的任意一對人物都會讓自己的關係強度增加。通過計算這些場景級的完備網絡 ,並且把他們集成起來,我們會得到維斯特洛大陸上 Westeros 的全局社交網絡(與全景 相鏈接),這張網絡有將近 400 各結點和超過 3000 條邊。 http://imgur.com/a/rJHaS 在網絡可視化中,不同大家族中的成員用不同的顏色表示(例如,藍色—史塔克家族 Starks,紅色—蘭尼斯特家族 Lannisters,黃色—馬泰爾家族 Martells),其他非大家 族成員都用灰色表示。 結點的大小與角色的聯繫人個數成比例,最核心的角色名稱標注在了結點旁邊。度(下文 會解釋什麼是節點的度)較低的、不那麼有趣的節點被過濾掉了。 我們可以發現什麼都不懂的瓊恩. 雪 Jon Snow 的周圍是個獨立的社交群體,這表示北境 長城附近的角色與王國內其他角色的聯繫極少。小惡魔 Tyrion 有一個獨立的角色:他將 龍媽 Daenerys Targaryen 與社交網絡的的中心包括君臨城聯繫起來。這個中心主要包括 兩個大型集群,即史塔克家族 Starks 和蘭尼斯特家族 Lannisters 以及他們影響和交互 過的區域,譬如像史塔克 Stark 和徒利 Tully 家族(狼媽家)的結盟,以及蘭尼斯特家 族 Lannisters 和馬泰爾家族 Martells 之間的衝突,這些在故事的核心形成了一張緊密 的網。 http://imgur.com/a/wn8EA 下面我們瞭解一下數學原理。節點的重要程度有多重度量方法。我們認為這些度量指標能 夠表明一個角色在這個社交生態系統中的重要性。這些指標包括: (1)節點度—一個角色有多少聯繫人; (2)加權度—節點邊權值的和; (3)群集性—各對聯繫人節點互相聯繫的頻率; (4)中間中心性—通過度量一個節點出現在另外節點對之間最短路徑上頻率,衡量它在 多大程度上是一座信息溝通橋梁。 除了更好地解誰重要誰不重要之外,我們也能從前六季中哪些角色領盒飯的數據中吸取經 驗。我們目標是把網絡位置和幸存者聯繫起來: 位置是否能預測幸存概率? 換句話說 , 我們希望訓練一個算法,來弄清楚哪個網絡指標能夠預測一個角色是否死亡。 http://imgur.com/a/JHHmh 表 1:六個隨機角色的特徵集(基於網絡分析)和目標變量(前六季中角色是否死亡) 橫坐標:小喬大帝、班楊史塔克、希恩葛雷喬伊、瓊恩雪、梅麗桑卓 縱坐標:度、加權度、網頁排名、群集性、特徵中心性、緊密中心性、中間中心性、死亡 與否 http://imgur.com/a/bB2wR 開始我的表演:強力預測 有 94 個角色值得我們關注。他們都可以用七個不同的基於網絡的指標來描述,這些指標 代表了不同維度的社交重要度。我們也知道哪些角色已經死了(其中的 61 個)。基於這 些指標,通過下面的方法,對於哪個角色會在接下來死去我們可以形成有根據的推測:瞭 解還活著的人有哪些和已經死去的角色有相似的特徵。這個問題類似於眾所周知的流失問 題,多種基於分類的算法能解決這類問題。在這個分析中我們使用 SVM(支持向量機), 這也是最準確的模型。如果你想自己在家嘗試的話, 它在 Python 中有一個很容易上手 的應用 。 機器學習算法會把所有特徵計算在內,並預測目標變量可能的值。在這個例子中,數據被 多次隨機分為測試和訓練集,所有分組數據都能生成預測值,並進一步得到最終結果。 http://imgur.com/a/XlaZb 在這種交叉驗證中,SVM 分類器有 72.3% 的概率預測到正確的分類結果(死了或者活著 ),考慮到數據的類型和規模這個結果是合理的。為了說明模型準確度,模型認為有八個 角色不應該死掉,但是在故事中他們死了—模型無法預測到他們的死亡。比如小玫瑰 Margaery Tyrell —似乎皇后死亡比皇帝死亡可能性小,還有 Janos Slynt(前都城衛隊 司令),他被從君臨城流放到了北境長城,導致他極有勢力的朋友無法救他,儘管模型建 議他們去救。 需要說明的是, 有其他一些手段可以增加預測的準確性,例如引入其他特徵類型(比如 :性別、是否是貴族、對話情感分析等等),擁有更完備的數據集,對比電視劇和原著小 說等。這個模型也忽視了一些差異性,如瓊恩雪 Jon Snow 死而復生、班楊史塔克 Benjen Stark 介於活與死之間。 http://imgur.com/a/ikMx3 結論—劇透預警! 使用 SVM 模型我們得到了答案——每個重要角色死亡的概率。因為網絡指標經常相關性 很高,我們無法找到單獨一個或兩個能非常準確預測結論的指標,但 似乎高中間中心性 ,低群集性和高節點度的角色更不容易被殺害。 不論在哪種情況下,機器學習在大量的特徵中準確的找到了隱藏的關係。在預測中,我使 用五折交叉檢驗,並且把這個過程重複了 100 次來獲得統計值和概率誤差的估算。最後 ,下面是按照最終預測模型顯示的 存活率升序排列的角色列表 : http://imgur.com/a/MDwJd 表 2:在一百次概率值重復預測(五折交叉檢驗)後,獲得的《權力的遊戲》的角色和他 們基於網絡中心模式的死亡概率及誤差。 橫坐標從上而下分別為:Tyene(紅毒蛇的小女兒)、龍媽、灰蟲子、勞勃艾林(乖羅賓 ,新任鷹巢城公爵)、波德瑞克(小惡魔前侍從)、艾德慕徒利、大瓊恩安柏、賈坤、波 隆、艾麗婭史塔克、獵狗桑鐸克里岡、美人布蕾妮、梅麗桑卓、老玫瑰奧倫娜提利爾、雅 拉葛雷喬伊、次子團團長達里奧納哈里斯、詹姆蘭尼斯特、詹德利(勞勃拜拉席恩的私生 子)、布蘭登史塔克、三傻史塔克、八爪蜘蛛瓦里斯、小惡魔提利昂蘭尼斯特、小指頭培 提爾貝里席、科本學士 縱坐標:死亡概率、誤差 http://imgur.com/a/kHkTG 預測死亡概率最高是這位妹子…我說什麼好…(我什麼也沒說!劇透可恥!) 這個死亡概率列表告訴我們很多有趣的事: 由於和很多死亡嫌疑人的網絡重疊,龍媽 Daenerys 很可能馬上會掛,但小惡魔 Tyrion 和瓊恩雪 Jon Snow 是相對安全的。 一直受歡迎的艾麗婭史塔克 Arya Stark 和不太友好的獵狗,之前已多次面臨死亡,現在 也都在非常危險的位置上。 令人驚訝的,現在正坐在鐵王座上的瑟曦 Cersei,和正在努力爭取坐上去的小指頭 Baelish,看起來安全的多。 看起來喬拉莫爾蒙爵士 Jorah Mormont 將會找到灰鱗病的治療方法,儘管希恩葛雷喬伊 歷盡艱難,卻可能會幸存。(咳咳!劇透可恥!) 可惜的是,鷹巢城艾林家族的命運就很難說了。 嗯…是很有趣…各位怎麼看? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 111.185.3.81 ※ 文章網址: https://www.ptt.cc/bbs/EAseries/M.1501662331.A.885.html
tchaikov1812: 現在連猜劇情也要大數據了XD 08/02 16:35
demimini: 沙蛇妹--這個有準 但龍媽不到結尾不可能死 08/02 16:38
ctgplayer: 我以為哪個博士在生前預測的..... 08/02 16:40
Shauter: 這也不是啥大數據 SVM還是超古老的機器學習演算法...... 08/02 16:42
Shauter: 所以看起來很酷 其實應該滿多人早就做過了 還要博士? 08/02 16:42
Shauter: 我大學跟碩班都玩過了 08/02 16:43
Akira12Hsu: 這標題看起來是某個博士生前預測沒錯啊 08/02 16:49
macrose: 生前預測... 08/02 16:53
mimotoki: 以為那個預測的博士已經往生了..... 08/02 16:54
saphir: 生前預測.. 08/02 16:57
duo131: 這題目在kaggle上不是一職很紅 08/02 17:24
Cishang: R.I.P 08/02 17:42
Lemming: 看成生前預測+1 XD 08/02 17:56
awesomeSS66: 沒參考價值 08/02 18:05
tinacha: 以為掛了+1 應該標題打錯字吧 08/02 18:10
junkuo: 預測現實生活可能有意義,戲劇就比較沒有了 08/02 18:12
Akira12Hsu: 人家本來標題明明就是 "博士生神預測" 趕緊改一下吧.. 08/02 18:56
SevenSins: 剛才看內文一直在想說是誰的"生前"寫的 08/02 22:04
photoless: 沒意義 08/02 23:07
f9999: 是因公殉職追贈三級的意思? 08/02 23:54
pseudomorph: 推文好好笑~ 08/03 00:38
andy02: 至少有留下成就 人生沒有白費 08/03 00:40
legendarysoy: 生前預測??? 08/03 01:04
jjimmy: Obara掛啦~ 08/03 01:46
jjimmy: 看來安全名單也不怎麼安全 08/03 01:47
cwilly876: /a/ 08/03 02:58
awhat: 博士RIP 08/03 11:30
awhat: 另外就算是簡單的演算法...也沒有說只有大學生或碩士生可以 08/03 11:31
awhat: 用吧~.~ 08/03 11:31
awhat: Machine Learning設計參數比算法本身重要 08/03 11:33
awhat: 會用演算法不代表你設計的參數是正確的,需要經驗 08/03 11:34
awhat: 但我對這預測有沒有意義是存疑啦...像龍女這類戲份吃重的角 08/03 11:46
awhat: 色太少,可能有樣本數不足的問題 08/03 11:46
w805515: 數據再大,是有編劇之力大嗎? 08/03 12:02
cyh33: 博士RIP 08/03 15:51
ohlong: 死又不代表不能復活 08/03 22:05
fasthall: SVM感覺就不是最適用的模型 08/04 00:36
a2016596: 生前預測… 08/04 02:01
Fates: 完整捏他都出來了 對一下就知道這篇錯很大 08/04 11:39
earthrise: 為何要用這種農場標題 08/04 13:52
han7788: 我到底看了三小朋友 08/04 14:16
GGylin: 我只能說 人被殺 就會死 08/05 17:17
bowenwin: 發文請尊重自己也尊重別人 檢查一下 08/05 17:29
light20735: 標題很白癡 08/05 18:13
onixs: 龍媽已經說了,她會演第八季,所以這篇根本完全被打臉 08/06 22:34
sliverexile: R.I.P 08/07 12:50