作者krkrjjjpp (H桑)
看板Gossiping
標題[問卦] 有沒有正晶的討厭歐陽娜娜的八卦?(PTT統計)
時間Mon Feb 6 16:01:51 2017
好啦這其實是八卦版小統計資料
,被騙進來的幫QQ
零、先上統計結果,不用End了。以下是八卦鄉民喜歡 / 討厭的字,依序排名
喜歡(p-value) || 討厭(p-value)
--------------------------------------(依照順序排放
|| 越上面代表越喜歡)
正晶(2.20E-16) || 娜娜(2.20E-16)
戰報(2.20E-16) || 歐陽(2.20E-16)
家樂福(2.20E-16) || 陳建州(2.20E-16)
好奇(2.20E-16) || 妮妮(2.20E-16)
今日(2.20E-16) || 盒盒(2.20E-16)
轉錄(7.68E-15) || 共識(2.20E-16)
stevenj(1.16E-14) || 噓(2.20E-16)
論掛(1.26E-14) || 九二(2.20E-16)
懶人(4.23E-12) || 黑人(2.20E-16)
管碧玲(5.95E-10) || 兩岸(2.20E-16)
Dream(6.50E-09) || 王如玄(2.20E-16)
馬雅(1.33E-07) || 朱立倫(2.20E-16)
賭盤(1.70E-06) || 欸(2.79E-16)
遺體(1.79E-06) || 范范(3.05E-16)
救出(1.09E-05) || 范瑋琪(2.83E-15)
.........其餘族繁不及備載
壹、前言
├ 一、發文動機:這篇文章並非論文,省略了許多的 know-how ,
│ 希望能夠用淺顯的方式解說在 PTT 上我發現了甚麼,
│
取之於 PTT ,還之於 PTT 。
│ 也希望版上鄉民前輩不吝指教。
│
├ 二、討論目標:利用簡單的統計方法試著分析 PTT 各版上的
標題文字,
│ 希望能了解使用者們普遍喜歡 / 討厭那些字,
│ 並依序排序出來。
│
├ 三、資料來源:一直到 2016/05/01 為止的八卦版文章,
│
想看流行語風向的這篇文章應該算過時的嘻嘻。
│
順帶一提,大家平均喜歡不一定代表流行。
│ 請注意有些文章當時有備份到,現在已經消失。
│ 另外根據研究方法不同,可能結果會有誤差。
│
├ 四、注意事項:這次
只統計標題,並未分析內部推噓文、文章內容,
│ 因為字詞切割後光是標題產生的向量就高達78.2Gb,
│ 還有各種肥滋滋的關聯矩陣,
│ 我還因此轉壞了一顆硬碟。OAQ <- 87
└
http://i.imgur.com/eDevtve.png
貳、研究方法
(文獻回顧?想看的先承認自己是M)
├ 一、研究流程:直接上圖
http://i.imgur.com/J5BuIuQ.png 喔喔丟~
│
├ 二、資料蒐集:利用爬蟲程式,抓下所有的日期、作者、標題,
│ 並且統計相對應的推噓文。
│
├ 三、方法(模型)選擇:使用顯著差異檢定
│ (statistical significancetest)。
│ 若某一個單字跟其他單字
差異很大,
│ 那麼該單字的
p-value就會較小
│ (虛無假設為兩者沒啥顯著差異)。
│
├ 四、資料前處理
│ ├ a.資料正規化
│ │
│ ├ b.去除作者噪音:篩選掉某些一出現就被推爆 / 噓爆
│ │ 的作者,因為很可能是好惡該作者,
│ │ 而不是好惡這文章標題。
│ │
│ ├ c.去除日期噪音:篩選掉短時間之內大量跟風的標題。
│ │
│ ├ d.訓練字典:若有些字詞被過度斷詞,
│ │ 如:肥宅被切成肥 / 宅,
│ │ 那麼被過度切開的字彼此間,
│ └ 應該會有高度相關性,合併後丟回字典。
│
├ 五、檢驗數據是否合乎統計模型,符合常態分佈、中央極限定理,
│ 以及獨立性、常態性、變異數同質之類的blah blah blah。
│
│ 六、結果排序:每個字詞在檢定完顯著差異後,會得到一個 p 值,
│
p 值越小,差異越大,
│
若 p 很小且推較多判定為普遍喜歡這個字詞,
│
若 p 很小且噓較多判定為普遍討厭這個字詞,
│
er......我就三原色和幾個顏色能挑,沒啥特別意思。
│ 若 p 值相同,則平均較高的優先,
└ 還是相同就編碼優先。
叁、數據分析
├ 一、部分結果
(截圖展示,以免被說鍵盤分析...好像是鍵盤分析沒錯)
│ ├a. 斷詞結果(初步)
http://i.imgur.com/qZVU27n.png
│ │
│ ├b. 作者結果
http://i.imgur.com/GYy8QT3.png
│ │
│ ├c. 初步統計
http://i.imgur.com/fPa0Y0p.png
│ │
│ ├d. 母體分布(對數)
http://i.imgur.com/oLjxzn2.png
│ │
│ ├e. 關聯矩陣
http://i.imgur.com/ZPHXHDK.png
│ │
│ ├f. 顯著差異檢定,以「問卦」為例
------------------------------------------------------------------
│t = 35.272, df = 459960, p-value = 1 │
│alternative hypothesis: true difference in means is less than 0 │
│95 percent confidence interval: │
│ -Inf 0.18317 │
│sample estimates: │
│mean of x mean of y │
│0.6341082 0.4590994 │
------------------------------------------------------------------
│
├ 二、檢定結果
│
│ 喜歡(p-value) || 討厭(p-value)
│ --------------------------------------
│ 正晶(2.20E-16) || 娜娜(2.20E-16)
│ 戰報(2.20E-16) || 歐陽(2.20E-16)
│ 家樂福(2.20E-16) || 陳建州(2.20E-16)
│ 好奇(2.20E-16) || 妮妮(2.20E-16)
│ 今日(2.20E-16) || 盒盒(2.20E-16)
│ 轉錄(7.68E-15) || 共識(2.20E-16)
│ stevenj(1.16E-14) || 噓(2.20E-16)
│ 論掛(1.26E-14) || 九二(2.20E-16)
│ 懶人(4.23E-12) || 黑人(2.20E-16)
│ 管碧玲(5.95E-10) || 兩岸(2.20E-16)
│ Dream(6.50E-09) || 王如玄(2.20E-16)
│ 馬雅(1.33E-07) || 朱立倫(2.20E-16)
│ 賭盤(1.70E-06) || 欸(2.79E-16)
│ 遺體(1.79E-06) || 范范(3.05E-16)
│ 救出(1.09E-05) || 范瑋琪(2.83E-15)
│ 闌尾(1.89E-05) || 陸生(1.06E-12)
│ 獲救(2.23E-05) || 李富城(1.41E-10)
│ 成語(1.06E-05) || 雄文(2.30E-09)
└ 台灣史(4.12E-05) || 包容(1.07E-08)......族繁不及備載
肆、結論
要去當兵啦,趁現在發個廢文賺 p 幣,希望進去後不要被弄到外翻。
相信版上應該有很多神人能做得比小弟好,還請不吝指教。
在這份統計中仍然有很多缺點能夠改進,
例如演算法的改進、加強資源管理、計算信度效度等,
希望以後能夠深入去分析每篇文章內文和個個推噓文內容。
大guy4醬
週六的時候發了一篇,結果排版死活都弄不好QQ
所以有沒有,大家很正晶的討厭歐陽娜娜的八卦?? 0w0
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.230.33.175
※ 文章網址: https://www.ptt.cc/bbs/Gossiping/M.1486368113.A.979.html
推 ymx3xc: 三 02/06 16:03
推 seabox: 這好酷 02/06 16:03
推 leron: 你也太認真的了吧..那你有統計到這半年少了六七千人嗎 02/06 16:03
去版標看顏色拉
推 oppor1l: 可愛盒盒怎麼會討厭!! 02/06 16:04
→ leron: 原本八卦版常駐的人數有兩萬一..現在只剩一萬四 02/06 16:04
噓 if2: 幹嘛花時間研究八卦邊緣人的喜好 02/06 16:04
邊緣人研究邊緣人,很合理
推 gn00029914: 今日 盒盒 比廢文這種低的應該要過濾掉吧? 02/06 16:04
還沒能夠寫出廢文分辨系統QQ
推 meowchen: 如果肥打成月巴的話 要如何p檢定 (? 02/06 16:04
看了一下還真的有,但資料才個位數筆,可以直接丟了
→ lkkgotyy: 外翻? 肛門外翻嗎 02/06 16:04
→ shadow0326: 遺體 02/06 16:05
推 duvw: 八萬常駐,六萬黨工已經入閣了 02/06 16:05
推 pneumo: 認真給推 02/06 16:06
推 gn00029914: 還有葉佩雯一堆也... 02/06 16:07
推 tamama000: 統計學........(逃 02/06 16:07
推 gn00029914: 怎麼會有人自己local做? XD 02/06 16:09
當時系上工作站維修中,想先測幾個資料看看格式,結果最大值多打一個0
→ Cybershit: 該認真研究統計惹 02/06 16:09
→ mayjan: 不錯 你是技術專才 02/06 16:10
推 vivihk215: 推~ 02/06 16:11
推 withjusaka: 你是不是有點閒XD 02/06 16:12
推 Boner: 正晶不就幾個覺青在推文自嗨 又不是真的喜歡 02/06 16:15
所謂統計......(逃)
推 jacktypetlan: 為什麼每個p值都那麼小阿 02/06 16:19
因為本魯矮短肥,所以做出來的資料也很小QQ
※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 16:21:06
※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 16:24:30
推 jacktypetlan: 不好意思 小魯程度很淺 所以意思是 假設 正晶標題 02/06 16:28
→ jacktypetlan: 跟推數有顯著差異 但是結果是p很小> 沒有顯著差異 02/06 16:28
→ jacktypetlan: 這樣嗎? 02/06 16:28
→ jacktypetlan: 但是這樣翻成結果 不是應該是「沒辦法證明大家都不 02/06 16:30
→ jacktypetlan: 喜歡正晶標題 這樣嗎?」小魯只在三年前學過一點點 02/06 16:31
→ jacktypetlan: 的R 懇請指教 02/06 16:31
虛無假設是「沒有顯著差異」,詳情請閱「Type 1 error, type 2 error」
推 MiamiKotori: 神!!!!! 02/06 16:37
※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 16:42:11
推 cg08: 是在認真什麼啦 XDD 02/06 16:43
推 brad850402: 精神給推 02/06 16:43
推 mnnraku: 也太閒w 02/06 16:46
→ lolic: XDDDDDDDDDDDDDDDD 02/06 16:49
推 gn00029914: 當p越小時還會發生 所以這樣才有顯著差異吧? 02/06 16:51
推 gn00029914: 可惜這例子 取樣時含廢文就有問題了XDDD 02/06 16:52
老實說當初有認真想過去訓練廢文判讀
但是會需要先以人工方式審出一些「教材」來學習
而為了教材的公正客觀性需要複數人腦來做交叉式分析
因為本魯是魯矮醜窮肥宅邊緣人,朋友只有電腦
所以有點小困難
再者是只看前幾名的結果還挺讓人滿意的(雖然還沒計算信度效度)
差異很明顯所以就先po上來了m(_ _)m
推 frozehead56: 專業! 02/06 16:59
※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 17:08:11
※ 編輯: krkrjjjpp (36.230.33.175), 02/06/2017 17:09:41
→ jeff830621: 這我的夢靨 02/06 17:15
推 scmdwyam: 推個 02/06 17:22
推 jackyuki1: 好認真~~ 02/06 17:43
推 iceeric2: 統計專業給推 02/06 17:44
推 Alcor: 其實黨工如果去分析這些資料 可以很輕易地帶風向 02/06 19:18
推 nazo: 統計大神給推 02/06 19:33
推 SHIU0315: 你好認真 02/06 20:28
推 rock666: 推阿 真是有意思 02/06 21:09
推 Ftou: 推個 好猛哦 02/06 21:44
推 Bschord: 推 02/06 22:00