看板 DataScience 關於我們 聯絡資訊
如題 最近在學NLP 所以爬了ptt八卦版的問卦 準備做推噓文的預測 不過自己玩有點無聊 所以把dataset整理好放到kaggle上 開個小競賽 有興趣的人可以一起玩玩看 期限是一個月 https://www.kaggle.com/c/ptt-gossiping-push-down-predict/ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.137.94.234 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1612527945.A.1FE.html
jigfopsda: 推推02/05 20:55
wtchen: 有趣....02/05 21:25
blackmaninEE: XD02/06 11:25
cutecutepig: have fun!02/06 23:23
ddavid: 還在念博士時有做過用PTT文章預測投票票數的,當時結果很02/07 02:30
ddavid: 神奇地好。不過預測推噓文,直覺上要好會需要用手段補充外02/07 02:31
ddavid: 在背景知識02/07 02:31
ddavid: 總之這題目確實挺有趣的02/07 02:32
ddavid: 另外,其實我認為發文作者是其中一個鑑別力很強的feature02/07 02:33
ddavid: ,這邊沒有提供XD 02/07 02:33
之前是怕作者這個feature太強 好像應該要加的 ※ 編輯: jack1218 (223.137.94.234 臺灣), 02/07/2021 12:45:52
seasa2016: 顏色正確就推爆 02/07 21:41
kikicheng: 蠻有趣的 02/08 02:35
acctouhou: 光從發文作者就可以判斷的case應該要被當outliers吧 02/08 12:37
ddavid: 提供作者有個重點是可以查詢上站次數跟文章次數,而這兩項 02/14 21:59
ddavid: 我認為是很重要的特徵 02/14 21:59
ddavid: 舉一個已經有實用經驗的例子,Youtube的自動判斷機制在接 02/14 22:00
ddavid: 到影片舉報時,他們研究發現最有辨別能力的特徵就是發該影 02/14 22:01
ddavid: 片的使用者是否是很新的帳號,若是則大機率真的是問題影片 02/14 22:01
ddavid: 而針對PTT,我個人的觀察是去看 文章篇數/上站次數 這個比 02/14 22:02
ddavid: 值,對於文章是不是廢文的機率也有高辨識度 02/14 22:02
ddavid: 若這個比值達到1以上,越高就越可能是廢文 02/14 22:03
ddavid: 但如果比值大約在0.5前後,則相對用心發文的機率較高 02/14 22:03
ddavid: 比值若很接近0(也就是發文很少上站很多),又會反過來變 02/14 22:04
ddavid: 成內容不足的機率提升,但狀況相對比值高於1的輕微 02/14 22:05
ddavid: 另外取得作者還有一項判斷依據,就是有些人可能在特定版面 02/14 22:08
ddavid: 容易被噓但在別的特定版面容易被推,先不提所謂政治傾向, 02/14 22:09
ddavid: 那種在棒球版是大師但在遊戲版是廢文王的情況 02/14 22:11
ddavid: 也是很常見,所以使用者名稱搭配文章發表版面會是一組可能 02/14 22:12
ddavid: 不錯的特徵 02/14 22:12