精華區beta C_Chat 關於我們 聯絡資訊
: 先定義什麼是廢文, 程式才可以遵循定義去判斷 定義廢文需要人工智慧,這太難了, 不過或許可以用一些間接指標。 間接指標並不等於廢文,但理論上應該有較大的機率可以篩選出發廢文傾向者。 我個人想到的一個指標:平均每篇文章的字數。 定義上,就扣除超連結及符號標點,算剩下的中英文字元數和,再除以發文數。 如果怕取平均數會誤導,或許可取中位數? 當然要在此重申,文字少並不等於廢文,只是要讓程式做簡單條件判斷, 一時之間也想不到什麼更簡單的指標了。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.34.118.139 ※ 文章網址: https://www.ptt.cc/bbs/C_Chat/M.1477979233.A.9DE.html
tomuy: 有些貼圖的文字也很少啊 11/01 13:47
Skydier: 你知道有些人只貼連結一張圖就當一篇文嗎 11/01 13:48
WindSpread: 貼圖文對某些人來說也是廢文阿 11/01 13:48
oz5566: 你知道西恰一行文是傳統嗎 11/01 13:48
WindSpread: 比如新番心得點進去是30張圖 11/01 13:49
intela60474: 全西洽文餵下去看能不能訓練出幾個參數 我看很難... 11/01 13:49
swallowcc: 其實那句我只是要他知難而退啦XD 根本沒辦法定義好嗎.. 11/01 13:49
hom5473: 推文中出現"廢"字的次數 11/01 13:49
tomuy: 情報文字有些也很少 11/01 13:49
ko27tye: 太麻煩了,直接建一個廢文ID table 大家覺得ㄋ 11/01 13:50
Xavy: 簡單阿,每篇文都做公投決定(誤 11/01 13:50
swallowcc: ID也是用人工取的啊,一定會參雜情感厭惡因素... 11/01 13:50
newwu: 直接deep learning用推文做output指標下去train,有八卦的 11/01 13:50
swallowcc: 哪天我靠這個吃飯的時候也許會去做吧XDDDD 11/01 13:51
newwu: data,資料應該能超過十萬筆 11/01 13:51
emptie: sibyl: ? 11/01 13:56
QBian: 老實說 點兔廢文的字都很多 11/01 14:00
Davinais: 字很多可是言之無物的文到底是不是廢文呢 11/01 14:06
shintz: 不需要啦 直接把特定id標上去就好了,反正誤判率很低 11/01 14:07
s32244153: 把嗎和?當關鍵字至少能過濾掉一萬篇廢文 11/01 14:08
QBian: 我只是想說字數不可行而已 11/01 14:08
jeeyi345: 有些人講不出什麼文算廢,就是想針對人黑嘛 又是個廢推 11/01 14:14
tsoahans: 用machine learning去分析文章的內容、推文、發文者記錄 11/01 14:16
tsoahans: 現在電腦判斷垃圾郵件正確率都有90%以上了 判斷廢文應該 11/01 14:18
tsoahans: 能做到差不多程度 11/01 14:18
juunuon: 轉貼資訊的文常常字也不多啊xd 11/01 15:20
refusekkk: 點兔騎士文算不算廢文? 11/01 15:38
cybermeow: 對啊大家整理個database後去用ml train一個model就行了 11/01 16:15