精華區beta PublicAffair 關於我們 聯絡資訊
看到一堆開始在做加密的文章,其實有點擔心 因為這樣也是造成輿情系統另類的勝利 現階段除非你要搞什麼革命 完全不能被發現 否則不用去做一些搞死自己人的白工 不要用錯別字 不要改文字順序 不要加一堆奇奇怪怪的符號想要混淆視聽 那只是在幫警察做自我審查,反而影響我們自己訊息傳遞 不需要管他們看不看得到,就讓他們看 只要在正常的文章裡面加一些臨時想到的公共議題 像是 服貿 學運 號召 佔領 反瘋車 石虎 核一 核二 核三 核四 但是不要去刷廢文,廢文也是增加自己人的負擔,影響訊息傳遞 也不要把這些關鍵字用成制式簽名檔,那很好排除 為什麼這樣做? 政府用三十幾萬標到的系統 不會做中文的斷字(這算 NLP 的領域) 就算做了中文斷字,也不會做機器學習去判斷每一篇文章 「到底是真的在討論這個議題,還是隨便加幾個關鍵字而已」 如果大家都這樣做,結果會變成怎樣? 就是「輿情系統上看到的文章列表,跟PTT文章列表幾乎一樣」 我不是叫大家癱瘓他喔,系統還是運作得好好的 你可以想像一下 gmail 的垃圾郵件過濾 如果只能針對關鍵字阻擋,會是什麼情形? 大概就是那樣 我想每一篇認真的文章都加入幾個時事關鍵字, 對創意奔放的鄉民來說應該非常簡單吧? 至於以後如果有更強大的情資系統,要做什麼複雜的加密,那是以後的事情了 只是個人覺得目前沒有必要做到那樣自廢武功 如果造成我們看文章有一丁點的障礙,那個系統也算是成功了 (當然如果真的有見不得人的八卦還是加密一下吧,不要傻傻的) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.57.72.144 ※ 文章網址: http://www.ptt.cc/bbs/Gossiping/M.1398963599.A.E32.html ※ 編輯: leafwind (61.57.72.144), 05/02/2014 01:02:38
cafopupu:搞那麼複雜 你看我 支持台灣獨立!!! 沒事阿 05/02 01:01
一點都不複雜 文章裡面像你這樣偷渡幾個關鍵字就好 重點是不要影響自己人的訊息傳遞
Carmelo:沒用,八卦每一篇都看對他們也不算loading太大 05/02 01:03
八卦每一篇都看,那還要輿情系統做啥XDDDDDD 你緊張了嗎
aresa:其實,大家做什麼都是白工,台灣這部份應用早就有了 05/02 01:05
aresa:最早是一些品牌商的案子,想找網路有沒有討論他們的東西 05/02 01:05
aresa:像是東西出包之類的,讓他們可以早點反應 05/02 01:05
aresa:已經有很多團隊在搞這塊,而且相當有水準 05/02 01:06
aresa:裡面不乏資深鄉民,對PTT的使用習慣瞭若指掌 05/02 01:06
aresa:尤其大部份的言論都集中在PTT,使得分析更容易 05/02 01:07
那些應用可以判斷是否真的在談論這個產品,還是只是單純搜關鍵字? 就我所知中文斷字門檻不低,中研院提供的詞庫也有限 再加上還要判斷是否為垃圾文章.. 如果有的話麻煩私下提供一些訊息 我也想知道目前多先進了XD
naminono:我覺得看一看對這部份很有興趣 a大有推薦的教材嗎? 05/02 01:08
aresa:有意義的文章才會被討論,鄉民已經幫系統做第一步的 05/02 01:08
borriss:斷句那麼容易中國就不用養那麼多網軍了 05/02 01:08
判斷有意義很簡單,但是一篇有意義的文章未必是在討論你的產品 如果我整篇都在講三星的手機 中間加了華碩的關鍵字呢? 真的做 learning 不是不可能,但三十幾萬的 case 我很懷疑
aresa:human computation,諷刺吧,所以,方法很多的 05/02 01:09
你是說「工人」智慧?
naminono:或是任何人有推薦的教材(? 05/02 01:09
aresa:模型早就建好了,可以說是很完整,丟到hadoop上去炸就好 05/02 01:10
aresa:台灣的軟體人材可以說是強到爆...別太小看台灣的軟體工程師 05/02 01:10
hmm..我沒有說台灣軟體人才不強 我只是覺得按照過往經驗,政府採購案買到的系統,感覺不會有這個水準
aresa:而且PTT太好用了,用跨模態的方法也可以建立一個 05/02 01:11
aresa:使用者列表,這列表裡的傢伙講話都很有份量,也知道他們專精 05/02 01:11
aresa:的領域大概是哪方面,我舉例,假設林飛帆和陳為廷在某篇文章 05/02 01:12
aresa:裡一起推文了,那這篇文章很有可能是什麼? 05/02 01:12
aresa:所以我說,要做的方法太多了,而且台灣的軟體工程師真的很強 05/02 01:13
我不是說台灣人做不到,我是說政府買的這個案子:P 如果政府的採購案每一件都這麼高質量的話,效率也不會這麼差了..
aresa:我只能透露你,因為台灣軟體人長期被低估其價值 05/02 01:14
aresa:所以真的可以用很便宜的價錢買到超乎想像的功能和品質 05/02 01:14
naminono:... 05/02 01:15
human based computation 需要人力 傳統研究領域是讓人玩遊戲順便幫你做一些比如像是分類的工作 我不知道現在進步到什麼境界,不過應該也需要人力? 還是說先用人力建好 model 就可以,反正 PTT 應該算單純的環境XD ※ 編輯: leafwind (61.57.72.144), 05/02/2014 01:21:19
aresa:我指的第一步human computation,就是討論熱度,推文數之類 05/02 01:22
aresa:啊,好像講太多了,希望不要被認出來 Orz 05/02 01:22
我倒是沒想到這些也算是 human computation XD 不過有些文章會刻意洗推薦到0 或者只是在筆戰 不曉得能否偵測到
aresa:你覺得我都爆這麼多卦了,剩下的自己判斷就好了 05/02 01:31
感謝討論阿~ 後來想一想文章推噓量跟推文數這些應該不能算 human computation 原本就拿得到的東西稱它叫 textual feature 就好了..
kickmeout:我不建議好好的文章打怪碼亂碼倒碼..倒是建議可以考慮在 05/02 01:53
kickmeout:一般普通的文章不重要處..加上網軍要過濾的關鍵字 05/02 01:53
kickmeout:這樣一來到處都是關鍵字..資料龐大對於網軍也是負擔 05/02 01:54
這就是我這篇文章的意思,感謝你用幾行精簡描述出來 ※ 編輯: leafwind (61.57.72.144), 05/02/2014 02:19:58