精華區beta Gossiping 關於我們 聯絡資訊
※ 引述《s1s1 (胖鳥)》之銘言: : ※ [本文轉錄自 Gossiping 看板 #1JOcN-HP ] : 作者: butterfly21 (butterfly21) 看板: Gossiping : 標題: [爆卦] 混淆網軍監測的方法 (代po) : 時間: Thu May 1 23:19:22 2014 : 剛剛提完關鍵字的機制之後 : 馬上有大大來信提供意見<(_ _)> : == 正文開始 == : 林北臭宅軟體工程師啦 : 剛好我們公司也是在搞網路輿情 : 號稱監控數百個網站 兩千多個粉絲團 : 前面大家提到很多方法都是針對搜尋的關鍵字做處理 : 這個切入點非常好 要針對搜尋引擎的特性做應對 : 我再提供一個做法 就是在關鍵字中間加入空白 : 例如 馬英九 變成 馬 英 九 : 對搜尋引擎而言 必須使用模糊搜尋 搜尋效率與精確度大幅下降 : 不但不會增加閱讀困擾 也不用埋入多餘的關鍵字或在關鍵字間加入贅字 : 號召大家發文亂加空白 題供參考參考 林祖公是人文社會科學小魯蛇 Q: 文章加空白、加符號有用嗎? A: IR系統有stop word,在index之前就先去掉了 Q: 把內文順序搗亂,例如 「圍攻總統府」改成「圍攻統總府」或是倒序有用嗎? A: 沒用啊,用1-gram、bi-gram、N-gram去切,然後抓詞彙的共現頻率就好啦 Q: 把一些詞彙換掉,例如: 警察=條子, 大學=蔣公, 有用嗎? A: 加入thesaurus或是corpus就行了啊,現在建索引典都馬可以自動化 再人工稍微tune一下,專屬於社群網站的語料或索引典就出來啦 Q: 這些技術會很難嗎? A: 這是發展了幾十年的成熟技術,有一大堆的paper可以看 也有一大堆的軟體或技術架構可以抄,有很難嗎? 本魯不是理工的也懂一點 Q: 那要怎麼預防 A: 不告訴你,無限期支持警察抓暴民 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.6.36 ※ 文章網址: http://www.ptt.cc/bbs/PublicIssue/M.1398963153.A.81E.html
DRIariel:政府都最低標..... 05/02 00:53
smartsnake:t大要加入工會喔 05/02 00:55
a1122334424:想太多 以台灣政府的角度來看 多找兩三個人工監看 05/02 00:55
a1122334424:增加工作機會 何樂而不為 還相信政府有這個程式能力? 05/02 00:56
我決定畢業後報考警專 用所學貢獻於國家 ※ 編輯: tpabebe (140.112.6.36), 05/02/2014 00:57:32
naminono:XD 每篇隨機插入幾個關鍵字就好啦 05/02 00:58
aarzbrv:如果可疑文全抓,N在3以上,想辦法租其他主機慢慢算吧 05/02 01:01
aarzbrv:又不是沒看過警政相關學報與新買的資訊系統介紹,辦採購的 05/02 01:02
aarzbrv:會優先計算自己的回扣還是系統的效果? 05/02 01:03
cangming:所以原PO是捷運被傳喚的那位嗎? 05/02 01:05
timshan:不是 被傳喚的那位沒有說要去臥軌 05/02 01:06
pinkiceberg:應該考警大比較有升遷機會啦 05/02 01:15
MadMagician:上新聞了開心嗎 05/02 01:17
wisdompeak:test 05/02 01:21
b19911221:嗚嗚 05/02 01:31