作者tpabebe (BeBBBBB)
看板PublicIssue
標題Re: [爆卦] 混淆網軍監測的方法 (代po)
時間Fri May 2 00:52:31 2014
※ 引述《s1s1 (胖鳥)》之銘言:
: ※ [本文轉錄自 Gossiping 看板 #1JOcN-HP ]
: 作者: butterfly21 (butterfly21) 看板: Gossiping
: 標題: [爆卦] 混淆網軍監測的方法 (代po)
: 時間: Thu May 1 23:19:22 2014
: 剛剛提完關鍵字的機制之後
: 馬上有大大來信提供意見<(_ _)>
: == 正文開始 ==
: 林北臭宅軟體工程師啦
: 剛好我們公司也是在搞網路輿情
: 號稱監控數百個網站 兩千多個粉絲團
: 前面大家提到很多方法都是針對搜尋的關鍵字做處理
: 這個切入點非常好 要針對搜尋引擎的特性做應對
: 我再提供一個做法 就是在關鍵字中間加入空白
: 例如 馬英九 變成 馬 英 九
: 對搜尋引擎而言 必須使用模糊搜尋 搜尋效率與精確度大幅下降
: 不但不會增加閱讀困擾 也不用埋入多餘的關鍵字或在關鍵字間加入贅字
: 號召大家發文亂加空白 題供參考參考
林祖公是人文社會科學小魯蛇
Q: 文章加空白、加符號有用嗎?
A: IR系統有stop word,在index之前就先去掉了
Q: 把內文順序搗亂,例如 「圍攻總統府」改成「圍攻統總府」或是倒序有用嗎?
A: 沒用啊,用1-gram、bi-gram、N-gram去切,然後抓詞彙的共現頻率就好啦
Q: 把一些詞彙換掉,例如: 警察=條子, 大學=蔣公, 有用嗎?
A: 加入thesaurus或是corpus就行了啊,現在建索引典都馬可以自動化
再人工稍微tune一下,專屬於社群網站的語料或索引典就出來啦
Q: 這些技術會很難嗎?
A: 這是發展了幾十年的成熟技術,有一大堆的paper可以看
也有一大堆的軟體或技術架構可以抄,有很難嗎?
本魯不是理工的也懂一點
Q: 那要怎麼預防
A: 不告訴你,無限期支持警察抓暴民
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.6.36
※ 文章網址: http://www.ptt.cc/bbs/PublicIssue/M.1398963153.A.81E.html
→ DRIariel:政府都最低標..... 05/02 00:53
噓 smartsnake:t大要加入工會喔 05/02 00:55
推 a1122334424:想太多 以台灣政府的角度來看 多找兩三個人工監看 05/02 00:55
→ a1122334424:增加工作機會 何樂而不為 還相信政府有這個程式能力? 05/02 00:56
我決定畢業後報考警專
用所學貢獻於國家
※ 編輯: tpabebe (140.112.6.36), 05/02/2014 00:57:32
→ naminono:XD 每篇隨機插入幾個關鍵字就好啦 05/02 00:58
推 aarzbrv:如果可疑文全抓,N在3以上,想辦法租其他主機慢慢算吧 05/02 01:01
→ aarzbrv:又不是沒看過警政相關學報與新買的資訊系統介紹,辦採購的 05/02 01:02
→ aarzbrv:會優先計算自己的回扣還是系統的效果? 05/02 01:03
→ cangming:所以原PO是捷運被傳喚的那位嗎? 05/02 01:05
推 timshan:不是 被傳喚的那位沒有說要去臥軌 05/02 01:06
噓 pinkiceberg:應該考警大比較有升遷機會啦 05/02 01:15
→ MadMagician:上新聞了開心嗎 05/02 01:17
→ wisdompeak:test 05/02 01:21
噓 b19911221:嗚嗚 05/02 01:31