→ yaya:國 民 黨 馬 英 無 限 期 支 持 台 灣 獨 立 總 統 腐 05/02 00:07
推 sofaly:還 滿 屌 的 05/02 00:07
→ yourdaddy:理論而已 我想能做到的世界上只有google有機會 05/02 00:08
推 aresa:你拿google和接政府案子的計劃比,會不會太兇悍了 05/02 00:09
推 fish3932000:你舉的是搜尋,如果被搜尋也會這樣嗎 05/02 00:09
→ sofaly:ufoon大 是先知阿 原來他早知道 (跪) 05/02 00:09
推 blaz:你拿中文去空白看看 05/02 00:09
→ yourdaddy:問題是鴿子沒有GOOGLE的技術 別擔心 05/02 00:09
→ v7q4:改成代號就好了 ma in 9 死 爛 蛆 舔 支 那 賣 歹 灣 05/02 00:09
推 Tenging:倒果為因 google輸入總統府會跑出總府統嗎? 05/02 00:09
打什麼能搜到什麼 就表示這兩個詞是同義的 是連在一起的
至於會不會跑出來 這是順序的問題 只要那個網頁夠重要就會在越上面
不然可以請總統府明天把網頁標題改成"總府統"
可以跟你保證搜尋總統府還是出現這個網站
→ aresa:不過要是騙得過google,幾乎等於騙過大部份系統了 05/02 00:09
推 legendmtg:我不太相信政府寫的程式對中文辨別有做得那麼好 05/02 00:09
推 ozz987:手倉 斃 ma IN 救 05/02 00:09
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:11:47
→ Tenging:就算有也會有正確順序的垃圾資訊跑出來給黨工看 05/02 00:10
推 otaku5566:瑪瓔韮陋釢 05/02 00:10
推 Kanecart:寫直的,直式書寫。 05/02 00:10
推 chadliu:中文的IR要做得好 我看他們沒那技術XD 05/02 00:11
推 issuperchild:a83 u/ ru.3 vu84 w96 05/02 00:12
→ issuperchild:這樣搜尋的到嗎? 05/02 00:13
Yahoo 有做注音這塊 不過目前 Google 好像還沒有 XD
但我相信政府的系統應該不會做啦XDDDDD
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:14:03
→ butterfly21:推 應該還是加空白比較有用 05/02 00:13
→ Leoreo:既然符號會清掉⑨代替9如何 05/02 00:14
→ cangming:DELETE FROM * 05/02 00:14
推 fish3932000:原來如此 05/02 00:14
推 momoCry:政府外包的那種案子跟google比太嚴苛了 05/02 00:15
推 odsan:木倉~sha~M阿~英~nine 手丁~人到~國~民~黨 05/02 00:15
推 yfefey:我猜上一篇的做法,是針警方只拿到純文字檔,自己做前處理 05/02 00:15
推 aresa:其實...有做,而且比你們想的都還強 05/02 00:15
→ ji394su33000:CKIP我覺得是拿來練IEEE的 最後還是去編字典 苦情阿~ 05/02 00:16
→ aresa:團隊裡鄉民不少,而且都很聰明,尤其對網路使用者的習性 05/02 00:16
我錯了QQ 真的有做
http://goo.gl/mV0ugN
→ Leoreo:有人要開發PTT直行文轉換器嗎XD 05/02 00:16
推 Asster:覺得很可悲,台灣的網路居然也像中國一樣要一堆符號了.. 05/02 00:16
※ 編輯: Goog1e (163.27.78.169), 05/02/2014 00:17:40
→ Asster:以前看文章都還笑他們的,今天我們的台灣也...QQ 05/02 00:17
推 reaturn:我去年買了個錶 這樣子? 05/02 00:17
→ bugbook:6719 6638 2876 1172 0149 97 05/02 00:19
推 reaturn:結果搞到後來,最簡單的方式其實就是換掉國民黨… 05/02 00:20
→ reaturn:不過雖然簡單但是如果○○○不覺醒也沒用 05/02 00:21
推 aresa:其實順序有差的,你提的字都很少,排列組合極少 05/02 00:21
→ ji394su33000:用錯輸入法導出正確結果 是跑演算法加權出來的可能值 05/02 00:21
→ aresa:給你一篇文章裡有100個詞的,根本無法正確組句 05/02 00:21
→ ji394su33000:稍微不怎麼熱門的字就不會有什麼正確結果 05/02 00:22
→ aresa:而且google方法是紀錄你是否重新搜尋,建立詞與詞的聯結 05/02 00:22
推 nojoe:不能跟google比啦 05/02 00:22
→ ji394su33000:你多用幾個名詞試試看就知道大概都是沒有的 05/02 00:22
→ aresa:才會有那種打e04連得到幹的情況,總之,滿複雜的 05/02 00:23
→ ji394su33000:2012年中有陣子稍微熱門的就是中文字代換英文字密碼 05/02 00:24
→ ji394su33000:因為某資安論壇開講公佈像第一名易破解的密碼叫 05/02 00:25
→ ji394su33000:"PASSWORD" 後來就有好多人認為中文輸入法代換可讀 05/02 00:25
→ ji394su33000:性的作法非常有密碼強度 05/02 00:26
→ ji394su33000:不然普遍西方人記密碼都是一些簡單的英文單字 05/02 00:27
推 shyshyan:所以橫轉直有用嗎? 05/02 00:27
→ ji394su33000:一個?萬字的字典就可以破掉30%人的密碼 太糟糕了 05/02 00:27
→ naminono:所以夾雜數字會好一點嗎@@ 05/02 00:28
→ ji394su33000:不過中文斷詞系統難做主要是因為英文單字相比 05/02 00:29
推 fish3932000:所以順序+空白或是特殊符號會有加強效果嗎 05/02 00:30
→ ji394su33000:一句話很難判斷分拆字詞的點 只能靠詞性去組 05/02 00:31
→ ji394su33000:當然有阿 排列組合可以強化密碼強度 當然暴力破解 05/02 00:33
→ king22649:ㄋㄚˋ ㄓㄨˋ 一ㄣㄨㄣˊ ㄋ? 05/02 00:33
→ ji394su33000:以宏觀來看就是時間問題 不過時間能造成問題他就有效 05/02 00:33
→ ji394su33000:回到中文上 這種東西要靠量去擴充他的字典 05/02 00:35
推 monstermimic:加*不行麼 05/02 00:35
→ ji394su33000:一堆網站都會有所謂的"標籤"來代表熱度 05/02 00:36
→ ji394su33000:所以其實也不是做不到 我一直覺得PTT現在有網址生成 05/02 00:38
→ ji394su33000:方便站外連結就可以讓RSS讀 明顯降低門檻 05/02 00:39
→ ji394su33000:就是data mining的好材料 05/02 00:39
→ naminono:夾雜數字呢@@? 05/02 00:40
→ ji394su33000:不必再拿程式爬 用現成的東西就好了 05/02 00:42
推 Bookdaily:推。不過我認為首要是資訊完整,如果因為怕人查, 05/02 00:44
→ Bookdaily:那資訊如何流通? 05/02 00:44
→ ji394su33000:哦我覺得極權政府對於言論自由的箝制普遍有其針對性 05/02 00:54
→ ji394su33000:像LYS好了大家都知道是糗爺 689是什麼 9.2是什麼 05/02 00:55
→ ji394su33000:那這並不妨礙資訊流通阿 所以只要有專職人員監管 05/02 00:56
→ ji394su33000:將使用者們意識上代換的字詞做攔截 那其實也就跟正確 05/02 00:57
→ ji394su33000:的字詞無異(就多一個嘛) 這就是人的厲害之處 05/02 00:58
→ ji394su33000:程式就很難寫出這麼彈性的做法 05/02 01:00
→ ji394su33000:同樣的不可能包羅萬象面面俱到 所以中國網友很愛縮寫 05/02 01:25
→ ji394su33000:養成這種怪習慣是怎麼來的? 05/02 01:26
→ ji394su33000:其實普遍網站的經營者手上都會有一份禁字表 05/02 01:26
→ ji394su33000:這不只是極權政府了 比如說兒童色情各式各樣的關鍵字 05/02 01:28
→ ji394su33000:經營者在登載資訊時就會避免這類字詞出現 像台灣 05/02 01:28
→ ji394su33000:禁制網路販賣醫療用品 那你賣個口罩就必須躲過這個字 05/02 01:29
→ ji394su33000:百度也可以餵它六四天安門事件阿 甚至反饋給你假訊息 05/02 01:30
→ ji394su33000:你可以查到人山人海的圖片 可就查不到坦克車壓學生 05/02 01:31
→ ji394su33000:這才是真正的限制言論自由 真正的侵犯人權 05/02 01:32