看板 Liu 關於我們 聯絡資訊
※ [本文轉錄自 iPhone 看板 #1KA9K4qz ] 作者: IMPOSSIBLEr (高級外勞) 看板: iPhone 標題: Re: [心得] iOS8 中文輸入法真的很聰明 時間: Mon Sep 29 07:08:49 2014 : 推 ishuen: 但是apple說輸入法沒用到網路 這些資料都在手機裡嗎? 09/29 01:00 : → KANO1931: 需要龐大資源的部分是在計算階段 應用的部分是結果 不一 09/29 01:05 : → KANO1931: 定佔很大空間 但如果要動態更新常用詞就需要了 09/29 01:09 : 推 pm2001: 沒用到網路我覺得不可能 這資料量非常大 09/29 01:18 小弟非專業發言,大家看看就好 個人覺得像這種切進時事的聯想字,應該都是需要網路的 如同KANO大所說,需要大量運算資源的是計算階段,實作階段所需資源並不大 我舉一個我最近為蝦米鍵盤實作簡易聯想詞的方法為例 蝦米鍵盤的聯想詞功能目前實作流程如下 1. 下載Google ngrams dataset簡中版本(因為沒有繁中...) 上文所述需要大量運算資源的就是這部份,如何產生ngrams 而google已經幫我們作好了(佛心 Google ngrams dataset資料格式看起來像這樣 <中文詞> <某西元年> <該西元年中發現此詞彙數量> <該西元年中在多少著作中發現該詞> 我下載下來的dataset總共大小約1.3gb(只取2 gram) 2. 使用程式語言parse下載下來的dataset,輸出成frequency list, 格式如下 <中文詞> <總發生數量> 存成純文字檔,目前我跑出來的這個檔大小為500kb左右,40000左右中文詞 像這第二步,需要讀入1.3gb的原始資料,在手機上會耗時良久 但讀入500kb的資料,目前蝦米鍵盤的速度還算可以(iPhone 5) 3. 在鍵盤初始化時parse第二步產生的frequency list存進記憶體。 這部份的資料結構可採用簡單的hash map或是高級一點(比較難實作)的trie 不過如果詞的長度不是很長,例如我的第二步出來的檔,裡面最長的詞只有4字 那使用hash map應該整體來說效能會好一點,當然這是個人感覺 基本上有了這個backend data structure,再寫一個function,輸入為字串, 然後到這個data structure中查詢,輸出為一個字串陣列,然後就可以輸出到 鍵盤畫面上給使用者選擇。 由上可知,如果想要動態產生聯想詞例如結合時事,或是使用最近的報章blog文章 當作ngrams的corpus,那麼網路是必須的。 不專業分享,請勿筆戰~~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 24.5.179.190 ※ 文章網址: http://www.ptt.cc/bbs/iPhone/M.1411945732.A.D3D.html ※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: linpien (220.130.243.151), 09/29/2014 07:44:17
zxcasdfj: 真希望iOS版有蝦米快出來,至於聯想詞我個人還好... 09/30 21:47
zxcasdfj: 因為在那邊挑的時間,早就可以把那些字打完了 XD 09/30 21:48
idunhav1: 注意苦手+1 那時候才有嘸蝦米能用 09/30 23:05