看板 Soft_Job 關於我們 聯絡資訊
※ [本文轉錄自 Eng-Class 看板 #1TDTTUZS ] 作者: unknow3121 (alex) 看板: Eng-Class 標題: [請益] 將英文文章 軟換成單字的程式.軟體 時間: Mon Jul 22 23:33:48 2019 本人最近欲學習某一領域英文,若手邊有數篇該領域文章的話,請問有沒有 “軟體/程式/APP”可以直接自動“轉換or分類or排序or解析”文章內出現的所有單字? 抱歉! 講得有點攏統,實在不知道該怎麼描述... 以下用條列的方式簡單敘述: 1. 一篇上千字的某領域文章 2. 直接將該篇文章貼至需求的"軟體" 3. 該軟體自動將文章內出現的所有單字依序排列(例如從a-z) 4. 排列完後,將這些單字解析成 (a)中文 (b)詞性 (c)音標 ...等等 例如: <文章> I have a pen I have an apple Ugh Apple pen I have a pen I have pineapple Ugh Pineapple pen <解析> a-z排序 a 一個 冠詞 該字音標 an 一個 冠詞 該字音標 apple 蘋果 名詞 該字音標 have 擁有 及物動詞 該字音標 I 我 代名詞 該字音標 pen 筆 名詞 該字音標 pineapple 鳳梨 名詞 該字音標 Ugh 呃 詞性 該字音標 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 150.116.49.22 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Eng-Class/M.1563809630.A.8DC.htmlx ※ 編輯: unknow3121 (150.116.49.22 臺灣), 07/22/2019 23:37:30 ※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: unknow3121 (150.116.49.22 臺灣), 07/22/2019 23:38:45
unknow3121: 我是原po, 若有違反版規請告知, 謝謝! 07/22 23:40
Hsins: 簡單的字串處理跟爬蟲啊,整篇文章去掉標點符號之後根據空 07/22 23:46
Hsins: 格做 split 出單字,根據單字去爬意思、詞性跟音標,最後 07/22 23:47
Hsins: 排序。 07/22 23:47
Hsins: 就算不用程式語言,單純用 Excel 或 Google Spreadsheet 也 07/22 23:48
Hsins: 能做到。 07/22 23:48
dspp779: 你聽過 Linggle Booster 嗎? https://b.linggle.com 07/23 00:05
viper9709: 推二樓 07/23 00:28
enthos: http://ckipsvr.iis.sinica.edu.tw/ 中文的 07/23 00:50
xiangying: google斷詞系統 07/23 07:17
BlacksPig: 推二樓 07/23 12:58
remmurds: 連標題都打不好 07/23 13:18
alihue: 2f 還需要再多做 Stemming/Lemmatization 07/23 13:37
weiber82: jieba 07/23 16:02
windclara: 2F已給答案。這真的不難QQ 07/23 18:19
jack0204: 想學就自己寫啊,這用chrome套件寫就行了 07/24 08:00
sxy67230: 請搜索Spacy或是nltk tool,翻譯可以用wiktionary api 07/26 10:36
jennya: 反推二樓,這其實並不簡單。蠻好奇推二樓的人是否真的有做 07/27 01:30
jennya: 過。事實上字串處理部分就有一堆細節,包含大小寫、時態轉 07/27 01:30
jennya: 換、專有名詞(get/gets/got)(Joe,Joe's)(don't) 等等等非 07/27 01:30
jennya: 常多無法備載。 07/27 01:30
jennya: 再來你還要去抓字典檔、把斷詞後的單字套用上去。 07/27 01:30
jennya: 總之這不是一個五小時內能做完的簡單的東西,如果二三十小 07/27 01:30
jennya: 時可能可以吧。 07/27 01:30
jennya: 不過如果有好用的library就另當別論。總之反推二樓。 07/27 01:30
Hsins: 如果說要考慮到 morphology 當然就麻煩許多了,我說的做法 07/29 15:55
Hsins: 只是陽春的處理。我會這樣推文是針對於這篇發文者可能要做 07/29 15:55
Hsins: 到的成果。其中比如你提到的大小寫跟時態轉換,甚至我說的 07/29 15:57
Hsins: 構詞方法,目前部分的網路字典所提供的 API 是可以處理的。 07/29 15:57
Hsins: 以這篇他所要的結果來說,我的推文應該是可以 fit 他需求的 07/29 15:59
Hsins: 。至於是要做成一個實際的產品要考慮到的東西,應該不是發 07/29 16:00
Hsins: 文者要的吧? 07/29 16:00