作者PHONm (USA~USA)
看板Python
標題[問題] 找出文章中的數字
時間Wed Jun 15 13:52:11 2016
想要將文章中的數字找出來
譬如 文章中會出現很多次的
.....kobe 24,
.....james 23,
然後比對分析後就可以得出
kobe 是24
james 是23
請問有這種函示庫可以用嗎
我現在自己寫是很笨的作法
1.先找出第一個出現的數字, (ex: xxx ooo xxx kobe 24 jump shot 的 2)
2.存下第一個出現數字往前20個字元的字串(xxx ooo xxx kobe)
以及對應的數字後結尾而成的數字串( 24 )
3.重複上面將整篇文章有數字的都抓下來
4.比對步驟2中儲存同樣對應24的字串
xxx ooo xxx kobe
ooo xxx ooo kobe
5.將相同的存下來 對應24 (kobe 24)
不知道有沒有更好的函示庫可以直接拿來用,感謝。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.131.189
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1465969933.A.C29.html
推 ccvs: 語意分析的工具很多啊 06/15 14:15
→ PHONm: 有推薦的嗎? 我找了一些 越找越多 Orz 06/15 14:43
→ PHONm: 新手初學中 感覺自己寫會比花時間找來的快 但又覺得 06/15 14:48
→ PHONm: 這種東西應該很多人寫過,而且會比我自己寫得來的好 囧 06/15 14:49
→ ripple0129: 你的規則不複雜,re寫比較快,用別人的還要先研究api 06/15 16:11
→ PHONm: 了解了! 感謝樓上分析 06/15 18:10
推 ql4au04: 用bI-gram找完再回頭對tf idf 自己寫應該算快吧 06/21 02:53