作者ctr1 (【積π】)
看板Python
標題Re: [問題] Bag of words 中文單字詞問題
時間Wed Jun 27 08:42:43 2018
我自己來回答
預設過濾掉一個字符長度的詞
text = ["我|,|愛你|白Z",
"他|愛狗",
"貓|愛鼠"
]
vectorizer = CountVectorizer(
min_df=1, token_pattern='(?u)\\b\\w+\\b')
vectorizer.fit(text)
vector = vectorizer.transform(text)
print (vectorizer.vocabulary_)
print (vector.shape)
print (vector.toarray())
---------------------------------------------------------------------
輸出:
{'我': 4, '愛你': 1, '白z': 5, '他': 0, '愛狗': 2, '貓': 6, '愛鼠': 3}
(3, 7)
[[0 1 0 ... 1 1 0]
[1 0 1 ... 0 0 0]
[0 0 0 ... 0 0 1]]
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.158.195
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1530060167.A.156.html
※ 編輯: ctr1 (59.124.158.195), 06/27/2018 08:43:30
→ b24333666: 你怎麼把上一篇的推文修掉了.... 06/27 08:55
→ ctr1: 兄弟 你留言在另一個版~ 06/27 08:59
推 b24333666: 不好意思XDD 06/27 10:45