Re: [問題] Bag of words 中文單字詞問題

作者ctr1 (【積π】)

看板Python

標題Re: [問題] Bag of words 中文單字詞問題

時間Wed Jun 27 08:42:43 2018

我自己來回答預設過濾掉一個字符長度的詞 text = ["我|，|愛你|白Z", "他|愛狗", "貓|愛鼠" ] vectorizer = CountVectorizer(min_df=1, token_pattern='(?u)\\b\\w+\\b') vectorizer.fit(text) vector = vectorizer.transform(text) print (vectorizer.vocabulary_) print (vector.shape) print (vector.toarray()) --------------------------------------------------------------------- 輸出： {'我': 4, '愛你': 1, '白z': 5, '他': 0, '愛狗': 2, '貓': 6, '愛鼠': 3} (3, 7) [[0 1 0 ... 1 1 0] [1 0 1 ... 0 0 0] [0 0 0 ... 0 0 1]] -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.158.195 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1530060167.A.156.html ※ 編輯: ctr1 (59.124.158.195), 06/27/2018 08:43:30

→ b24333666: 你怎麼把上一篇的推文修掉了.... 06/27 08:55

→ ctr1: 兄弟你留言在另一個版~ 06/27 08:59

推 b24333666: 不好意思XDD 06/27 10:45