看板 Python 關於我們 聯絡資訊
我自己來回答 預設過濾掉一個字符長度的詞 text = ["我|,|愛你|白Z", "他|愛狗", "貓|愛鼠" ] vectorizer = CountVectorizer(min_df=1, token_pattern='(?u)\\b\\w+\\b') vectorizer.fit(text) vector = vectorizer.transform(text) print (vectorizer.vocabulary_) print (vector.shape) print (vector.toarray()) --------------------------------------------------------------------- 輸出: {'我': 4, '愛你': 1, '白z': 5, '他': 0, '愛狗': 2, '貓': 6, '愛鼠': 3} (3, 7) [[0 1 0 ... 1 1 0] [1 0 1 ... 0 0 0] [0 0 0 ... 0 0 1]] -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.124.158.195 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1530060167.A.156.html ※ 編輯: ctr1 (59.124.158.195), 06/27/2018 08:43:30
b24333666: 你怎麼把上一篇的推文修掉了.... 06/27 08:55
ctr1: 兄弟 你留言在另一個版~ 06/27 08:59
b24333666: 不好意思XDD 06/27 10:45