[問題] 中文資料集分類

作者ctr1 (【積π】)

看板DataScience

標題[問題] 中文資料集分類

時間Tue Aug 28 10:22:14 2018

小弟初探資料科學將中文信件資料集分類為兩類B、C(依信件內容機密度) 若是已經將內容用jieba切好了也使用TfidfTransform計算出每封e-mail的TF-IDF值想請問接下來該怎麼繼續操作 SVM k-means 可以請大大推薦可以讓我學習的文章或youtube教學嗎謝謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.120.67.6 ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1535422939.A.617.html

→ DarkIllusion: 降維或選取特徵之類的吧因為這樣切詞不是會很多嗎? 08/28 18:11

推 tsoahans: 懶人包(? https://i.imgur.com/2djX9c5.png 08/29 15:31

→ tsoahans: 詳細 https://tinyurl.com/yc2opk7h 08/29 15:33