作者Nexus5566 (Nexus5566)
看板Database
標題[討論] Data mining 資料縮減問題
時間Thu Aug 27 18:04:40 2015
不好意思
因為找不到資料探勘的專版,所以在此詢問
如果不適合煩請告知,我會刪文,謝謝
-----
目前是資料探勘的新手,想請問如果目前有一個約10萬筆的資料集,共10個屬性
但有許多實例(instances)之間屬性值相同(例如a實例與b實例前三重要的屬性值皆相同)
請問這種情況需要刪除其中一筆資料,以免正確分類的機率過於樂觀嗎
還是需要在什麼時候才進行資料縮減呢(像是所有屬性值皆重複)
謝謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.142.63.2
※ 文章網址: https://www.ptt.cc/bbs/Database/M.1440669882.A.9E9.html
推 evilove: 可以到統計版問 08/29 14:58
推 a926: 你要做降維 有一些方法可以做。像是PCA你可以找看看降維方法 08/30 18:11
推 aaa7513231: 做共變異數分析 把沒用的屬性拿掉 08/30 23:29
→ aaa7513231: 才10萬筆資料 計算上不會有問題吧? 08/30 23:29
→ aaa7513231: 去買書看吧 方法很多種要看你資料屬性決定 08/30 23:31