看板 Soft_Job 關於我們 聯絡資訊
前文砍~ --- 有幸,在自己公司有玩到資料分析(黑手)的部分 不過都是很簡單的部分,大家參考即可! 我是一位Java後端工程師,是公司簡單R的課程教導之後 我就自己開始針對我熟悉的部分,進行資料彙整 分成一個小組後,大家一起練習分析目前公司新會員訂單的一些狀況 這部分其實很多我還是很不熟悉,若語意或觀念需要修正 請各位大方糾正我,感謝!!~ 1.資料分析的第一步是整理資料,但你看著線上營運資料量達到一個數量時 我是用SQL,做一些基本資料表的關聯之後,就撈出資料放著,要注意就是 一開始目標通常不太明確,可以先試著縮小議題,減少撈取資料的困難度。 2.整理資料開始,一定會遇到NULL,空值,極端值 開始剃除這些"髒東西"以利我們繼續分析下去 當然這些"髒東西"特多的時後,那就要特別注意 是不是你第一個步驟撈取資料時,就發生問題 或者是你們的網站還是存在一些問題,導致髒東西特多 那麼這點,就是可以考慮研究的主題(如果有時間的話) 3.資料視覺化,這個是資料說訴說故事的好機會,不管 你前面兩項做得多好,你資料視覺化無法順利達成,那麼 資料分析的效果很有可能打折甚至不到。 實務情況上是因為視覺化的目的,除了讓資料用更好懂得方式 呈現外,還有一個原因就是,你需要給營運單位看。 那麼這些人本身不懂你的資料能表達什麼,視覺化可以讓 這些擁有決策能力的人,更快理解自己的網站發生什麼事情 需要進行什麼改變。 4.前面三項完成之後,那就是會檢視完成整理的視覺化資料 進行各種議題的探討,那裡需要改善,那一些客群可以著力刺激消費 一直循環這個迴圈,一直改善,達到"資料掏金"的目的 以上是我簡單資料分析心得啦,給各位參考即可。不過後續我就沒在參與 下去了,因為這本來是side project就是了,當做玩過就好~ 謝謝各位觀看~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 42.73.68.5 ※ 文章網址: https://www.ptt.cc/bbs/Soft_Job/M.1504828394.A.FE7.html
f496328mm: 針對第二點,即使有遺失值,盡量還是不要刪除該筆data 09/08 07:56
f496328mm: 如果未來會做到ML,ML是可以處理遺失值的 09/08 07:59
a3236852: 對我很有幫助 謝謝你~ 09/08 08:37
loveu8: 哦哦,原來是這樣,ML介入的話可以處理這塊 09/08 08:39
loveu8: 還在想說,這些資料應該還是有用途的,應該還是有方式可以 09/08 08:40
loveu8: 讓這些資料發揮作用,來源是這樣!哈。感謝~~ 09/08 08:40
askia: 你說的1&2是資料分析最重要的部份 09/08 09:32
askia: 不過視覺化應該是在分析資料以後才做的事吧 09/08 09:33
f496328mm: 極端值也要看看,到底是錯誤,還是該顧客是VIP等級, 09/08 09:36
f496328mm: 消費能力高 09/08 09:36
f496328mm: 如果data是關於網路購物,那社會科學有一種叫,RFM mod 09/08 09:38
f496328mm: el,可以參考看看 09/08 09:38
sennacon: 怎麼覺得是我的前公司XD 09/08 10:16
Ekmund: 可以讓員工這樣玩 真是好公司QQ 09/08 11:06
firingmoon: 大學以前就在玩這個,出社會那麼久很想再回去玩 09/08 11:17
y800122155: 這幾步驟就是單純做敘述統計啊 用ML之前 先簡單分析看 09/08 12:43
y800122155: 一看資料長怎樣是很基本的事情 後面還有很多可以分析 09/08 12:44
IhateOGC: 資料分析精髓就是整理資料 09/08 12:47
IhateOGC: 套公式和決策真的是老闆的事 09/08 12:47
vfgce: 缺漏值不多時,可以選擇刪除或填補...但比例太高時,就要小心 09/08 14:22
vfgce: 填補了太多"假資料",對於之後的應用可能會造成影響.... 09/08 14:23
loveu8: to f496328mm 學到東西了,哈,回家來看看 09/08 15:23
loveu8: to y800122155 , 是啊,很簡單的分析,以前從沒接觸過 09/08 15:24
loveu8: 覺得還蠻有趣的,只是後面還是有原本東西要用,就放著了 09/08 15:24
loveu8: 剩下就交給公司內專職的資料分析師,處理後續了~ 09/08 15:25
loveu8: to vfgce , 還好經手的資料,還沒到這個程度,倒是 09/08 15:26
loveu8: 有其他人遇到過,只好想辦法處理了,哈 09/08 15:26
loveu8: to askia , 是啊 , 只是有時候我們工程師沒有決策能力 09/08 15:30
loveu8: 又無法有效說明的時候,視覺化存在是加強你前面 09/08 15:30
loveu8: 1跟2的註釋一樣,加強擁有決策的人,信任你做出 09/08 15:31
loveu8: 的資料~ (無奈XD) 09/08 15:31
f496328mm: ML處理遺失值,除了填補,還有一種是利用決策樹的概念 09/08 15:42
f496328mm: ,去進行預測 09/08 15:42
askia: to loveu8: 但是這個文章的標題是「分析」啊 09/08 16:06
subset: 視覺化在超過三維度的資料應該很難做到吧 09/08 16:50
subset: 若是在N維的資料中 取出1~3維資料 又會看不到隱含的東西 09/08 16:51
f496328mm: ㄜ....,視覺化不是指畫畫二維圖三維圖 09/08 17:20
subset: 願聽樓上指導 09/08 17:56
ray39620: 視覺化可以很豐富喔,多維資料也可透過各種方式去呈現觀 09/08 18:27
ray39620: 如連結,http://www.datavizcatalogue.com/ 09/08 18:27
f496328mm: 推樓上,另外 https://goo.gl/yu9c38 09/08 18:58
f496328mm: 連結中的圖,我覺得也很不錯 09/08 18:59
vfgce: 決策樹,KNN或是均值,都是補值,缺漏項一多,模型可信度就 09/08 19:18
vfgce: 要再考慮一下... 09/08 19:19
vfgce: 視覺化要小心處理,一堆初學者都以為決策平面一定畫得出來.. 09/08 19:31
y800122155: missing value handling方法很多 每個case適用的處理 09/08 21:39
y800122155: 方式不一定一樣 常常是需要做敘述統計去看一看狀況 09/08 21:40
y800122155: 有時候看用的Algo不同 有的不補值可能結果還比較好 09/08 21:41
loveu8: 感謝各位回饋,果然要一群人討論,進步最快阿~ 09/09 07:33
loveu8: RFM 我有喵了一下,可惜沒有完全實作 09/09 07:33
loveu8: 主要是商品與撈取的會員資料範圍區間才一年半 09/09 07:34
loveu8: 還真的無法看出有效的回購時間,只好做出 09/09 07:35
loveu8: 一張簡單的消費次數與金額級距表,解釋我們會員的消費能力 09/09 07:35
loveu8: 不過等有機會在玩了(專案燒屁股中XD 09/09 07:36