看板 DataScience 關於我們 聯絡資訊
使用工具: Python 問題內容:s 非本科系 第一次接觸 從沒上過statistics 如果內容很傷眼請多包容了… 我有個dataset 是這樣得到的:跑多次實驗、每次實驗採集出一組x & y results, 最終目的是尋找x和y的關聯性。 原本想法是找出x和y的correlation coefficient、再用regression model(linear/non-linear)分析關係。 後來才發現原來使用statistics method還需要注重data是否normal。像是假設non-normal,只能用non-parametric tests, e.g. Spearman’s correlation,Pearson’s r correlation就不適用。 —— 找了一些方法測試normality (1)用histogram看x&y x和y都不是bell shaped 這樣意思是兩個variable都是non-normal吧 (2)用Q-Q Plot 這部分很奇怪,我X和Y的Q-Q plot都分別得到一條x=0的垂直線,stackoverflow上有一樣的問題但未被解答。 (3)用Shapiro-Wilk Test 因為N>5000… 好像也不適用 還有用以上方法得到的p value 都是0 —— 只看histogram先結論我的data 的確是non-normal的話 第二個大問題是Regression analysis 不需要normal data 所以我不確定我是否有需要transform data? —— TLDR: 1.請問上述觀念有錯誤嗎? 2. 請問為什麼我的Q-Q plot是直立的線? 3. 請問什麼時候才需要transform non-normal data? 如果都要跑regression的話, transform或不transform的差別是什麼? 如果有人願意幫忙解答的話真的非常感謝 ----- Sent from JPTT on my iPhone -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.58.188.161 (美國) ※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1659560663.A.CAB.html
JustOCD: 補圖 X和Y histogram df.hist() 08/04 05:15
JustOCD: https://i.imgur.com/rOIU9c2.jpg 08/04 05:15
JustOCD: Q-Q plot (X和Y長一樣) 08/04 05:16
JustOCD: https://i.imgur.com/hxpQ8yC.jpg 08/04 05:16
wuyiulin: 2. 看一下這篇 https://www.learnfk.com/question/pyth 08/04 07:59
wuyiulin: on/72984094.html 08/04 07:59
wuyiulin: 簡單來說 你塞進去的資料格式有錯xD 08/04 08:00
wuyiulin: 看人家 QQ plot Data 怎麼造,塞進去應該就行了 08/04 08:00
andrew43: 線性回歸的假設不是資料常態,是殘差常態。 08/04 20:46
a22735557: 看完你的問題只想叫你去好好修統計... 08/05 21:25
JustOCD: 下學期上 只是現在剛好要用到 第一句就說過從沒接觸過 這 08/06 00:40
a78998042a: 如樓上說的,reg假設殘差常態,如果不服從則假設檢定 08/07 16:48
a78998042a: 沒有意義,對y進行常態轉換,有機會使殘差服從常態 08/07 16:48
a78998042a: 此時假設檢定就有意義。 08/07 16:49
cjtv: 好問題,推推 08/22 09:35