作者JustOCD (電機肥宅)
看板DataScience
標題[問題] 新手請教normality/correlation相關問題
時間Thu Aug 4 05:04:19 2022
使用工具: Python
問題內容:s
非本科系 第一次接觸 從沒上過statistics 如果內容很傷眼請多包容了…
我有個dataset 是這樣得到的:跑多次實驗、每次實驗採集出一組x & y results,
最終目的是尋找x和y的關聯性。
原本想法是找出x和y的correlation coefficient、再用regression model(linear/non-linear)分析關係。
後來才發現原來使用statistics method還需要注重data是否normal。像是假設non-normal,只能用non-parametric tests, e.g. Spearman’s correlation,Pearson’s r correlation就不適用。
——
找了一些方法測試normality
(1)用histogram看x&y
x和y都不是bell shaped 這樣意思是兩個variable都是non-normal吧
(2)用Q-Q Plot
這部分很奇怪,我X和Y的Q-Q plot都分別得到一條x=0的垂直線,stackoverflow上有一樣的問題但未被解答。
(3)用Shapiro-Wilk Test
因為N>5000… 好像也不適用
還有用以上方法得到的p value 都是0
——
只看histogram先結論我的data 的確是non-normal的話
第二個大問題是Regression analysis 不需要normal data
所以我不確定我是否有需要transform data?
——
TLDR:
1.請問上述觀念有錯誤嗎?
2. 請問為什麼我的Q-Q plot是直立的線?
3. 請問什麼時候才需要transform non-normal data? 如果都要跑regression的話, transform或不transform的差別是什麼?
如果有人願意幫忙解答的話真的非常感謝
-----
Sent from JPTT on my iPhone
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 172.58.188.161 (美國)
※ 文章網址: https://www.ptt.cc/bbs/DataScience/M.1659560663.A.CAB.html
→ JustOCD: 補圖 X和Y histogram df.hist() 08/04 05:15
→ JustOCD: Q-Q plot (X和Y長一樣) 08/04 05:16
→ wuyiulin: on/72984094.html 08/04 07:59
→ wuyiulin: 簡單來說 你塞進去的資料格式有錯xD 08/04 08:00
→ wuyiulin: 看人家 QQ plot Data 怎麼造,塞進去應該就行了 08/04 08:00
→ andrew43: 線性回歸的假設不是資料常態,是殘差常態。 08/04 20:46
噓 a22735557: 看完你的問題只想叫你去好好修統計... 08/05 21:25
→ JustOCD: 下學期上 只是現在剛好要用到 第一句就說過從沒接觸過 這 08/06 00:40
推 a78998042a: 如樓上說的,reg假設殘差常態,如果不服從則假設檢定 08/07 16:48
→ a78998042a: 沒有意義,對y進行常態轉換,有機會使殘差服從常態 08/07 16:48
→ a78998042a: 此時假設檢定就有意義。 08/07 16:49
推 cjtv: 好問題,推推 08/22 09:35