作者jklkj (誠實可靠小郎君)
看板Statistics
標題Re: [問題] 成對樣本T檢定的問題
時間Fri Dec 11 11:52:09 2015
不好意思,我敘述不是很好,我盡可能地再詳盡敘述一次
我手邊有某個網站的臉書文章按讚、留言及分享數資料
分別是
一、11/1~11/30每天的po文抓取該貼文發文後24小時的資料
二、12/1當天抓取11/1~11/30貼文資料
首先我想要分析的是"是否貼文24小時之後與24小時內資料無差異"
這個檢定我想用T分配看是否有差異
如果沒有就結束,如果有才要做第二階段
看是何種文章類型會造成顯著差異,而天數又是多少
以下是摘要統計
變數名稱 Variable Dlikes logDlikes
樣本數 Count 81 81
總和 Sum 387962 288.3697
平均數 Mean 4789.6543 3.5601
中位數 Median 3712 3.5696
眾數 Mode 494 2.6937
標準差 Std. Dev. 3568.2636 0.3387
變異數 Variance 12732505.104 0.1147
變異係數 C.V. 0.745 0.0951
全距 Range 17573 1.5632
最小值 Minimum 494 2.6937
最大值 Maximum 18067 4.2569
第一四分位數 Q1 2173 3.3371
第三四分位數 Q3 6546 3.816
峰態係數 Kurtosis 1.553 -0.5186
偏態係數 Skewness 1.2882 -0.2257
我也好奇,如果資料不是常態(確實不是),是用log取常態(如果可以)還是用無母數比較好
而至於第二階段也可以給我些方向嗎
謝謝
※ 引述《jklkj (誠實可靠小郎君)》之銘言:
: 標題: [問題] 成對樣本T檢定的問題
: 時間: Mon Dec 7 12:28:53 2015
:
: 我目前手邊有某個網站臉書文章按讚數的資料
: 一個是11月當天的累計,意思就是11/1號只記錄當天,依此類推
: 另一個是12/1號紀錄整月累計的
: 我現在想要分析是否第一天的按讚數就能代表該文章
: 目前只有想到用配對樣本的T分配
: 可是這樣是否會出現11/1號的文章因為有一個月(到12/1號)的醞釀期
: 而11/30卻只有一天,這樣會有問題嗎
: 如果後續我要繼續分析要多少天的累計才能代表一篇文章的按讚數
: 有哪些分析方法可以使用
: 謝謝
:
: --
: ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 27.105.104.4
: ※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1449462535.A.605.html
: → allen1985: 可以把問題或資料在描述清楚點嗎 不是很懂問題是什麼 12/07 12:43
: → celestialgod: 你現在只有一個粉絲網站的話 12/07 12:51
: → celestialgod: 你應該會有多篇的按讚次數 12/07 12:52
: → celestialgod: 所以你現在要檢定 第一天按讚次數跟一個月後的 12/07 12:52
: → celestialgod: 按讚次數是否一樣? 12/07 12:52
: → celestialgod: 這樣的話,多篇文章的按讚次數當成你的樣本應該可行 12/07 12:53
: → celestialgod: 要多少累計的話,可以考慮sequential test 12/07 12:53
: → celestialgod: 不過你每一篇按讚次數會是同分配嗎...我覺得不見得 12/07 12:55
: 推 circlelee: 你先統計 每天按讚的人數 做個分配圖 12/07 13:28
: → circlelee: 先別急著套檢定,你基本的描述統計要先做好 12/07 13:29
: → jklkj: 如果不是常態,我是否可以用Wilcoxon作檢定 12/07 14:26
: 推 circlelee: 先別急著檢定呀 你要檢定什麼?? 12/07 15:14
: → circlelee: 我們統計教育真的很.... 12/07 15:14
: → circlelee: 先做 描述 統計 看一看分配的形態 再想要用幾天 12/07 15:15
: → circlelee: 不是檢定的問題 而是搞不懂你真要的是什麼 12/07 15:16
: → circlelee: 這種真西 我看根本不需要檢定 不是檢定的問題 12/07 15:16
: → circlelee: 而是你的設定問題 12/07 15:17
: → jklkj: 數我駑鈍,不太懂你在講什麼,如果我用一周去看,再轉換成 12/07 15:26
: → jklkj: 常態那我是否可以檢定了 12/07 15:26
: 推 circlelee: 我可以直接跟你講 第一天的按讚數 代表所有按讚數 12/07 15:28
: → circlelee: 這是完全沒有義意的 12/07 15:28
: → circlelee: 很多文章後勁強 每天都有不少人按讚 12/07 15:29
: → circlelee: 為何一定要用第一天來代表所有按讚數? 12/07 15:29
: → circlelee: 要代表 至少也要累積一週或兩週的時間 12/07 15:29
: → circlelee: 這種東西 根本不需要檢定 你只要做統計資料 12/07 15:30
: → circlelee: 然後看幾天之後的累積量 就沒什麼再增加 12/07 15:31
: → circlelee: 累積量 可以設定為總累積次數的90% 12/07 15:32
: → circlelee: 也就是說 在累積某天後 就達到總按讚的90% 12/07 15:32
: → circlelee: 累積的天數 就是你要的天數 累積滿這幾天就可代表所有 12/07 15:33
: → circlelee: 請記清楚 不是檢定的問題 而是你道底要的是什麼! 12/07 15:34
: → jklkj: 那請問一下雙樣本平均數差異t檢定及Wilcoxon的使用時機? 12/07 15:34
: → circlelee: 可憐的統計教育 只會死背一些檢定的東西 12/07 15:35
: → jklkj: 可以請先不要下定論嗎,說不定錯的是閣下 12/07 15:36
: 推 circlelee: 好吧 也許吧 呵呵 12/07 15:58
: → circlelee: 我不是怪你 我是怪教育... 12/07 15:59
: → circlelee: 總之 你要清楚自己要的是什麼 這比什麼檢定都重要 12/07 16:00
: → celestialgod: 這不是常態的問題,是你資料來源就有問題了 12/07 16:07
: → celestialgod: 你現在檢定的對象,定義清楚,再來討論比較好 12/07 16:07
: → celestialgod: 如果是數篇文章的按讚數,每一篇的分配必然不同, 12/07 16:08
: → celestialgod: 那這時候檢定就沒有用了,也不用討論常態 12/07 16:08
: → celestialgod: 你如果只是要想每一篇看的話,兩個樣本點是比不出來 12/07 16:08
: → celestialgod: 你先思考清楚你要怎麼做,再來討論比較好 12/07 16:08
: → celestialgod: 另外,請circle大大自重,不要流於非理性討論 12/07 16:10
: → jklkj: 不好意思,我不太瞭解單篇文章按讚數的分配是什麼意思? 12/07 16:19
: → jklkj: 我的直覺想法是每一篇的按讚數就當作是分數 12/07 16:20
: → jklkj: 看一個月過後是否有顯著增加,如果是所有文章是否服從常態 12/07 16:21
: → jklkj: 用對數轉換將其常態,再用單尾檢定(以按讚數不減少為前提) 12/07 16:23
: → jklkj: 至於要用累計多久的時間代表所有按讚數 12/07 16:24
: → jklkj: 說不定單日的就可以完全表示,也就不用再做了 12/07 16:25
: → celestialgod: 你知道T檢定的對象是母體平均數 = mu_0吧? 12/07 16:35
: → celestialgod: 在這檢定下,X_1, ..., X_n ~ N(mu_unkown, sd_uk) 12/07 16:36
: → celestialgod: 你每一篇的按讚數就是X_1, ..., X_n 12/07 16:37
: → celestialgod: 可是你認為每一篇mu_unkown是相同的嗎? 12/07 16:37
: → celestialgod: 如果不同就不適用T檢定 12/07 16:37
: → jklkj: 不好意思,可能我上面沒講清楚,我是用"配對" 12/07 16:48
: → jklkj: 所以是d_i這樣應該是沒問題的吧 12/07 16:49
: → celestialgod: 沒注意到 12/07 16:54
: → celestialgod: 不好意思 12/07 16:55
: → celestialgod: 不過這樣還是有點問題,每一篇的差量range應該很大 12/07 16:56
: → celestialgod: 更正,d_i的range應該會很大,應該是左偏XD 12/07 16:57
: → celestialgod: 我覺得還是怪怪的,你可以嘗試看看~"~ 12/07 16:58
: → jklkj: 如你所言的差距確實很大,所以我用了對數轉換 12/07 17:04
: → jklkj: 不知道這樣是否可以接受? 12/07 17:10
: → celestialgod: 左偏用對數應該無法~"~ 12/07 17:36
: 推 excimo: 你要先看 「不同文章其點閱量隨時間成長的模式是否相同」 12/07 21:26
: → allen1985: j大 你願意重新po一篇 把你整個問題在講清楚點嗎 12/09 10:30
: → allen1985: 以及你打算做什麼檢定 針對什麼資料 12/09 10:30
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.222.32.250
※ 文章網址: https://www.ptt.cc/bbs/Statistics/M.1449805931.A.3C0.html
→ allen1985: 24小時內 vs. 24小時後一個月的資料 如果取log之後 12/11 12:21
→ allen1985: 直方圖還是很不常態 可以試著做box-cox轉換 12/11 12:21
→ allen1985: 個人不會太擔心使用paired t-test 12/11 12:23
→ Chsieh: 資料你取log或者box-cox當然可以,你該想的是解釋部分 12/11 12:35
→ allen1985: 另一個問題是 24小時後的資料 天數是不是不一樣 12/11 12:39
→ allen1985: 就會有點不知道在比什麼 12/11 12:40