看板 MLB 關於我們 聯絡資訊
LM模型: Runs ~ Hits + HR + BB + SO + SB + LOB + GIDP Summary Estimate Std. Error t value Pr(>|t|) (Intercept) -1.57802 0.56442 -2.796 0.010534 * Hits 0.83505 0.07197 11.603 7.57e-11 *** HR 0.45883 0.15011 3.057 0.005781 ** BB 0.67218 0.08538 7.873 7.70e-08 *** SO -0.01054 0.03427 -0.308 0.761327 SB 0.08393 0.10157 0.826 0.417501 LOB -0.47437 0.10059 -4.716 0.000105 *** GIDP -0.67690 0.15199 -4.453 0.000199 *** Multiple R-squared: 0.9718, Adjusted R-squared: 0.9628 首先,這結果告訴我們,用以上這些參數來估計所得分數可以估的相當的準確。 這些各樣打擊數據,幾乎可以解釋97%會得多少分的影響。 安打,HR,獲得保送,如常識所知的會提高得分。 盜壘多會增加多一點點的得分,三振多則會使得分少一點點,不過影響都不明顯。 安打、HR、保送對分數的重要性,我配了另外一個模型為了避免共線性 安打 : HR : 保送 對分數影響的比重為 1 : 2.4 : 0.7 殘壘多的球隊會使得分減少,雙殺更是明顯的影響著得分, 大約每次雙殺會使得得分少得0.6分。 最後則是來看看各隊的期望得分與實際得分。 RS/G 期望RS/G 分數差 名次差 BOS 5.355 5.324 0.030 NYY 5.152 4.981 0.171 TEX 4.938 4.869 0.069 TOR 4.708 4.826 -0.118 CIN 4.705 4.712 -0.007 +1 STL 4.663 4.747 -0.084 -1 ARI 4.495 4.619 -0.124 NYM 4.436 4.500 -0.064 COL 4.432 4.418 0.014 +1 DET 4.411 4.458 -0.048 -1 CLE 4.387 4.281 0.107 +4 MIL 4.375 4.405 -0.030 KC 4.358 4.401 -0.043 PHI 4.266 4.188 0.078 +2 TB 4.237 4.405 -0.168 -4 BAL 4.109 4.290 -0.182 -2 ATL 4.074 4.133 -0.059 CHC 4.042 4.014 0.028 +1 CWS 4.021 4.077 -0.056 -1 FLA 3.989 3.961 0.028 PIT 3.968 3.886 0.081 +1 MIN 3.914 3.874 0.040 +1 HOU 3.884 3.787 0.097 +2 WAS 3.853 3.665 0.188 +3 ANA 3.813 3.918 -0.106 -4 LA 3.674 3.806 -0.132 -2 SF 3.656 3.713 -0.057 -1 OAK 3.490 3.346 0.143 +1 SD 3.344 3.370 -0.026 -1 SEA 3.189 3.225 -0.036 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 211.76.175.169
Edison1174:祭死屍打線 07/18 15:19
ckevint:推一個 剛剛有看到:P 07/18 15:21
jarr2610:藍鳥第四名 分區也第四名QQ 07/18 15:22
Gwendaline:倒數6名全部集中在西區 國美西區火力到底有多弱啊... 07/18 15:29
jacky1990b:水兵硬是落後倒數第二快0.16分左右..幹得好orz 07/18 15:39
searoar:第一面看不懂 07/18 15:41
Yukirin:這模型幾個問題: 1.截距項的負數怎麼解釋? 這跟Y為1 0的 07/18 15:44
Yukirin:機率模型一樣,我們無法理解Y小於0是什麼樣的情況。 07/18 15:44
Yukirin:2. 怕共線性的話,把H拆成1B 2B 3B HR丟進去更好,還可以 07/18 15:46
Yukirin:解決HR的係數比Hits還小的不直觀結果(要理解HR的得分期望 07/18 15:47
Yukirin:是Hits+HR也是挺麻煩的) 07/18 15:47
ddtddt:只是簡單的模型,就像把分數當常態,但不會有負和超過一百 07/18 15:49
Yukirin:3.LOB放進去的意涵是什麼?前面的東西都可以解釋成因果關 07/18 15:49
Yukirin:係,但得分跟LOB是同時發生的"結果"。 07/18 15:50
Yukirin:Sorry 我認真了 07/18 15:50
ddtddt:第一個模型純粹用來估計一個隊伍的平均得分用。:) 07/18 15:51
ddtddt:一些簡單的短評有另設模型,LOB並不在其中:) 07/18 15:51
ddtddt:謝謝你的comments :) 07/18 15:52
dickyman: 天氣姐姐的統計蠻牛的( ̄ー ̄;) 07/18 16:00
AWEDS:喜歡這種文章~ 07/18 16:01
jojo2147:推,那請問分數差代表意義是打出期望的分數? 07/18 16:05
ddtddt:分數差 = 實際RS - 期望RS 可想成運氣or隱藏的因素所造成 07/18 16:08
ddtddt:隱藏因素也許包含:分區守備強度,打者心理素質,觀念等眾多 07/18 16:10
jojo2147:感謝回答,就是想問那些隱藏因素。 07/18 16:10
ddtddt:補充:分數差也一定有包含著因假設線性模型所造成的錯誤 07/18 16:16
ddtddt:謝謝jojo發問,謝謝aweds的賞臉 07/18 16:17
Mrlegend:ㄗㄠˋ 07/18 16:38
Mrlegend:跟跑壘技巧也有關 07/18 16:41
njnw:模型適性分析...這純粹只是把想要的變數丟進去而已... 07/18 17:03
njnw:只要變數多 R square 就會高...這並不能解釋任何事情 07/18 17:05
njnw:3個基本假設 常態 共變異數 殘差 有檢驗過嗎? 07/18 17:07
njnw:另外 如果把H拆成1B 2B 3B HR 會發現通常只有HR會顯著 07/18 17:08
njnw:3B 太小就不用說了 (上面應該還有1B可能會顯著) 07/18 17:10
njnw:也會增加解釋模型的難度 07/18 17:10
danny789:請問你分析的樣本數夠大嗎?是否呈常態分配? 07/18 17:38
ust:樣本分配長怎樣?? 有共線性的問題嗎?? 07/18 18:01
AWEDS:啤酒說啥我都看不懂 07/18 18:05
uranusjr:@njnw 人家是用 adjusted R-square 不是嗎... 07/18 18:21
glthe1:水手表示:用哪種算法我的名次都一樣 07/18 18:31
ddtddt:我沒說這是正確的方式,只說用最簡單的方法來看 07/18 19:11
ddtddt:認為要更嚴謹的人就麻煩您來幫忙改正了。 07/18 19:12
ddtddt:沒有把2B 3B分出來也只是因為我手邊的資料沒有,所以沒分 07/18 19:13
ddtddt:資料是目前2011年的比賽,如果看平均得分的畫理論上是常態 07/18 19:16
ddtddt:說有共線是因為LOB明顯會和H BB HR有相關,所以我有改模型 07/18 19:17
ddtddt:我對njnw有點意見...就是你有檢驗過不是了嗎?為什麼要批評 07/18 19:19
Webb17:如果只想看結果 不用檢定的話 共線性應該沒甚差吧 07/18 19:25
ddtddt:估記得分的部分沒差,要看H HR BB的比重就有差 07/18 19:26
globekiller:史詩般的美西 07/18 21:09
globekiller:國西也是Orz.... 07/18 21:10
MingXDD:就說盜壘是很無聊的事情(攤 07/18 21:40
MingXDD:而且這還沒記算CS的影響吧 07/18 21:42
r112:之前做報告老師說R 有0.3就不錯了耶 07/18 22:27
njnw:@uranusjr ARS不是更沒有統計意義可言... 07/19 01:05
njnw:@ddtddt 抱歉 其實不是批評 因為兩年前我做過類似的事 07/19 01:06
njnw:然後做完發現自己缺少以及不符合理論只是硬解釋的成分居多 07/19 01:07
njnw:然後看到這篇 真的離過得去的模型有點距離 07/19 01:10
njnw:至少殘叉分析要做吧...如果你有興趣我可以把我的資料寄給你看 07/19 01:10
njnw:但那並不是什麼能登大雅之堂的東西...後來想過修改 07/19 01:11
njnw:@至於共線性 妳變數選擇方式是用什麼? 自定嗎? 07/19 01:12
njnw:@r112 要看資料類型 像這種存在高度相關變數間 的R^2 07/19 01:12
njnw:妳變數越丟越多 就會一直上升 要0.99也很容易 07/19 01:13
njnw:其實真要建模 會比較建議使用主成分分析的方式來進行 07/19 01:14
njnw:另外就算你說用最簡單的方法來看 誤用統計工具可能會導致 07/19 01:21
njnw:錯誤的結論,你也說了"可能"不是正確的方式 07/19 01:21
njnw:(更正 妳沒說可能,是我說的) 那有人提出問題 也是無可厚非吧 07/19 01:23
ddtddt:你說的我都懂,好歹我統計唸了很多年,但我不是在寫論文 07/19 09:26
ddtddt:你可以試試看拿掉一些變數,R^2是否依舊高。 07/19 09:27
ddtddt:回應r112,看是哪方面的數據,描述人的行為的話的確0.3就高 07/19 09:29
ddtddt:我只是恰巧看到一數據,手邊沒工作就手賤跑個最簡單的, 07/19 09:35
ddtddt:跑出來的結果我覺得很make sense,於是分享。 07/19 09:35
ddtddt:還是感謝分享,如果您做出任何否定我的模型的結論, 07/19 09:41
ddtddt:我願意自D這篇:) normality or residual or equal var都行 07/19 09:42
ust:其實你只要殘差有乾淨... 這個模型還是會有他的解釋力 07/19 16:09
ust:aweds弱了齁XD 07/19 16:09