Re: [外絮] 用機器學習模型預估MVP得主

作者lulululula (shawdidi)

看板NBA

標題Re: [外絮] 用機器學習模型預估MVP得主

時間Fri Apr 30 13:18:56 2021

※ 引述《timmyen (Ako)》之銘言： : 今天早上在reddit看到的文章，覺得挺有趣，轉過來跟版友們分享。 : 小弟不是學資料科學的，如果內文有誤也請不吝指正 : 原文：https://perthirtysix.com/essay/2021-nba-mvp-race : 懶人包： : 作者(u/robmoo_re)利用了過去38年的NBA的球員資料以及MVP票選結果（包含排名及票數） : 建造了一個預估球員得到MVP的機率以及MVP得主的模型， : 利用這個模型，在過去38年中可以正確的計算出32年的得主。 : 在這個模型中，各項球員數據的權重（也就是這個模型認為影響MVP票選最重要的數據) : 依序如下： : https://imgur.com/33ouqUG : 球隊勝率% : 每場上場時間 : 球隊種子序 : WS/48 : 每場得分 : 出賽場次 : VORP : 2分命中率 : 罰球次數 : 助攻數 : 每場籃板 : 整體命中率 : BPM : Usage% : 每場失誤數 : 真實命中率 : (以下不列，可以自己看圖) : 模型利用以上數據算出每一個球員的candidacy score : 這個分數越高者，即是模型認為越有可能得到MVP的人選 : 要特別說的是，某些數據本身是互相有關聯性的(譬如：兩分/三分命中率及整體命中率， : 或是整體命中率跟一大堆進階數據)，由於已經被重複計算過，因此單項的權重會降低， : 不代表這項數據就不重要。 : === : 幾個有趣的結果 : 1. 誰是這38年來MVP分數最高的球員？ : 答案是08-09年的姆斯，分數高達4.49 : 2. 那最低分的MVP得主又是誰？ : 答案是04-05年的Nash，他當年的分數只有1.09 : 3. 誰的MVP被偷了？(誤) : 剛剛提到38年中這個模型成功預測出32年的MVP得主， : 這也代表其中有6年模型預測跟最終的結果是不一致的， : (1) 2016-2017年的MVP，模型預測得主是Harden(2.73)，最終由當年拿下平均大三元 : 的Westbrook(2.44, 第二)拿走MVP : (2) 2010-2011年，當年分數最高的是LBJ(2.37)，最終MVP被Rose(2.23)拿走。 : (3) 2004-2005年，也就是上面提到，Nash以史上最低分(1.09)拿下MVP的那年。 : 當年屈居第二的是Shaq (1.12，其實沒差很多)，也難怪他老人家到現在還在記仇 : 另外，隔年(05-06)Nash連莊時MVP分數也不是第一(1.8)， : 當年分數第一的是LBJ(2.25)，只能說Nash真的是這個模型的outlier : 4. Kobe到底有沒有偷了CP3一個MVP？ : 如果用這個模型看，答案是沒有，當年(07-08)Kobe以2.62分拿下MVP， : 屈居第二的CP3分數是2.2分 : 5. 38年來最大的一二名差距發生在1999-2000年，當年大歐以3.71分拿下MVP， : 分數第二的是Alonzo Mourning -- 0.7分 (票選第二的是KG，分數0.55) : 另外，Curry全票MVP那年分數是3.47分，第二名的可愛1.89分，也是不小的差距 : 6. 那今年的MVP會是誰呢？ : 模型預測今年的MVP會是阿肥Jokic : https://imgur.com/KRIWmS9 : 本賽季截至目前為止，MVP分數最高的三人分別是 : Jokic (2.02) : 字母哥(0.26) : Embiid(0.04) : 非常巨大的差距 : ==== : 有興趣的版友可以去看看這個模型是怎麼建出來的 : 裡面有個"Explore 1984 - 2020"可以拉出這38年間所有模型跑出來的結果 : https://imgur.com/ZU04aVC : Reddit討論： : https://www.reddit.com/r/nba/comments/n150xj/ 討論這問題先搞懂MVP是啥好嗎？最有“價值”球員球員的價值又不是那些數據能完整呈現的況且這些數據基本都是人為定義老衲第一年會拿主因就是回歸後作為核心戰績躍升你說這不能表現一個球員的價值？ Rose那年更好笑了 LBJ身邊有兩個去年前五的隊友戰績還輸你跟我說他比較有價值？龜龜那年就是大三元噱頭我也覺得用數據有沒有湊到雙位數評斷球員加值扯到不行但就是投出來的結果另外這model 32/38的準確度還是在偷看答案的情況下得到的就說明用這些數據看MVP本來就非常浮動有個model出來大家討論/預測是不錯啦但拿這個結果出來氣噗噗誰偷誰就好笑了 ----- Sent from JPTT on my Google Pixel 4 XL. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 1.200.21.120 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619759938.A.368.html

推 shingo135r : 有些東西本就不是量化可以看出來的數據都只是參考 04/30 13:22

推 GhostFather : 這篇中肯 04/30 13:22

推 kevin789 : 推 04/30 13:24

→ LeGGoRay : 數據是死的，投票的人是活的，要拿MVP本來就會有諸 04/30 13:26

→ LeGGoRay : 多因素影響，這篇正解 04/30 13:26

推 phoenix286 : 同感拿結果套出來的模型去argue哪年的結果不準也 04/30 13:26

→ phoenix286 : 是蠻奇怪的難道不是繼續修改模型嗎？ 04/30 13:26

推 cms1717698 : 拿結果去弄出來的模型結果38個sample就有6個是錯的 04/30 13:28

→ cms1717698 : 這種白癡模型也有人會信哦笑死 04/30 13:28

推 DamianLillar: 別那麼激動只是預測一下 04/30 13:28

推 society : 所以姆斯去年該拿囉，沒有他一輪都沒有 04/30 13:29

→ shifa : 氣成這樣 XD 04/30 13:30

推 god2 : 但是總要有一個客觀的評價，大家在努力找啊 04/30 13:31

推 kevinduh4 : 人家是拿數字去解釋你拿感覺去解釋還氣成這樣是 04/30 13:34

→ kevinduh4 : 怎樣 04/30 13:34

噓 ziggyzzz : 你真的有搞清楚那個模型是從什麼角度解釋MVP拉嗎 04/30 13:37

→ ziggyzzz : 笑死 04/30 13:37

至少比那些討論誰被偷的懂多了

噓 mirror0103 : 人家就是用模型跑又沒有說他就是標準 04/30 13:38

你根本沒看懂我在說啥

噓 c871111116 : 大家就在討論啊就你特別發一篇出來氣XD 04/30 13:38

推 buyfood : 說真的如果機器學習能得出跟人類投票完全符合的結果 04/30 13:39

→ buyfood : ，那在坐各位應該都不用工作了不過就是分享個實驗 04/30 13:39

→ buyfood : 結果，這麼認真辯護幹嘛 04/30 13:39

噓 steven89185 : 你很氣欸數據分析本來就是這樣了啊連人為因素都能 04/30 13:39

那篇底下就一堆人在那邊偷來偷去的啊

→ steven89185 : 分析的話ML就無敵了好嗎 04/30 13:39

→ gotohikaru : 這兩天太陽迷真是火力十足XD 04/30 13:41

推 eric5321 : 模型就是推測跟參考而已而且他的準度也不低 04/30 13:42

推 somanyee : 照這套賭，勝率32/38；要是原PO能弄出勝率更高的mo 04/30 13:42

→ somanyee : del，賭客當然樂觀其成啊 04/30 13:42

我要說的是用這個去說誰是不合格MVP很蠢，就這樣

→ shifa : 100%命中就會被argue過適了啊 XD 04/30 13:45

※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 13:45:23 ※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 13:46:53

→ kkb512sk : 機器學習我只服濤哥 04/30 13:47

※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 13:48:38 ※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 13:49:02

噓 Chris5566 : 你是不是不懂數據分析 04/30 13:52

推 somanyee : 會很在乎，說是什麼偷啊、不如第二順位，大概就是 04/30 13:53

→ somanyee : 下重注的或是死忠粉絲啊！發洩一下無傷大雅，看球 04/30 13:53

→ somanyee : 本質就是娛樂嘛 04/30 13:53

→ lulululula : 笑死我從頭到尾沒有批評那model 04/30 13:54

→ lulululula : 一堆人中文不好在那跳針 04/30 13:54

噓 evangelew : 無言 04/30 13:55

→ evangelew : 原po內文一堆矛盾== 04/30 13:56

→ shifa : 人家認為這些數據配合權重就是可以某種程度上代表M 04/30 13:58

→ shifa : VP。要拿「不可見的感覺」出來講講的就是另外一件 04/30 13:58

→ shifa : 事情了。 04/30 13:58

推 ejnfu : 等等，那model難道不是拿那38年的MVP當作test data 04/30 13:58

→ ejnfu : 嗎？train應該要用額外年度吧？ 04/30 13:58

我是沒認真看啦但這資料你哪來額外年度XD NBA環境變化那麼大40年前資料拿來train怎麼可能準

推 GeeBen : 不要這麼中肯 04/30 14:00

→ GeeBen : 好不容易有浮木飄過來 04/30 14:01

噓 ph90119 : 跟不是工程的人討論數據分析本來就別奢望他們懂 04/30 14:03

→ sunnyyoung : 人家的模型在試圖算出可能被“選”出來的MVP 要是 04/30 14:03

→ sunnyyoung : 有個單純只在量化球員個人表現價值的模型多好 04/30 14:03

※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 14:05:13

推 kingianlin : 其實32/38沒啥參考價值 04/30 14:06

噓 yellowbooky : 你是不是看不懂原PO想表達什麼.. 04/30 14:07

我又不是回原po

推 SpursTony09 : 真的 32/38 還說誰偷誰的根本自己做壞model還在吹 04/30 14:09

推 minicoke : 其實他不算32/38啊因為那個是已知的資料 04/30 14:14

→ minicoke : 你用這組model用test之後還未知的數年mvp才知道準確 04/30 14:15

→ minicoke : 率 04/30 14:15

→ minicoke : 其實妳也可以用出38/38但這個預測之後的mvp一定很爛 04/30 14:16

※ 編輯: lulululula (1.200.21.120 臺灣), 04/30/2021 14:17:32

噓 hpaor : 那強者跟強者同隊數據會稀釋怎不說只看戰績那為 04/30 14:30

→ hpaor : 何不綁定只能頒給戰績第一事實上就是戰績也只是數 04/30 14:30

→ hpaor : 據之一 04/30 14:30

推 w9 : 幫補血噓文的套路好一貫XD 04/30 14:37

噓 peterqlin : 一看就是不懂機器學習的文組 04/30 14:41

噓 Qedosh : 至少人家有數據，你只會通靈 04/30 14:41

→ peterqlin : supervised learning本來就要給training data好嗎 04/30 14:42

推 wpd : 還在十進位湊雙位數??? 到底醒了沒啊 04/30 14:46

噓 sxzc : 幫我看一下我這樣有符合一貫套路嗎 04/30 14:48

→ wpd : 得分王 PER最高單核帶隊講幾次了還在人類十進位? 04/30 14:48

噓 erosha : 笑死 04/30 15:27

噓 mark0204 : 我也是沒認真噓 04/30 16:17

噓 sedicause : 好了啦每年改標準最重要 04/30 16:38

→ sp1234 : 都在湊答案了，應該有辦法全對，例如前後季戰績差 04/30 17:23

→ sp1234 : 異大加分、或平均大三元加分之類的 04/30 17:23

推 cktony : 氣氣氣，嘻嘻 04/30 17:49

推 h458791123 : 蠻想知道他是用那幾年的基礎資料當基底去回測過去過 04/30 17:55

→ h458791123 : 去mvp的準確度 04/30 17:55

噓 jonneth : … 04/30 18:48

噓 e30901 : 笑死 04/30 23:26

噓 spyU06 : 就是數據分析，那感覺跟人家吵啥，潑婦罵街喔？說看 05/01 01:39

→ spyU06 : 看妳的分析方法看可以猜中多少個啊 05/01 01:39