Re: [外絮] 用機器學習模型預測MVP得主

作者y800122155 (@__@)

看板NBA

標題Re: [外絮] 用機器學習模型預測MVP得主

時間Fri Apr 30 13:33:16 2021

大略看了一下原文提供我的一點淺見首先使用機器學習處理問題是假設實際存在一個真實的模型接著透過資料訓練出一個模型盡可能接近真實的模型然後我們就可以拿訓練出來的模型對新的資料做預測但是在這個問題上面 MVP票選並不是一個固定的模型投票的人不一樣投票的思維也不一樣即便是同一批人重新投一次票結果可能也不會一樣因此在這種問題上使用機器學習甚至是各種資料科學的方法都可能存在不小的問題資料的選取也很奇怪作者的目的是建構一個預測MVP得主的模型但實際上他建構的是預測MVP得票排序的模型作者為了讓訓練資料更多把資料做了一個特別的調整將原本的單一年度單一球員的資料(features)+是否為MVP(label) 調整成整個MVP票選結果排序中任意兩兩一組+誰的票多具體詳細做法也沒有揭露這樣的做法存在非常大的問題因為同類型的球員會有分票效應你不會知道把第一名的球員抽出之後原本投給他的票會如何地分配給後面的球員整個MVP票選結果並沒有告訴我們兩兩一組的票選結果但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料然後最重要的是模型訓練方式跟模型評估除了揭示使用了 XGBoost與LambdaMART 外其他所有重要資訊都沒有揭露我們無法得知所有的38年之中哪些年份被拿來做為訓練資料或是每個年份中哪些兩兩成對的組合是訓練資料當然更不會知道訓練出來的模型評估結果好或壞也不無可能作者把訓練資料跟測試資料反覆做各種分切最後選取一種最滿意的切法做最後的建模這樣做就會造成 data leakage 的問題大概先這樣 --- 如果有太複雜的ML問題建議寄站內信給前站長 CharlieL XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.26 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619760799.A.147.html ※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 13:35:15

→ mirror0103 : 推 04/30 13:39

推 MrSatan : 箭頭 04/30 13:39

推 jerry86 : 箭頭 04/30 13:41

→ ziggyzzz : 推 04/30 13:43

推 LeehomLee : 懂歐推 04/30 13:45

→ shifa : 原來他不是用38年來的所有球員數據去跑的喔 04/30 13:46

推 timmyen : 推XD 04/30 13:46

推 renna038766 : 文組聽不懂 04/30 13:46

→ kkb512sk : 你把濤哥放那? 04/30 13:47

推 somanyee : 身為外行人，這篇是不是說原始方法看起來有點問題 04/30 13:47

→ somanyee : ，就算是32/38猜中，可能是湊？ 04/30 13:47

→ shifa : 簡單說這篇提出的疑問是訓練的方法有問題。 04/30 13:50

→ shifa : 但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD 04/30 13:50

推 ykshih : 他應該是把 38 年來的全丟進去跑然後用個普普的模型 04/30 13:53

→ ykshih : 所以不會 overfitting，但這種跑法根本沒意義 04/30 13:53

→ Chris5566 : 上一篇根本秀下限 04/30 13:53

→ ykshih : 只能說有幾年的評分標準稍微不一樣而已 04/30 13:53

→ ykshih : 和偷不偷根本沒啥關係 04/30 13:54

推 jonathan8907: 你放心鄉民看不懂還是會繼續吵繼續酸 04/30 13:57

推 NPLNT : 推 04/30 14:00

推 handfox : 認真了，大家只是需要找個可以吵起來的理由 04/30 14:02

推 GeeBen : 投票的人才是真的 04/30 14:04

→ GeeBen : 中肯 04/30 14:04

→ SpursTony09 : 簡直亂做一通我只信濤哥 04/30 14:11

推 eggy1018 : 合理推 04/30 14:12

推 wpd : 算力乖乖拿去挖礦好嗎?? 04/30 14:13

→ nask : 不過就是因為不是固定模型才要機器學習阿不然excel 04/30 14:13

→ nask : 數據列一列就好了 04/30 14:13

這樣的說法是完全錯誤的幾千筆資料，幾十個欄位，excel是要隨便弄個回歸交差嗎?

推 SwissMiniGun: 有做有話題 04/30 14:14

推 callTM : 他的sample size 就不夠大要怎麼train? 04/30 14:16

→ yowhatsupsli: 恩恩跟我想的一樣 04/30 14:19

推 edward0811 : 反正程式數據小改，改到高興的人不就好了 04/30 14:24

推 k7626773 : 專業推，很多留言不知道為什麼一直跳針32/38。看懂 04/30 14:24

→ k7626773 : model怎麼出來的比其他事情重要多了… 04/30 14:24

推 hannah5269 : 終於有人講公道話 04/30 14:24

推 NLchu : 就統計而已30左右的樣本數跟沒有一樣 04/30 14:26

你對樣本的認知有很大偏誤，並不是一整個年度作為一個樣本

→ NLchu : 頂多就是算個趣味給大家看一下打發時間而已 04/30 14:26

推 chh1470 : 推 04/30 14:28

推 yellowbooky : 其實量化分析樣本數最少30這是學術界公認的，30不會 04/30 14:35

→ yellowbooky : 不準 04/30 14:35

統計學上，以30或25個樣本作為足夠大的樣本來近似常態分佈，並以常態性假設進行後續分析工作。但是機器學習需要的資料量跟前述工作完全是兩回事，不可混淆。

推 midnamelee : 我文組先道歉 04/30 14:36

→ shifa : 要發戰文其實也用不到機器學習來跑，鄉民拿幾個指 04/30 14:36

→ shifa : 標配上自己愛的權重去給分數，分數最高的就當MVP。 04/30 14:36

→ shifa : 這樣就可以嘴誰偷了MVP。而且這方法記得之前在板上 04/30 14:36

→ shifa : 有看過類似的。原文那樣子應該比較像是拿NBA數據來 04/30 14:36

→ shifa : 當練習的成果發表吧？ 04/30 14:36

推 YouGot5566 : 乾整篇都看不懂搞那麼複雜XD 04/30 14:37

推 andy78714 : 推 04/30 14:46

推 sunnyyoung : XD 這種類型的模型好像蠻適合當學校的課程專案的 04/30 14:52

推 pheather : Comments from Reviewer #1: 04/30 14:52

→ sunnyyoung : 台灣應該要有人寫幾個模型來玩啊 04/30 14:52

→ shifa : 我是覺得這case不太好，因為MVP跟數據表現重疊性 04/30 14:54

→ shifa : 太高，基本上數據漂亮的球員MVP呼聲就高 04/30 14:55

→ shifa : 而且原文用了25個指標再做模型，搞不好結果沒有直接 04/30 14:57

→ shifa : 看PER來得簡單 XD 04/30 14:57

→ shifa : *"在"做模型 04/30 14:57

我覺得你好像誤解了那張 features importance 的圖表，基本上建模不太可能只拿25個指標在建模，一般大概都會用幾十、幾百，甚至更多幾個數量級的數量的指標來建模，然後模型會告訴你哪些是重要的指標，最後把 Top features 畫出那張圖表。

推 swatch44 : 以後直接看per就好了啊其他都妖魔鬼怪 04/30 14:59

推 JoeChang5566: 雖然我看不是很懂,這篇我也推 04/30 15:09

推 DemonRing : 我建議採用 Palantir 的服務 04/30 15:11

→ thunderman : 真實世界問題本來就一堆問題沒人知道是否真有模型 04/30 15:17

→ thunderman : 像人喜歡看什麼影片真的有模型嗎？only God konws 04/30 15:17

→ thunderman : 但yt跟Netflix一樣用ML train出東西來推薦影片給你 04/30 15:17

→ thunderman : 重點應該要放在是跑出來的結果有沒有用 04/30 15:17

有沒有真實模型確實沒有那麼重要，但是像NBA MVP投票，我覺得甚至是每一年都在浮動，到底適不適合用ML來做，我抱持懷疑的態度，畢竟，非典型MVP真的有那麼不堪嗎? 是否在特定年份我們應該為非典型MVP使用一套非典型的模型來賦予他們這份榮耀呢? 或是過去評估MVP的模型，是否因為新指標的產生而有所改變了? 像是棒球經歷 Money Ball、飛球革命等運動科學的導入，評估球員的指標就有很顯著的差異了，籃球有沒有類似的改變我就比較不瞭解了。

推 VIATOR : 推shifa，配上自己愛的權重去給分數就好了... 04/30 15:17

推 wang2346581 : 很專業唷不過人家也只是隨便玩玩而已吧 04/30 15:24

推 erosha : 濤哥沒機會秀一把不然一定屌打 04/30 15:25

推 camelot0603 : 濤哥明明就是某隊隊迷在那邊反串小丑，有夠瞎，騙 04/30 15:27

→ camelot0603 : 一堆貪雞排的推文 04/30 15:27

→ shifa : #1Qq7G7z- (NBA) 有板友整理過去數據跟MVP的關係 04/30 15:29

→ shifa : 反而統合性數據指標跟MVP的相關性沒那麼好的感覺 04/30 15:31

→ shifa : 原文那一套32/38搞不好還不錯了 XD 04/30 15:31

推 taylor0607 : 大有幫助推！ 04/30 15:40

推 alfa871212 : 推田神 04/30 15:43

田神每天都會偷偷上站不能不推 m(_ _)m

→ shifa : 原來指標可能比25個還多啊 XD 04/30 16:14

噓 cs410567cs : 什麼不是固定模型不能預多讀點書多打幾場kaggle 04/30 16:16

→ cs410567cs : 比賽勝負都能預測股票都能預測 MVP不能預測? 04/30 16:17

你哪裡看到我說不能預測? 我抱持懷疑的論點是因為模型不斷變動，最舊的資料是38年前，拿38年前的資料作訓練預測現在的結果，會很不可靠。您是不是應該先練習中文語文理解呢?

推 BlauWal39 : 這裡是哪裡 04/30 16:28

※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 16:33:06

→ pujos : Condorcet voting 04/30 17:14

→ pujos : 這個很常見，一點都不奇怪好嗎.... 04/30 17:14

推 tasimichael : 讚 04/30 17:14

→ pujos : 分組就是為了避免人為權重影響結果 04/30 17:15

→ pujos : 抽掉第一後面就會變，我聽你在唬爛洨 04/30 17:16

推 buster520798: 此文該推，分析透徹 04/30 17:40

→ pujos : 這篇的推論根本胡說八道 04/30 17:58

歡迎你把你的論點闡述清楚，你光是丟一個投票方法，我資質駑鈍，無法直接了解這樣的投票方式能夠如何地正向投票，又反向拆解成每一小筆資料，還拿來訓練模型，既然您這麼厲害，那更應該分享您的論點。

推 hondawht : 文組不會抱歉 04/30 18:07

推 NothingIsMe : 我覺得該弄個爬蟲把網路聲量數據化弄進去 04/30 18:23

※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 20:32:33

推 jitaomef : 推這篇 04/30 21:18

推 shaq2000 : 我覺得拆成兩兩比較的方法很有趣R 原文就是認為說 04/30 21:54

→ shaq2000 : 不是只有誰真的得票第一這個資訊有意義, 每個排名 04/30 21:55

→ shaq2000 : 誰大於誰也有意義, 所以每一年的資料都可以倆倆拆 04/30 21:56

→ shaq2000 : 這樣訓練集就不只有38個資料點了 04/30 21:56

推 yesido330 : 真的牽扯到人..就沒辦法用機器完全預測，去年才有人 04/30 22:11

→ yesido330 : 模擬幾萬次大部份（忘了幾成）都快艇冠軍，結果XD 04/30 22:11

噓 taipeifinest: 卡搞哩來 04/30 23:04

噓 nhctcmouse : 假設實際存在一個真實的模型，看到這句下面就不用 05/01 16:20

→ nhctcmouse : 看了 05/01 16:20

→ nhctcmouse : 通篇亂講，教一些錯誤觀念 05/01 16:21