看板 NBA 關於我們 聯絡資訊
首Po賺個P幣 個人對Learning to rank略有接觸,想說從一個不同的角度切入百大排名這件。 首先找到一組權重去對球員排名本身就是非常困難的問題。像前面版友講的,有人會說得分王重要乘以2,有人會說強分區要加權,還是不是要考慮DPOY/正負值/季後賽勝率/明星賽次數...要考慮的特徵排列組合非常非常多,還要幫每個特徵選出一個權重。 所以從資料科學的角度,常用的方式就是用監督式機器學習從現有的資料裡學出權重,這種方式必須要標記的資料。舉個例子: 大家都把自己的百大排名打在下方,這樣我們可能就得到了一些樣本可以去建立回歸模型。 然而以上也只是理想中的情況,實際上還有很多問題。首先是資料標記的問題 : 一般人大概排到第十幾個球員就懶得排下去了。這時候我們可以把排序問題變成比較問題 (MJ >> Curry 之類的),當我們有足夠的一組組的比較樣本之後,就也比較容易排出序列。 當然取得以上的資料後還會有很多問題,比方說以上的資料可能會有矛盾,又或者有反串,重複留言....之類的問題要處理。用哪些特徵也是需要鑽研的。而且最終學出來的權重也可能只是符合NBA版上對這篇文有留言的人的數據分佈而已,說不定相較於廣大群眾是反指標。 但至少我們可以透過分割資料的方式去評估這個模型的精確度,應該會比直接人為的定義權重略微符合風向。 ----- Sent from JPTT on my Google Pixel 4 XL. -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 73.59.104.58 (美國) ※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1627094690.A.2BC.html
pneumo : 我本來期待按下頁會看到你的算法.... 07/24 10:47
ljk476820 : 同一樓.. 07/24 10:48
youngluke : 同意 但就是要有資料庫 07/24 10:50
koga5566 : 交給你了 07/24 10:52
koga5566 : 不然拿近五年所有媒體做的來當資料 07/24 10:54
shifa : 你用PTT推文去當回歸的data目的是? 07/24 11:03
youngluke : 回歸出在PTT推文最順風的排名 07/24 11:05
ganhua : 板上一堆反串,到時候真的生出來又要繼續吵架了XDD 07/24 11:09
mightymouse : 要拿模型套在主觀評價真的很難,像Ewing生涯榮耀很 07/24 13:15
mightymouse : 明顯比D. Howard少很多,可是所有媒體歷史排名Ewing 07/24 13:15
mightymouse : 都是屌打DH 07/24 13:15
stja : 07/24 13:18
mmk : 如果仔細分析 爭議文的推文應該有很高比率在反串 07/24 14:42