Re: [外絮] 用機器學習模型預測MVP得主
大略看了一下原文
提供我的一點淺見
首先
使用機器學習處理問題
是假設實際存在一個真實的模型
接著透過資料訓練出一個模型盡可能接近真實的模型
然後我們就可以拿訓練出來的模型對新的資料做預測
但是在這個問題上面
MVP票選並不是一個固定的模型
投票的人不一樣 投票的思維也不一樣
即便是同一批人 重新投一次票結果可能也不會一樣
因此
在這種問題上使用機器學習
甚至是各種資料科學的方法都可能存在不小的問題
資料的選取也很奇怪
作者的目的是建構一個預測MVP得主的模型
但實際上
他建構的是預測MVP得票排序的模型
作者為了讓訓練資料更多
把資料做了一個特別的調整
將原本的單一年度單一球員的資料(features)+是否為MVP(label)
調整成整個MVP票選結果排序中任意兩兩一組+誰的票多
具體詳細做法也沒有揭露
這樣的做法存在非常大的問題
因為同類型的球員會有分票效應
你不會知道把第一名的球員抽出之後
原本投給他的票會如何地分配給後面的球員
整個MVP票選結果 並沒有 告訴我們兩兩一組的票選結果
但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料
然後最重要的是模型訓練方式跟模型評估
除了揭示使用了 XGBoost與LambdaMART 外
其他所有重要資訊都沒有揭露
我們無法得知所有的38年之中
哪些年份被拿來做為訓練資料
或是每個年份中哪些兩兩成對的組合是訓練資料
當然更不會知道訓練出來的模型評估結果好或壞
也不無可能作者把訓練資料跟測試資料反覆做各種分切
最後選取一種最滿意的切法做最後的建模
這樣做就會造成 data leakage 的問題
大概先這樣
---
如果有太複雜的ML問題
建議寄站內信給前站長 CharlieL
XD
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.26 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619760799.A.147.html
※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 13:35:15
→
04/30 13:39,
4年前
, 1F
04/30 13:39, 1F
推
04/30 13:39,
4年前
, 2F
04/30 13:39, 2F
推
04/30 13:41,
4年前
, 3F
04/30 13:41, 3F
→
04/30 13:43,
4年前
, 4F
04/30 13:43, 4F
推
04/30 13:45,
4年前
, 5F
04/30 13:45, 5F
→
04/30 13:46,
4年前
, 6F
04/30 13:46, 6F
推
04/30 13:46,
4年前
, 7F
04/30 13:46, 7F
推
04/30 13:46,
4年前
, 8F
04/30 13:46, 8F
→
04/30 13:47,
4年前
, 9F
04/30 13:47, 9F
推
04/30 13:47,
4年前
, 10F
04/30 13:47, 10F
→
04/30 13:47,
4年前
, 11F
04/30 13:47, 11F
→
04/30 13:50,
4年前
, 12F
04/30 13:50, 12F
→
04/30 13:50,
4年前
, 13F
04/30 13:50, 13F
推
04/30 13:53,
4年前
, 14F
04/30 13:53, 14F
→
04/30 13:53,
4年前
, 15F
04/30 13:53, 15F
→
04/30 13:53,
4年前
, 16F
04/30 13:53, 16F
→
04/30 13:53,
4年前
, 17F
04/30 13:53, 17F
→
04/30 13:54,
4年前
, 18F
04/30 13:54, 18F
推
04/30 13:57,
4年前
, 19F
04/30 13:57, 19F
推
04/30 14:00,
4年前
, 20F
04/30 14:00, 20F
推
04/30 14:02,
4年前
, 21F
04/30 14:02, 21F
推
04/30 14:04,
4年前
, 22F
04/30 14:04, 22F
→
04/30 14:04,
4年前
, 23F
04/30 14:04, 23F
→
04/30 14:11,
4年前
, 24F
04/30 14:11, 24F
推
04/30 14:12,
4年前
, 25F
04/30 14:12, 25F
推
04/30 14:13,
4年前
, 26F
04/30 14:13, 26F
→
04/30 14:13,
4年前
, 27F
04/30 14:13, 27F
→
04/30 14:13,
4年前
, 28F
04/30 14:13, 28F
這樣的說法是完全錯誤的
幾千筆資料,幾十個欄位,excel是要隨便弄個回歸交差嗎?
推
04/30 14:14,
4年前
, 29F
04/30 14:14, 29F
推
04/30 14:16,
4年前
, 30F
04/30 14:16, 30F
→
04/30 14:19,
4年前
, 31F
04/30 14:19, 31F
推
04/30 14:24,
4年前
, 32F
04/30 14:24, 32F
推
04/30 14:24,
4年前
, 33F
04/30 14:24, 33F
→
04/30 14:24,
4年前
, 34F
04/30 14:24, 34F
推
04/30 14:24,
4年前
, 35F
04/30 14:24, 35F
推
04/30 14:26,
4年前
, 36F
04/30 14:26, 36F
你對樣本的認知有很大偏誤,並不是一整個年度作為一個樣本
→
04/30 14:26,
4年前
, 37F
04/30 14:26, 37F
還有 26 則推文
還有 2 段內文
有沒有真實模型確實沒有那麼重要,
但是像NBA MVP投票,我覺得甚至是每一年都在浮動,
到底適不適合用ML來做,我抱持懷疑的態度,
畢竟,非典型MVP真的有那麼不堪嗎?
是否在特定年份我們應該為非典型MVP使用一套非典型的模型來賦予他們這份榮耀呢?
或是過去評估MVP的模型,是否因為新指標的產生而有所改變了?
像是棒球經歷 Money Ball、飛球革命等運動科學的導入,
評估球員的指標就有很顯著的差異了,籃球有沒有類似的改變我就比較不瞭解了。
推
04/30 15:17,
4年前
, 64F
04/30 15:17, 64F
推
04/30 15:24,
4年前
, 65F
04/30 15:24, 65F
推
04/30 15:25,
4年前
, 66F
04/30 15:25, 66F
推
04/30 15:27,
4年前
, 67F
04/30 15:27, 67F
→
04/30 15:27,
4年前
, 68F
04/30 15:27, 68F
→
04/30 15:29,
4年前
, 69F
04/30 15:29, 69F
→
04/30 15:31,
4年前
, 70F
04/30 15:31, 70F
→
04/30 15:31,
4年前
, 71F
04/30 15:31, 71F
推
04/30 15:40,
4年前
, 72F
04/30 15:40, 72F
推
04/30 15:43,
4年前
, 73F
04/30 15:43, 73F
田神每天都會偷偷上站 不能不推 m(_ _)m
→
04/30 16:14,
4年前
, 74F
04/30 16:14, 74F
噓
04/30 16:16,
4年前
, 75F
04/30 16:16, 75F
→
04/30 16:17,
4年前
, 76F
04/30 16:17, 76F
你哪裡看到我說不能預測?
我抱持懷疑的論點是因為模型不斷變動,
最舊的資料是38年前,拿38年前的資料作訓練預測現在的結果,會很不可靠。
您是不是應該先練習中文語文理解呢?
推
04/30 16:28,
4年前
, 77F
04/30 16:28, 77F
※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 16:33:06
→
04/30 17:14,
4年前
, 78F
04/30 17:14, 78F
→
04/30 17:14,
4年前
, 79F
04/30 17:14, 79F
推
04/30 17:14,
4年前
, 80F
04/30 17:14, 80F
→
04/30 17:15,
4年前
, 81F
04/30 17:15, 81F
→
04/30 17:16,
4年前
, 82F
04/30 17:16, 82F
推
04/30 17:40,
4年前
, 83F
04/30 17:40, 83F
→
04/30 17:58,
4年前
, 84F
04/30 17:58, 84F
歡迎你把你的論點闡述清楚,你光是丟一個投票方法,
我資質駑鈍,無法直接了解這樣的投票方式能夠如何地正向投票,
又反向拆解成每一小筆資料,還拿來訓練模型,
既然您這麼厲害,那更應該分享您的論點。
推
04/30 18:07,
4年前
, 85F
04/30 18:07, 85F
推
04/30 18:23,
4年前
, 86F
04/30 18:23, 86F
※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 20:32:33
推
04/30 21:18,
4年前
, 87F
04/30 21:18, 87F
推
04/30 21:54,
4年前
, 88F
04/30 21:54, 88F
→
04/30 21:55,
4年前
, 89F
04/30 21:55, 89F
→
04/30 21:56,
4年前
, 90F
04/30 21:56, 90F
→
04/30 21:56,
4年前
, 91F
04/30 21:56, 91F
推
04/30 22:11,
4年前
, 92F
04/30 22:11, 92F
→
04/30 22:11,
4年前
, 93F
04/30 22:11, 93F
噓
04/30 23:04,
4年前
, 94F
04/30 23:04, 94F
噓
05/01 16:20,
4年前
, 95F
05/01 16:20, 95F
→
05/01 16:20,
4年前
, 96F
05/01 16:20, 96F
→
05/01 16:21,
4年前
, 97F
05/01 16:21, 97F
NBA 近期熱門文章
98
125
268
1090
82
257
117
220
PTT體育區 即時熱門文章