Re: [外絮] 用機器學習模型預測MVP得主

看板NBA (美國籃球)作者 (@__@)時間4年前 (2021/04/30 13:33), 4年前編輯推噓40(43351)
留言97則, 56人參與, 4年前最新討論串1/1
大略看了一下原文 提供我的一點淺見 首先 使用機器學習處理問題 是假設實際存在一個真實的模型 接著透過資料訓練出一個模型盡可能接近真實的模型 然後我們就可以拿訓練出來的模型對新的資料做預測 但是在這個問題上面 MVP票選並不是一個固定的模型 投票的人不一樣 投票的思維也不一樣 即便是同一批人 重新投一次票結果可能也不會一樣 因此 在這種問題上使用機器學習 甚至是各種資料科學的方法都可能存在不小的問題 資料的選取也很奇怪 作者的目的是建構一個預測MVP得主的模型 但實際上 他建構的是預測MVP得票排序的模型 作者為了讓訓練資料更多 把資料做了一個特別的調整 將原本的單一年度單一球員的資料(features)+是否為MVP(label) 調整成整個MVP票選結果排序中任意兩兩一組+誰的票多 具體詳細做法也沒有揭露 這樣的做法存在非常大的問題 因為同類型的球員會有分票效應 你不會知道把第一名的球員抽出之後 原本投給他的票會如何地分配給後面的球員 整個MVP票選結果 並沒有 告訴我們兩兩一組的票選結果 但是作者的模型大量使用了兩兩一組的排序關係作為訓練資料 然後最重要的是模型訓練方式跟模型評估 除了揭示使用了 XGBoost與LambdaMART 外 其他所有重要資訊都沒有揭露 我們無法得知所有的38年之中 哪些年份被拿來做為訓練資料 或是每個年份中哪些兩兩成對的組合是訓練資料 當然更不會知道訓練出來的模型評估結果好或壞 也不無可能作者把訓練資料跟測試資料反覆做各種分切 最後選取一種最滿意的切法做最後的建模 這樣做就會造成 data leakage 的問題 大概先這樣 --- 如果有太複雜的ML問題 建議寄站內信給前站長 CharlieL XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 123.193.249.26 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/NBA/M.1619760799.A.147.html ※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 13:35:15

04/30 13:39, 4年前 , 1F
04/30 13:39, 1F

04/30 13:39, 4年前 , 2F
箭頭
04/30 13:39, 2F

04/30 13:41, 4年前 , 3F
箭頭
04/30 13:41, 3F

04/30 13:43, 4年前 , 4F
04/30 13:43, 4F

04/30 13:45, 4年前 , 5F
懂歐 推
04/30 13:45, 5F

04/30 13:46, 4年前 , 6F
原來他不是用38年來的所有球員數據去跑的喔
04/30 13:46, 6F

04/30 13:46, 4年前 , 7F
推XD
04/30 13:46, 7F

04/30 13:46, 4年前 , 8F
文組 聽不懂
04/30 13:46, 8F

04/30 13:47, 4年前 , 9F
你把濤哥放那?
04/30 13:47, 9F

04/30 13:47, 4年前 , 10F
身為外行人,這篇是不是說原始方法看起來有點問題
04/30 13:47, 10F

04/30 13:47, 4年前 , 11F
,就算是32/38猜中,可能是湊?
04/30 13:47, 11F

04/30 13:50, 4年前 , 12F
簡單說這篇提出的疑問是訓練的方法有問題。
04/30 13:50, 12F

04/30 13:50, 4年前 , 13F
但回在PTT沒用啊 XD PTT只會在意偷而已啊 XDDDD
04/30 13:50, 13F

04/30 13:53, 4年前 , 14F
他應該是把 38 年來的全丟進去跑然後用個普普的模型
04/30 13:53, 14F

04/30 13:53, 4年前 , 15F
所以不會 overfitting,但這種跑法根本沒意義
04/30 13:53, 15F

04/30 13:53, 4年前 , 16F
上一篇根本秀下限
04/30 13:53, 16F

04/30 13:53, 4年前 , 17F
只能說有幾年的評分標準稍微不一樣而已
04/30 13:53, 17F

04/30 13:54, 4年前 , 18F
和偷不偷根本沒啥關係
04/30 13:54, 18F

04/30 13:57, 4年前 , 19F
你放心 鄉民看不懂還是會繼續吵繼續酸
04/30 13:57, 19F

04/30 14:00, 4年前 , 20F
04/30 14:00, 20F

04/30 14:02, 4年前 , 21F
認真了,大家只是需要找個可以吵起來的理由
04/30 14:02, 21F

04/30 14:04, 4年前 , 22F
投票的人才是真的
04/30 14:04, 22F

04/30 14:04, 4年前 , 23F
中肯
04/30 14:04, 23F

04/30 14:11, 4年前 , 24F
簡直亂做一通 我只信濤哥
04/30 14:11, 24F

04/30 14:12, 4年前 , 25F
合理推
04/30 14:12, 25F

04/30 14:13, 4年前 , 26F
算力乖乖拿去挖礦好嗎??
04/30 14:13, 26F

04/30 14:13, 4年前 , 27F
不過就是因為不是固定模型才要機器學習阿 不然excel
04/30 14:13, 27F

04/30 14:13, 4年前 , 28F
數據列一列就好了
04/30 14:13, 28F
這樣的說法是完全錯誤的 幾千筆資料,幾十個欄位,excel是要隨便弄個回歸交差嗎?

04/30 14:14, 4年前 , 29F
有做有話題
04/30 14:14, 29F

04/30 14:16, 4年前 , 30F
他的sample size 就不夠大要怎麼train?
04/30 14:16, 30F

04/30 14:19, 4年前 , 31F
恩恩 跟我想的一樣
04/30 14:19, 31F

04/30 14:24, 4年前 , 32F
反正程式數據小改,改到高興的人不就好了
04/30 14:24, 32F

04/30 14:24, 4年前 , 33F
專業推,很多留言不知道為什麼一直跳針32/38。看懂
04/30 14:24, 33F

04/30 14:24, 4年前 , 34F
model怎麼出來的比其他事情重要多了…
04/30 14:24, 34F

04/30 14:24, 4年前 , 35F
終於有人講公道話
04/30 14:24, 35F

04/30 14:26, 4年前 , 36F
就統計而已30左右的樣本數跟沒有一樣
04/30 14:26, 36F
你對樣本的認知有很大偏誤,並不是一整個年度作為一個樣本

04/30 14:26, 4年前 , 37F
頂多就是算個趣味給大家看一下打發時間而已
04/30 14:26, 37F
還有 26 則推文
還有 2 段內文
有沒有真實模型確實沒有那麼重要, 但是像NBA MVP投票,我覺得甚至是每一年都在浮動, 到底適不適合用ML來做,我抱持懷疑的態度, 畢竟,非典型MVP真的有那麼不堪嗎? 是否在特定年份我們應該為非典型MVP使用一套非典型的模型來賦予他們這份榮耀呢? 或是過去評估MVP的模型,是否因為新指標的產生而有所改變了? 像是棒球經歷 Money Ball、飛球革命等運動科學的導入, 評估球員的指標就有很顯著的差異了,籃球有沒有類似的改變我就比較不瞭解了。

04/30 15:17, 4年前 , 64F
推shifa,配上自己愛的權重去給分數就好了...
04/30 15:17, 64F

04/30 15:24, 4年前 , 65F
很專業唷 不過人家也只是隨便玩玩而已吧
04/30 15:24, 65F

04/30 15:25, 4年前 , 66F
濤哥沒機會秀一把 不然一定屌打
04/30 15:25, 66F

04/30 15:27, 4年前 , 67F
濤哥明明就是某隊隊迷在那邊反串小丑,有夠瞎,騙
04/30 15:27, 67F

04/30 15:27, 4年前 , 68F
一堆貪雞排的推文
04/30 15:27, 68F

04/30 15:29, 4年前 , 69F
#1Qq7G7z- (NBA) 有板友整理過去數據跟MVP的關係
04/30 15:29, 69F

04/30 15:31, 4年前 , 70F
反而統合性數據指標跟MVP的相關性沒那麼好的感覺
04/30 15:31, 70F

04/30 15:31, 4年前 , 71F
原文那一套32/38搞不好還不錯了 XD
04/30 15:31, 71F

04/30 15:40, 4年前 , 72F
大有幫助 推!
04/30 15:40, 72F

04/30 15:43, 4年前 , 73F
推田神
04/30 15:43, 73F
田神每天都會偷偷上站 不能不推 m(_ _)m

04/30 16:14, 4年前 , 74F
原來指標可能比25個還多啊 XD
04/30 16:14, 74F

04/30 16:16, 4年前 , 75F
什麼不是固定模型不能預 多讀點書 多打幾場kaggle
04/30 16:16, 75F

04/30 16:17, 4年前 , 76F
比賽勝負都能預測 股票都能預測 MVP不能預測?
04/30 16:17, 76F
你哪裡看到我說不能預測? 我抱持懷疑的論點是因為模型不斷變動, 最舊的資料是38年前,拿38年前的資料作訓練預測現在的結果,會很不可靠。 您是不是應該先練習中文語文理解呢?

04/30 16:28, 4年前 , 77F
這裡是哪裡
04/30 16:28, 77F
※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 16:33:06

04/30 17:14, 4年前 , 78F
Condorcet voting
04/30 17:14, 78F

04/30 17:14, 4年前 , 79F
這個很常見,一點都不奇怪好嗎....
04/30 17:14, 79F

04/30 17:14, 4年前 , 80F
04/30 17:14, 80F

04/30 17:15, 4年前 , 81F
分組就是為了避免人為權重影響結果
04/30 17:15, 81F

04/30 17:16, 4年前 , 82F
抽掉第一後面就會變,我聽你在唬爛洨
04/30 17:16, 82F

04/30 17:40, 4年前 , 83F
此文該推,分析透徹
04/30 17:40, 83F

04/30 17:58, 4年前 , 84F
這篇的推論根本胡說八道
04/30 17:58, 84F
歡迎你把你的論點闡述清楚,你光是丟一個投票方法, 我資質駑鈍,無法直接了解這樣的投票方式能夠如何地正向投票, 又反向拆解成每一小筆資料,還拿來訓練模型, 既然您這麼厲害,那更應該分享您的論點。

04/30 18:07, 4年前 , 85F
文組不會抱歉
04/30 18:07, 85F

04/30 18:23, 4年前 , 86F
我覺得該弄個爬蟲把網路聲量數據化弄進去
04/30 18:23, 86F
※ 編輯: y800122155 (123.193.249.26 臺灣), 04/30/2021 20:32:33

04/30 21:18, 4年前 , 87F
推這篇
04/30 21:18, 87F

04/30 21:54, 4年前 , 88F
我覺得拆成兩兩比較的方法很有趣R 原文就是認為說
04/30 21:54, 88F

04/30 21:55, 4年前 , 89F
不是只有誰真的得票第一這個資訊有意義, 每個排名
04/30 21:55, 89F

04/30 21:56, 4年前 , 90F
誰大於誰也有意義, 所以每一年的資料都可以倆倆拆
04/30 21:56, 90F

04/30 21:56, 4年前 , 91F
這樣訓練集就不只有38個資料點了
04/30 21:56, 91F

04/30 22:11, 4年前 , 92F
真的牽扯到人..就沒辦法用機器完全預測,去年才有人
04/30 22:11, 92F

04/30 22:11, 4年前 , 93F
模擬幾萬次大部份(忘了幾成)都快艇冠軍,結果XD
04/30 22:11, 93F

04/30 23:04, 4年前 , 94F
卡搞哩來
04/30 23:04, 94F

05/01 16:20, 4年前 , 95F
假設實際存在一個真實的模型,看到這句下面就不用
05/01 16:20, 95F

05/01 16:20, 4年前 , 96F
看了
05/01 16:20, 96F

05/01 16:21, 4年前 , 97F
通篇亂講,教一些錯誤觀念
05/01 16:21, 97F
文章代碼(AID): #1WYvQV57 (NBA)
文章代碼(AID): #1WYvQV57 (NBA)