Fw: [情報] Career Leaders and Records for HOF

看板IVERSON作者 (巴拉圭)時間12年前 (2012/03/21 10:16), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
※ [本文轉錄自 NBA 看板 #1FQJTE_x ] 作者: Alfred (Keine Ahnung) 看板: NBA 標題: Re: [情報] Career Leaders and Records for HOF 時間: Wed Mar 21 10:05:00 2012 每隔一段時間名人堂的話題就要被拿出來吵一次, 可惜的是論戰往往都停留在相當初步的水平。 事實上板上早就有相關資訊, 只要搜尋標題「名人堂」,就可以找到: #1DcjW7JP (NBA) 這篇簡單介紹籃球名人堂的文章,同時也說明了入選的決策過程。 至於basketball-reference.com的名人堂機率,也是萬年老梗, 早在2008年板上就有 #17jgq_6- (NBA) 這篇文章分析過。 值得注意的是,2008年的model和現在的model有所不同, http://www.basketball-reference.com/about/hof_prob.html 除了相關權數的調整外, 最大的改變就是去掉了MVP這一項, 這也使得Nash的機率從原本九成以上跌破六成。 (Nash跟很多名列前矛的球員相比最吃虧的除了總冠軍外, 應該是他的場均得分太低。) 但是在批評這個數據以前,應該要先搞清楚這整個model是怎麼來的, 否則陷入諸如總冠軍跟MVP那個比較偉大的爭執, 或是那種「看某某球員如何就知道這個模型有問題」之類的發言, 完全是沒有搞清楚重點。 What statistics or accomplishments have the Hall of Fame voters deemed to be most important? This question can be answered using a technique called logistic regression. The logistic regression model is a binary response model where the response is classified as either a "success" (in this case, being elected to the Hall of Fame) or a "failure" (not being elected to the Hall of Fame). One or more predictor variables are selected and the resulting model can be used to predict the probability of a success given certain values of the predictor(s). 首先作者開宗明義就說了, 這個模型是為了解釋名人堂投票權人究竟認為那些因素最重要, 因此這個模型的功能是為了找出一個數學模型可以準確的「預測」投票結果, 請注意這裡雖然把prediction翻成「預測」, 但跟一般最常使用的中文語義稍有出入,並不是「預測未來」的意思, 而是在衡量這個模型的解釋力高低。 這個只要參看最後一段就再清楚也不過: Hall of Fame probabilities are presented for all players with a minimum of 400 NBA games played. Although it can be risky to make predictions for active players, you can think of these probabilities as answering the question "If this player retired today, what is the probability he would be elected to the Hall of Fame?". The model was built using a pool of 750 players. One method to assess classification accuracy is to compare the estimated Hall of Fame probability for the case to the actual result. Of the 750 players, 89 had been elected to the Hall of Fame and 661 had not. If the player's predicted probability of election was greater than or equal to 0.5, I predicted that he was in the Hall of Fame. Of the 89 players in the Hall of Fame, 74 were correctly classified (83.1%) and 15 were not (16.9%). Of the 661 players not in the Hall of Fame, 651 were correctly classified (98.5%) and 10 were not (1.5%). Overall, 725 of the 750 players (96.7%) were correctly classified by the model. 在打過400場以上比賽的球員中(作者選了750人), 只要算出來機率破五成的,該模型就預測這個球員會被選入名人堂,反之亦然。 而在這750人中有725人的結果與現實相符, 換言之這個模型目前的準確率高達96.7%。 那為何作者要把MVP拿掉?又為何作者把「身高」當作重要參數? 模型的作者沒有給任何具體理由, 事實上,作者自己說了他試過無數種組合(trying numerous models), 可見這大有可能只是單純try and error試出來的, 一切都只是為了提高模型的準確率。 若是如此,去爭論那0.0001也好,爭論為什麼不計MVP也好,意義都不是很大。 當然,這個模型如果真是這樣搞出來的, 就算準確率很高,也未必有意義, 畢竟我們很難被說服這個模型真的回答了作者原本的問題, 即「名人堂投票權人究竟認為那些因素最重要?」 作者到最後只是用一堆看起來有關的參數搞出了一個準確率很高的黑盒子, 而究竟名人堂票選考量什麼,根本無法由這個模型提出合理的說明。 結論是,這個model有參考價值,但參考價值僅限於它的計算結果, 換言之,如果這個模型預測某位球員有超過五成以上的機會入選, 那麼在現實中這位球員將來入選的機會相當高, 甚至對這個模型有信心一點可以宣稱有九成以上, 至於他所使用的參數,在作者給出更進一步的說明以前, 參考價值並不高,甚至討論的價值也不高, 除非你也想挑戰準確率更高的模型。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 99.125.165.60

03/21 10:05, , 1F
越矮的球員 在這數據裡越有利
03/21 10:05, 1F

03/21 10:06, , 2F
推解釋
03/21 10:06, 2F

03/21 10:12, , 3F
然後Nash也沒打過Final
03/21 10:12, 3F

03/21 10:16, , 4F
03/21 10:16, 4F
※ 發信站: 批踢踢實業坊(ptt.cc) ※ 轉錄者: Paraguay (58.114.81.143), 時間: 03/21/2012 10:16:40
文章代碼(AID): #1FQJe90o (IVERSON)
文章代碼(AID): #1FQJe90o (IVERSON)