Re: [戰況]一朗

看板MLB (美國職棒/大聯盟)作者morikawablue (morikawablue)時間19年前 (2006/06/11 02:18)推噓1(1推 0噓 10→)

留言11則, 3人參與討論串7/9 (看更多)

※ 引述《demintree (Mirabelli's back in tow)》之銘言： : ※ 引述《jacky77437 (遺憾~)》之銘言： : : 一棒上壘率>速度>長打率 : : 中心打者長打率>上壘率>速度 : http://www.beyondtheboxscore.com/story/2006/2/12/133645/296 : A point of OBP is worth about .003 runs per game from the leadoff man (a .021 : increase in the leadoff OBP would be about .063 runs more per game or 10 for : a whole season, which usually means about 1 win) : 由上面的圖表歸納可以猜測 : 對於第一棒來說OBP比SLG重要三倍 : 而對於中心打者的話 : #3 2.141/0.933 : #4 1.670/1.504 : #5 2.254/1.146 這篇文章的論調有很大的問題。首先，SLG 的範圍是 0 ~ 4，OBP 是 0 ~ 1，也就是說，如果用 pure 的數字去做 regression model fitting 的話，你怎麼算 OBP 的重要性都會大過 SLG。講明白點，各位覺得 OBP 增加 0.1 和 SLG 增加 0.1，何者較為簡單？答案應該很明顯。如果 OBP 與 SLG 加一個相同的量的難度是不同的話，那麼用這兩個數值去 fit 一個 model，然後用 model 的 coefficients (or say, slopes) 去評估所謂的 "重要性"，這會不會有一點可笑？第二點，這個作者用 retrosheet 的資料外加 18 個變數 (9 個 OBP + 9 個 SLG) 去跑一個 regression model，然後做出了那個表格當做結論，請問這是統計嗎？為什麼這麼問？因為這個 regression model 的資料 base on 多年的各隊 lineup 資料，看起來這並沒有什麼 sample size 的問題，但我們必須思考的是：比方說這裡頭做出的結論告訴你第一棒的 OBP 比較重要，第四棒的 SLG 比較重要，於是你照著他的方法去安排你的棒次會得到什麼結果？很簡單：新的棒次排列方式根本就不在原先這個 regression model 的規範之內，這就像是我們統計東方人的身高與體重的關係，fit 出一個 regression model，然後找一個西方人的身高代入這個 regression model 去求這個西方人的體重，各位覺得這合理嗎？統計學不是這樣的！這位先生的結論犯了一個很大的錯誤，他的 model 所做出的結論應該只有這樣： 1988 年到 2002 年的 ML "曾經做過的棒次安排" 顯示一棒的 OBP 較重要、四棒的 SLG 較重要....and so on。以上翻譯成白話文就是：那篇文章的 model 沒有預測能力，只是一項 "普查" 結果，所以這不僅不是一個好的 model，更不能說是一個正確的結論！提到棒次，我們第一個該想到的是：每一個打者的上場打擊都在所難免的和前一位打者的結果多少有一點關係 (say, context...) 。那麼我所想到的 approach 不是 regression，而是一個 n-state 的 Markov Chain！至於 n 要訂多少？這我就不曉得了。前一陣子那本叫 "The Book" 的書也有提到棒次的安排，他也是用 Markov Chain，只是他們所用的方法是 9 個完全相同的打者在 Markov Chain 的 simulation 下分別求出 outs、single、double、GIDP、HR....etc 等等打擊結果的 Expected Runs 然後看看這些 Expected Runs 在各個 batting order 下的表現，而 "The Book" 最後的結論是你的 1、2、4 棒要放上最好的打者；3、5 棒要放次好的打者、剩下的依水準將較好的打者擺在較前面的位置...etc。基於 "The Book" 的結果是用 9 個相同的打者去做打擊結果的 Expected Runs 來當做安排棒次的依據，這本書聲稱 Bill James 所謂的棒次不重要論是對的，但在最佳化的結果下最多可以擠出 50 分來，你相信嗎？事實上，"The Book" 仍然犯了同樣錯誤的結論，這是因為如果我們照著他的建議去安排棒次的話，那就已經改變了整個 lineup 的 context，這時候，這些打擊結果的 expected runs 還會像他們書上寫的那樣嗎？我不認為會。我認為正確的做法是：如果我們找得到一個合理的 n-state Markov Chain，然後我們再利用 18 個不同的變數 (9 個 OBP 與 9 個 SLG) 去找出 9! = 362880 種的棒次安排方式下究竟何種在 "合理的" simulation 下會得到最多的分數，這才會是我們討論棒次安排問題應有的 approach，BP 的 James Click 所用的方法就比較類似是這樣，他的結論我提過了：OBP descending order 比 OBP ascending order 一季也不過多出 20 分，然後我們又得到一個無頭公案：以 VORP 的結論，這 20 分代表兩勝；以 Win Expectancy 的結論來看，這 20 分搞不好有可能代表 20 勝。 Sabermetric 的研究裡搞笑的文章是很多的，必須提醒的是：數字不會騙人，騙人的是拿對自己有利或錯誤的數字做出結論的人；被騙的則是不懂數字的人。然而，BP 的 Dayn Perry 在他的 Winners 一書中提到，利用 1871 到 2003 年各隊的 AVG、OBP、SLG 與 IsoP 去計算與球隊總得分的 CR (相關係數)，得到的結論是 AVG：.828 OBP：.866 SLG：.890 ISO：.762 而 Clay Davenport 在他的 Create EqA 過程中也提到與 Perry 相同的結果，甚至，Davenport 在他的 raw EqA (OPS 的修正量) 式子裡隱藏了一個訊息：raw EqA 的分子其實是一種 "wild runs" 的估計，而 Hit、BB 與 Extra base 的價值相比則是 2 : 1.5 : 1。 Billy Beane 不斷的強調 OBP 的重要性是絕對沒錯的，但他的 moneyball team 在失去 Giambi 與 Tejada 兩位較顯著的 sluggers 之後，他們的 2nd-half rally 的效果似乎一年比一年降低，這如果只說是巧合，恐怕站不住腳吧？總之：當壘上無人的時候，BB 與 Hit 的價值是相同的，但壘上有人時，一支 Hit 的效果是每一個角度都比 BB 要好的，這應該是直觀到不能再直觀的事實。瞭解統計學家們的想法是好事，但相信這些作者的結論，則必須要有選擇性。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.104.233.251