Re: [戰況]一朗

看板MLB (美國職棒/大聯盟)作者 (morikawablue)時間18年前 (2006/06/11 02:18), 編輯推噓1(1010)
留言11則, 3人參與, 最新討論串7/9 (看更多)
※ 引述《demintree (Mirabelli's back in tow)》之銘言: : ※ 引述《jacky77437 (遺憾~)》之銘言: : : 一棒 上壘率>速度>長打率 : : 中心打者 長打率>上壘率>速度 : http://www.beyondtheboxscore.com/story/2006/2/12/133645/296 : A point of OBP is worth about .003 runs per game from the leadoff man (a .021 : increase in the leadoff OBP would be about .063 runs more per game or 10 for : a whole season, which usually means about 1 win) : 由上面的圖表歸納可以猜測 : 對於第一棒來說OBP比SLG重要三倍 : 而對於中心打者的話 : #3 2.141/0.933 : #4 1.670/1.504 : #5 2.254/1.146 這篇文章的論調有很大的問題。 首先,SLG 的範圍是 0 ~ 4,OBP 是 0 ~ 1,也就是說,如果用 pure 的數字 去做 regression model fitting 的話,你怎麼算 OBP 的重要性都會大過 SLG。 講明白點,各位覺得 OBP 增加 0.1 和 SLG 增加 0.1,何者較為簡單?答案 應該很明顯。 如果 OBP 與 SLG 加一個相同的量的難度是不同的話,那麼用這兩個數值去 fit 一個 model,然後用 model 的 coefficients (or say, slopes) 去評估所 謂的 "重要性",這會不會有一點可笑? 第二點,這個作者用 retrosheet 的資料外加 18 個變數 (9 個 OBP + 9 個 SLG) 去跑一個 regression model,然後做出了那個表格當做結論,請問這是統計嗎? 為什麼這麼問?因為這個 regression model 的資料 base on 多年的各隊 lineup 資料,看起來這並沒有什麼 sample size 的問題,但我們必須思考的是:比方說 這裡頭做出的結論告訴你第一棒的 OBP 比較重要,第四棒的 SLG 比較重要,於 是你照著他的方法去安排你的棒次會得到什麼結果? 很簡單:新的棒次排列方式根本就不在原先這個 regression model 的規範之 內,這就像是我們統計東方人的身高與體重的關係,fit 出一個 regression model,然後找一個西方人的身高代入這個 regression model 去求這個西方人 的體重,各位覺得這合理嗎? 統計學不是這樣的!這位先生的結論犯了一個很大的錯誤,他的 model 所做出 的結論應該只有這樣: 1988 年到 2002 年的 ML "曾經做過的棒次安排" 顯示一棒的 OBP 較重要、四棒 的 SLG 較重要....and so on。 以上翻譯成白話文就是:那篇文章的 model 沒有預測能力,只是一項 "普查" 結 果,所以這不僅不是一個好的 model,更不能說是一個正確的結論! 提到棒次,我們第一個該想到的是:每一個打者的上場打擊都在所難免的和前一位 打者的結果多少有一點關係 (say, context...) 。那麼我所想到的 approach 不 是 regression,而是一個 n-state 的 Markov Chain!至於 n 要訂多少?這我 就不曉得了。 前一陣子那本叫 "The Book" 的書也有提到棒次的安排,他也是用 Markov Chain, 只是他們所用的方法是 9 個完全相同的打者在 Markov Chain 的 simulation 下 分別求出 outs、single、double、GIDP、HR....etc 等等打擊結果的 Expected Runs 然後看看這些 Expected Runs 在各個 batting order 下的表現,而 "The Book" 最後的結論是你的 1、2、4 棒要放上最好的打者;3、5 棒要放次好的 打者、剩下的依水準將較好的打者擺在較前面的位置...etc。 基於 "The Book" 的結果是用 9 個相同的打者去做打擊結果的 Expected Runs 來 當做安排棒次的依據,這本書聲稱 Bill James 所謂的棒次不重要論是對的,但 在最佳化的結果下最多可以擠出 50 分來,你相信嗎? 事實上,"The Book" 仍然犯了同樣錯誤的結論,這是因為如果我們照著他的建議 去安排棒次的話,那就已經改變了整個 lineup 的 context,這時候,這些打擊結 果的 expected runs 還會像他們書上寫的那樣嗎?我不認為會。 我認為正確的做法是:如果我們找得到一個合理的 n-state Markov Chain,然後我 們再利用 18 個不同的變數 (9 個 OBP 與 9 個 SLG) 去找出 9! = 362880 種的 棒次安排方式下究竟何種在 "合理的" simulation 下會得到最多的分數,這才 會是我們討論棒次安排問題應有的 approach,BP 的 James Click 所用的方法就比 較類似是這樣,他的結論我提過了:OBP descending order 比 OBP ascending order 一季也不過多出 20 分,然後我們又得到一個無頭公案:以 VORP 的結論,這 20 分 代表兩勝;以 Win Expectancy 的結論來看,這 20 分搞不好有可能代表 20 勝。 Sabermetric 的研究裡搞笑的文章是很多的,必須提醒的是:數字不會騙人,騙人的 是拿對自己有利或錯誤的數字做出結論的人;被騙的則是不懂數字的人。 然而,BP 的 Dayn Perry 在他的 Winners 一書中提到,利用 1871 到 2003 年各隊 的 AVG、OBP、SLG 與 IsoP 去計算與球隊總得分的 CR (相關係數),得到的結論是 AVG:.828 OBP:.866 SLG:.890 ISO:.762 而 Clay Davenport 在他的 Create EqA 過程中也提到與 Perry 相同的結果,甚 至,Davenport 在他的 raw EqA (OPS 的修正量) 式子裡隱藏了一個訊息:raw EqA 的分子其實是一種 "wild runs" 的估計,而 Hit、BB 與 Extra base 的價值相比 則是 2 : 1.5 : 1。 Billy Beane 不斷的強調 OBP 的重要性是絕對沒錯的,但他的 moneyball team 在失去 Giambi 與 Tejada 兩位較顯著的 sluggers 之後,他們的 2nd-half rally 的效果似乎一年比一年降低,這如果只說是巧合,恐怕站不住腳吧? 總之:當壘上無人的時候,BB 與 Hit 的價值是相同的,但壘上有人時,一支 Hit 的效果是每一個角度都比 BB 要好的,這應該是直觀到不能再直觀的事實。 瞭解統計學家們的想法是好事,但相信這些作者的結論,則必須要有選擇性。 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.104.233.251

06/11 03:23, , 1F
之前有篇 closer 該不該在九局上的研究也有您提到的問題
06/11 03:23, 1F

06/11 03:30, , 2F
打序的重要性 可能要MLB全部的隊伍 把1-9棒 做排列
06/11 03:30, 2F

06/11 03:30, , 3F
然後去比較看看是不是得到的分數差不多可以忽略
06/11 03:30, 3F

06/11 03:31, , 4F
又如果有差異 那個隊伍的打者是什麼類型的組合
06/11 03:31, 4F

06/11 03:32, , 5F
又如果分數相差不大 是不是因為9位打者能力差不多
06/11 03:32, 5F

06/11 03:32, , 6F
這樣才有辦法 去探討打序是不是很重要
06/11 03:32, 6F

06/11 03:34, , 7F
9位打者 N個隊伍 打幾季共幾場比賽為M 9!*N*M
06/11 03:34, 7F

06/11 03:37, , 8F
隊伍打者組合類型又要不同 要計算 9!*M*N
06/11 03:37, 8F

06/11 03:38, , 9F
這樣才能夠真正去探討打序的問題
06/11 03:38, 9F

06/11 03:51, , 10F
如果要更精細 M跟N就要夠大.......
06/11 03:51, 10F
※ 編輯: morikawablue 來自: 59.104.233.251 (06/11 10:17)

06/11 10:19, , 11F
又打錯...wild runs 指的是 raw EqA 的分子...
06/11 10:19, 11F
文章代碼(AID): #14YmpZW9 (MLB)
討論串 (同標題文章)
以下文章回應了本文
8
15
18年前, 06/11
完整討論串 (本文為第 7 之 9 篇):
19
30
9
10
18年前, 06/10
11
45
7
17
18年前, 06/10
55
147
16
46
1
11
8
15
18年前, 06/11
17
17
文章代碼(AID): #14YmpZW9 (MLB)