Bill James 最愛的玩具
張泰山未來生涯能不能突破一千打點?潘威倫有沒有機會突破陳義信的 141 勝台灣
職棒紀錄?天知道。
紀錄一向是職業運動的話題重點之一,而預測生涯成績又是能夠長時間吸引球迷注意
的重要話題。既然說是預測,自然跟考慮的球員過去成績有所關聯。例如在 2005 以
及 2006 都拿下中職最有價值球員的林恩宇,倘若一直待在中職多打幾年,相信必可
累積出質量皆優的成績。不過他去了日本,雖然職業生涯繼續,但至少他的中職成績
就暫時停擺。(當然能赴美日職棒打球是另一種成就,這邊我們只是單純考慮台灣職
棒紀錄的累積。)
棒球統計學家 Bill James 發展出一套「玩具」(Bill James' Favorite Toy),利
用簡單的計算公式,來推估各球員在生涯結束後能達成某項累積數據里程碑的機會有
多少,以及在職業生涯結束之後比較可能累積出怎樣的投打成績。由於出發點是球迷
話題,推估方法力求簡單易懂,也因此必須要犧牲掉不少棒球統計理論以及準確度。
這套公式考慮了球員的目前累積成績,過去近幾年的成績,以及球員現在年齡,來決
定說這個球員生涯結束後能達成某項累積數據里程碑的機會有多少。
要說明的一點是,這套預測公式相當簡化,只適用於每個球季結束之後,若想在球季
中隨時使用會有問題。而算出來的結果也沒有考慮到個別球員的獨特性,完全是只看
數字判斷。比方說,如果我們想拿潘威倫來算,實際上考慮的並不是潘威倫這個人,
而只是某一個球員,而這個球員的成績跟潘威倫相彷。至於這個人是左投還是右投,
身體有沒有嚴重病痛史,待的球隊用人策略如何等等層面,都因為使用相當簡化的預
測模型而被忽略掉了。另外,這套公式用在已經在職棒打滾多年的球員比較可靠,但
若用在像是去年才進入中職的陳金鋒身上,能參考的資料太少,誤差就很可能很大了
。
接下來我們用一個例子來解釋算法,也同時給出公式。假設說我們想預估張泰山的生
涯安打總數,以及求得張泰山有多少機會達成 2000 支安打。我們需要算出:
尚需成績:計算選手的生涯目前累積成績還差想求的里程碑有多遠。張泰山職業生涯
已經累積了 1129 支安打,還差 871 支安打就達到 2000。
近年表現水準:拿過去三年的成績當成球員近期表現水準,時間點近的年份參考性較
高,計算時就給予較高的比重。在大部分情況下,近年表現水準定義為(去年成績*3
+ 前年成績*2 + 大前年成績)除以六,所以張泰山在安打這項數據的近年表現水準
就是 (130*3+106*2+127)/6 = 121.5。如果這個計算結果低於去年成績的 80%,就用
去年成績的 80% 。這個調整是為了在計算只進入職棒不久,或是之前有因傷使得出
賽大幅減少的球員,讓這些人算出來的近年表現水準有更高的準確度。
剩餘出賽年數:原本計算大聯盟球員時,通常用的定義是(42 - 前一年年齡)/2。
考慮到台灣職棒球員離開球場的年齡偏低,投手又比打者更明顯,因此我們在計算打
者時,用的定義改為(40 - 前一年年齡)/2,而計算投手時則使用(38 - 前一年
年齡)/2。除以二是因為我們是在預測的是某人的成績,而不是基於「假設未來會
一直照前三年水準打下去」之下來預測成績。球員會受傷,會被教練重用或冷凍,會
因各種原因沒打幾年就退休。在沒有針對各球員特性調整預測的情況下,這些定義也
只是試圖描述一個較為籠統大環境趨勢。以上定義遇到某些例外會加以調整,任何現
役球員不管幾歲都至少訂成剩餘出賽年數至少為 0.5。如果前一年有達到某些排行榜
上榜標準的打者每場 3.1 打席以及投手每場投一局,剩餘出賽年數就額外再增加 0.5
。如果前一年的 OPS (長打率加上壘率)有高過聯盟平均,或是投手的自責分率有
低於聯盟平均,也再額外增加 0.5 年。也就是說,不管球員現在幾歲,只要去年的
出場機會夠多,而且表現的比聯盟平均還要好,就會當成至少還會再出賽 1.5 年。
張泰山去年為 29 歲(均以每年六月三十日來計算球員年齡,只取整數部分),因此
張的剩餘出賽年數訂為 (40-31)/2 = 4.5。(原本公式對老球員的估計年數算法不同
,我們這邊自行選擇了更容易求得的數據當成標準採用。公式雖異,精神卻相似,都
是考量老球員前一年表現的質以及出賽的量。)
預測記錄增加量:剩餘出賽年數乘以近年表現水準。因此,張泰山的安打數預測還會
再增加 121.5*4.5 = 546.75 支。四捨五入之後,也就是預測張泰山在職業生涯結束
之後,會有 1129 + 547 = 1676 支安打。
預測達成機率:上面的預測記錄基本上是當成有大約 50% 的機會可以達成的紀錄。
如果想計算有多少機會可以累積到某個里程碑,達成機會定義為
預測記錄增加量/(里程碑 - 目前累積紀錄)- 0.5
因此,張泰山有多少機會達成 2000 支安打呢?答案是 546.75/(2000-1129) - 0.5
= 12.77%。雖然不高,但還算是蠻可以期待的。基於現實考量,所有還沒有實際達成
的紀錄都有可能因故不可能達成,例如球員突然選擇退休,所以算出來的機會比率另
外加了限制。上限訂為 0.97 的(尚需成績/近年表現水準)次方。尚需成績愈少,
或者近年表現水準愈高,就會讓達成機會的上限愈接近一。如果達成機率照公式算出
來小於零,則忽略不計。
再來算一個投手的例子。潘威倫在中職四年一共拿到了 51 勝,他能不能在多年之後
突破陳義信高懸已久的台灣職棒勝投王紀錄 141 勝呢?既然說是突破,我們就當作
是要達成 142 勝這個里程碑吧,所以潘威倫還差 142-51 = 91 勝就超越陳義信的勝
投數。潘前三年分別拿到 14、12、12 場勝投,近年表現水準是 (14*3+12*2+12)/6
= 13。潘威倫生日是 1982/3/5,去年年中 24 歲,剩餘出賽年數為 (38-24)/2 = 7
。所以我們估計潘威倫在接下來的職業生涯,還會再增加 13*7 = 91 勝,也就是一
共 51 + 91 = 142 勝,達成 142 勝里程碑的機會是 91/(142 - 51) - 0.5 = 50.00%
,正好一半一半。
由於專欄的篇幅因素,也為了保留一些神秘感,這邊並不列出計算結果,我們將在即
將推出的電子書 TWBaseball.info Handbook 2007 中包含這個主題,詳細內容就要請
各位稍安勿躁,等待 TWBaseball.info Handbook 2007 的推出囉!
書中本單元將包含三大部分。第一部份計算中職現役球員的預測生涯累積紀錄,打者
列出生涯打席數最多的前四十位,投手列出生涯投球局數最多的前二十位。第二部份
中考慮一些里程碑,以及少數球員有多少機會達成這些里程碑,而最後一部份則是預
測當現在中職這批球員都退休之後,生涯累積紀錄的排行榜可能會變成怎樣。三個部
份都只考慮本土球員。當然,由於未來仍會有新血加入職棒,而我們只考慮了已累積
一些職業成績的球員,第三部分很可能偏離未來發展最多,這邊只是當成純趣味來參
考。畢竟,訂出這套系統的 Bill James 講得明白,這只是個「玩具」嘛!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.130.152.1
推
02/02 22:01, , 1F
02/02 22:01, 1F
※ 編輯: Debugger 來自: 220.130.152.1 (02/03 13:04)
推
02/03 13:04, , 2F
02/03 13:04, 2F
Sabermetrics 近期熱門文章
PTT體育區 即時熱門文章