[分享] GPT-5的棒球幻覺問題
前陣子GPT-5更新上線了。
其中官方宣稱,新的GPT-5幻覺效應大幅下降,可以增加資訊的可靠度。
而棒球版鄉民都知道,GPT的中華職棒幻覺強到離譜。
例如會把王柏融說成台灣最強左投之類的。
所以我想說試試看新版GPT-5,到底可以修正到什麼程度。
(開啟無痕模式,禁止他讀取我過去存取的任何紀錄)
第一種模式「禁止思考模式」
Step1: 跟他強調盡最大努力壓低幻覺。
我使用的提示詞先打
「接下來的對話,請服從以下標準。
請不要使用思考模式、但我希望你盡力壓低幻覺效應。可以搜索網頁。」
Step2: 正式出題
第一題: 請說出中華職棒2025年賽季各隊王牌本土先發投手。
他給的答案
味全 徐若熙
富邦 李東洺、黃保羅
樂天 黃子鵬、林子崴
統一 古林睿煬
中信 從缺
這題其實就很幻覺了。
首先如果樂天林子崴可以算的話,我認為沒道理盧不能算。
更不要說美美應該絕對算本土王牌吧?
再來就是台鋼變不見,還有古林怎麼列在裡面。
依舊不及格,非常可惜,顯然幻覺還是很強。
---
第二題: 請說出中華職棒2025賽季,符合規定打席數,OPS最高前三名。
GPT直接告訴我他找不到最即時的,但他找到截至5/4的
他認為是
林子豪0.905、許基宏0.884、劉基鴻0.815。
我立刻用了野球革命驗證這個結果(5/4的數據)。
有意思的是,這題的正確答案是
戴培峰0.905、許基宏0.884、劉基鴻0.815。
超級可惜,這題正確性很接近了,但就差一個人名。
但不行,還是不夠可靠。
---
第三題: 請說出中華職棒2025賽季,表現最差的打者。也許這題沒有標準答案。
你可以說出三個人選,我不會太嚴格審視。最差的標準由你認定。
他的答案是
"馬介森"(應為馬傑森)
"王念豪"(應為王念好)
"曾安增"(應為曾聖安)
他說馬選手是目前打擊率最低者之一
王選手則是數值偏低,但比馬好一點
曾選手則是偏後段。
他說他純粹用打擊率來評估,如果用OPS之類的可能會有不同看法。
這題有趣的是他用的資料來源是Baseball Reference,都是拼音名字。
所以才會把選手的名字逆翻中文產生錯字問題。
不過整體推論跟想法不算是幻覺,這題意外正確了。
====================
第二種模式「允許思考模式」
Step1: 跟他強調盡最大努力壓低幻覺。而且可以使用思考模式。
我使用的提示詞先打
「接下來的對話,請服從以下標準。
請盡力使用思考模式、並且盡力壓低幻覺效應。」
然後要記得手動把思考模式打勾,來允許他執行。
Step2: 正式出題
第一題: 請說出中華職棒2025年賽季各隊王牌本土先發投手。
他想了整整2分28秒。
回答如下
樂天桃猿:黃子鵬。球團本週明確以三位本土先發應對,黃子鵬是核心;
亦為上半季唯二投滿 60 局的本土先發之一。
中信兄弟:鄭浩均。傷癒回歸且持續先發、壓制力顯著,
媒體直接稱其為兄弟本土王牌,昨(8/9)再投 5 局無失分奪勝。
味全龍:徐若熙。本季防禦率長期領先、屢被點名為「王牌」,多場優質先發。
統一獅:林詔恩。上半季 10 場先發、5 勝、防禦率 2.62;
雖 8 月初因手肘發炎暫下二軍,仍是本季獅隊代表性的本土先發。
富邦悍將:黃保羅。本季穩定列入輪值、屢投深局,
外媒與本地媒體皆以「本土王牌」角度討論其定位。
台鋼雄鷹:陳柏清(健康時)。2025 明星賽入選,為隊內主要本土先發戰力;
若就近期實際出賽,「江承諺」是目前扛戰的本土先發。
以上回答我沒有每個理由都去驗證最精準的準確性,
但看起來沒有幻覺。
非常漂亮的回答。比剛剛第一種狀況好很多。
應該可以給GPT滿分?
-----
第二題: 請說出中華職棒2025賽季,符合規定打席數,OPS最高前三名。
這次想得比較快,他想了1分49秒。
魔鷹、許基宏、吉力吉撈.鞏冠
他還講了一些理由,不過不是很重要。
但這題滿分。非常棒啊GPT!!
-----
第三題:請說出中華職棒2025賽季,表現最差的打者。也許這題沒有標準答案。
你可以說出三個人選,我不會太嚴格審視。最差的標準由你認定。
這次他想了2分3秒,比我想得快
他決定給曾子祐、江坤宇、高宇杰
而且他有標示,他這個資料只到6月29。
他的理由是達規定打席的人這三位OPS+是最差的。
我認為這答案很好,非常有邏輯而且沒有幻覺。
不過我好奇如果要求更近期的資料會怎麼樣?
第四題: 剛剛你這資料只到6月底,我希望直接給我到昨天為止的資料。
他這次想了1分17秒
答案還是剛剛那三位,這顯然就錯了。
正確答案應該是劉基鴻、高宇杰、岳東華
不過這並不是幻覺。
他有明確揭露說,他並沒有找到最新的資料,所以只能給原本的答案。
=======================
結語:
目前GPT5 如果用通常模式,棒球幻覺依舊很嚴重。
但如果開啟思考模式,幾乎沒有幻覺,可靠度非常高。
缺點就是每個答案都要讓他想兩分鐘左右。
但我覺得如果答案夠可靠,我願意讓他想。
因為我要去抓他唬爛我多少的話,我要花超過兩分鐘驗證,累死了。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 182.235.106.55 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/BaseballXXXX/M.1754791782.A.04A.html
※ 編輯: PaiChiou (182.235.106.55 臺灣), 08/10/2025 10:11:46
→
08/10 10:12,
2小時前
, 1F
08/10 10:12, 1F
推
08/10 10:12,
2小時前
, 2F
08/10 10:12, 2F
對,不然以前問他中職感覺像在跟嬰兒講話....
→
08/10 10:13,
2小時前
, 3F
08/10 10:13, 3F
我有付費Plus(每個月20美刀)
但我不確定思考模式要不要付費..?板友協助測試一下。
但GPT5是免費的,只是有用量限制,超過的話會降到GPT5-MINI
※ 編輯: PaiChiou (111.71.123.83 臺灣), 08/10/2025 10:16:51
推
08/10 10:24,
2小時前
, 4F
08/10 10:24, 4F
→
08/10 10:24,
2小時前
, 5F
08/10 10:24, 5F
BaseballXXXX 近期熱門文章
PTT體育區 即時熱門文章