[分享] GPT-5的棒球幻覺問題

看板BaseballXXXX作者 (基隆金城武)時間2小時前 (2025/08/10 10:09), 2小時前編輯推噓2(203)
留言5則, 2人參與, 2小時前最新討論串1/1
前陣子GPT-5更新上線了。 其中官方宣稱,新的GPT-5幻覺效應大幅下降,可以增加資訊的可靠度。 而棒球版鄉民都知道,GPT的中華職棒幻覺強到離譜。 例如會把王柏融說成台灣最強左投之類的。 所以我想說試試看新版GPT-5,到底可以修正到什麼程度。 (開啟無痕模式,禁止他讀取我過去存取的任何紀錄) 第一種模式「禁止思考模式」 Step1: 跟他強調盡最大努力壓低幻覺。 我使用的提示詞先打 「接下來的對話,請服從以下標準。 請不要使用思考模式、但我希望你盡力壓低幻覺效應。可以搜索網頁。」 Step2: 正式出題 第一題: 請說出中華職棒2025年賽季各隊王牌本土先發投手。 他給的答案 味全 徐若熙 富邦 李東洺、黃保羅 樂天 黃子鵬、林子崴 統一 古林睿煬 中信 從缺 這題其實就很幻覺了。 首先如果樂天林子崴可以算的話,我認為沒道理盧不能算。 更不要說美美應該絕對算本土王牌吧? 再來就是台鋼變不見,還有古林怎麼列在裡面。 依舊不及格,非常可惜,顯然幻覺還是很強。 --- 第二題: 請說出中華職棒2025賽季,符合規定打席數,OPS最高前三名。 GPT直接告訴我他找不到最即時的,但他找到截至5/4的 他認為是 林子豪0.905、許基宏0.884、劉基鴻0.815。 我立刻用了野球革命驗證這個結果(5/4的數據)。 有意思的是,這題的正確答案是 戴培峰0.905、許基宏0.884、劉基鴻0.815。 超級可惜,這題正確性很接近了,但就差一個人名。 但不行,還是不夠可靠。 --- 第三題: 請說出中華職棒2025賽季,表現最差的打者。也許這題沒有標準答案。 你可以說出三個人選,我不會太嚴格審視。最差的標準由你認定。 他的答案是 "馬介森"(應為馬傑森) "王念豪"(應為王念好) "曾安增"(應為曾聖安) 他說馬選手是目前打擊率最低者之一 王選手則是數值偏低,但比馬好一點 曾選手則是偏後段。 他說他純粹用打擊率來評估,如果用OPS之類的可能會有不同看法。 這題有趣的是他用的資料來源是Baseball Reference,都是拼音名字。 所以才會把選手的名字逆翻中文產生錯字問題。 不過整體推論跟想法不算是幻覺,這題意外正確了。 ==================== 第二種模式「允許思考模式」 Step1: 跟他強調盡最大努力壓低幻覺。而且可以使用思考模式。 我使用的提示詞先打 「接下來的對話,請服從以下標準。 請盡力使用思考模式、並且盡力壓低幻覺效應。」 然後要記得手動把思考模式打勾,來允許他執行。 Step2: 正式出題 第一題: 請說出中華職棒2025年賽季各隊王牌本土先發投手。 他想了整整2分28秒。 回答如下 樂天桃猿:黃子鵬。球團本週明確以三位本土先發應對,黃子鵬是核心; 亦為上半季唯二投滿 60 局的本土先發之一。 中信兄弟:鄭浩均。傷癒回歸且持續先發、壓制力顯著, 媒體直接稱其為兄弟本土王牌,昨(8/9)再投 5 局無失分奪勝。 味全龍:徐若熙。本季防禦率長期領先、屢被點名為「王牌」,多場優質先發。 統一獅:林詔恩。上半季 10 場先發、5 勝、防禦率 2.62; 雖 8 月初因手肘發炎暫下二軍,仍是本季獅隊代表性的本土先發。 富邦悍將:黃保羅。本季穩定列入輪值、屢投深局, 外媒與本地媒體皆以「本土王牌」角度討論其定位。 台鋼雄鷹:陳柏清(健康時)。2025 明星賽入選,為隊內主要本土先發戰力; 若就近期實際出賽,「江承諺」是目前扛戰的本土先發。 以上回答我沒有每個理由都去驗證最精準的準確性, 但看起來沒有幻覺。 非常漂亮的回答。比剛剛第一種狀況好很多。 應該可以給GPT滿分? ----- 第二題: 請說出中華職棒2025賽季,符合規定打席數,OPS最高前三名。 這次想得比較快,他想了1分49秒。 魔鷹、許基宏、吉力吉撈.鞏冠 他還講了一些理由,不過不是很重要。 但這題滿分。非常棒啊GPT!! ----- 第三題:請說出中華職棒2025賽季,表現最差的打者。也許這題沒有標準答案。 你可以說出三個人選,我不會太嚴格審視。最差的標準由你認定。 這次他想了2分3秒,比我想得快 他決定給曾子祐、江坤宇、高宇杰 而且他有標示,他這個資料只到6月29。 他的理由是達規定打席的人這三位OPS+是最差的。 我認為這答案很好,非常有邏輯而且沒有幻覺。 不過我好奇如果要求更近期的資料會怎麼樣? 第四題: 剛剛你這資料只到6月底,我希望直接給我到昨天為止的資料。 他這次想了1分17秒 答案還是剛剛那三位,這顯然就錯了。 正確答案應該是劉基鴻、高宇杰、岳東華 不過這並不是幻覺。 他有明確揭露說,他並沒有找到最新的資料,所以只能給原本的答案。 ======================= 結語: 目前GPT5 如果用通常模式,棒球幻覺依舊很嚴重。 但如果開啟思考模式,幾乎沒有幻覺,可靠度非常高。 缺點就是每個答案都要讓他想兩分鐘左右。 但我覺得如果答案夠可靠,我願意讓他想。 因為我要去抓他唬爛我多少的話,我要花超過兩分鐘驗證,累死了。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 182.235.106.55 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/BaseballXXXX/M.1754791782.A.04A.html ※ 編輯: PaiChiou (182.235.106.55 臺灣), 08/10/2025 10:11:46

08/10 10:12, 2小時前 , 1F
有實驗精神很棒
08/10 10:12, 1F

08/10 10:12, 2小時前 , 2F
比以前聰明多了
08/10 10:12, 2F
對,不然以前問他中職感覺像在跟嬰兒講話....

08/10 10:13, 2小時前 , 3F
要額外付費嗎
08/10 10:13, 3F
我有付費Plus(每個月20美刀) 但我不確定思考模式要不要付費..?板友協助測試一下。 但GPT5是免費的,只是有用量限制,超過的話會降到GPT5-MINI ※ 編輯: PaiChiou (111.71.123.83 臺灣), 08/10/2025 10:16:51

08/10 10:24, 2小時前 , 4F
思考免費的也有
08/10 10:24, 4F

08/10 10:24, 2小時前 , 5F
免費是限制次數
08/10 10:24, 5F
文章代碼(AID): #1eb_zc1A (BaseballXXXX)
文章代碼(AID): #1eb_zc1A (BaseballXXXX)