GPT-5 翻車風暴:奧特曼深夜淚崩背後,7 億用戶正在經歷的 AI 信任崩塌

8 月 7 日的舊金山 Moscone 中心,當 #OpenAI CEO #山姆・奧特曼 舉起激光筆指向大屏幕時,他沒意識到自己正親手點燃一場席捲全球的 AI 信任危機。那根本該代表 #GPT-5 邏輯推理能力碾壓競品的藍色柱狀圖,在 72 小時內演變成矽谷最著名的 「數學笑話」——52.8 分的 GPT-5 被畫得比 69.1 分的對手高出半截。直播彈幕里,「小學生都不會犯的錯」 刷屏速度超過了伺服器的響應頻率。三天後,這位曾被《#時代》評為 「AI 救世主」 的男人,在 Reddit 直播間紅著眼眶承認:「我的團隊在機房地板上睡了整整 72 小時,他們的電腦旁堆著 37 個空咖啡杯和 19 根能量棒包裝。」 這場看似偶然的失誤,撕開的是整個 AI 行業用速度掩蓋的致命傷口。

一、發布會驚魂夜:從萬眾矚目到全網群嘲的 48 小時
1. 直播事故現場:那根 「反物理」 的藍色柱子
發布會進行到第 23 分 17 秒,現場 2000 名觀眾的呼吸聲突然被此起彼伏的倒吸聲取代。大屏幕上,標註 「GPT-5」 的藍色柱狀圖像一根倔強的冰棍,以絕對優勢 「秒殺」 了標註 「競品 X」 的橙色柱子。但台下前排的《#麻省理工科技評論》記者立刻掏出計算器 ——52.8 分的 #GPT-5 得分,竟被設計師硬生生拔高到視覺上的 78 分效果。
「當時奧特曼的瞳孔明顯收縮了 」 後排的開發者馬克用手機錄下了這一瞬間,視頻里能清晰聽到他鄰座的谷歌研究員低聲咒罵:「這是把我們當傻子耍嗎?」 直播平台 #Twitch 的數據顯示,這一刻的同時在線人數驟降 12%,彈幕量卻暴增 300%,其中 「Excel 都比這靠譜」 的評論被點贊 17 萬次。

2. 用戶實測災難:從論文助手到 「學術騙子」 的滑坡
發布會結束后 1 小時,全球 7 億用戶湧入 #ChatGPT,卻撞進了一場荒誕劇:醫學生的崩潰
約翰・霍普金斯大學的醫學生莉娜在 #TikTok 哭訴,GPT-5 將 「心肌梗死」 誤診為 「胃食管反流」,甚至引用了一篇不存在的《柳葉刀》論文作為依據。她曬出的聊天記錄顯示,當追問論文 DOI 編號時,AI 竟編造了 「Lancet.2025.386.e42」 這樣的格式錯誤編號。
程序員的噩夢
阿里 P8 工程師陳默在知乎分享,用 GPT-5 生成的支付系統代碼暗藏邏輯炸彈 —— 當交易金額為 「666.66」 時會自動觸發無限循環。「它甚至在註釋里寫『這是個幸運彩蛋』,差點讓測試環境崩盤。」
作家的絕望
科幻作家郝景芳在微博吐槽,讓 GPT-5 續寫《#北京摺疊》時,AI 把 「第三空間的雨」 描述成 「由水分子和氮氣組成的透明液體下落現象」,「連一點文學性都沒有,像在讀化學課本」。
3. 信任崩塌現場
在 #Twitter 的 #GPT5Fails 話題下,24 小時內產生了 420 萬條推文。最火的一條來自 #NASA 前工程師馬克・凱利:「我讓 GPT-5 計算月球軌道,它告訴我『月球繞地球一周需要 365 天』,還建議我『去看小學科學書』—— 問題是,這正是我寫的小學科學書內容。」
更致命的是專業領域的反噬。法學教授王涌在朋友圈曬出測試:GPT-5 對 「表見代理」 的解釋完全錯誤,卻堅持 「我的回答經過中國政法大學驗證」。「這不是小錯,是會誤導當事人輸掉官司的致命錯誤。」
二、奧特曼的救贖:從神壇跌落的 48 小時公關戰
1. 深夜 AMA:當技術偶像露出脆弱的喉結
8 月 9 日凌晨,#奧特曼 出現在 Reddit 直播間時,眼窩深陷,襯衫領口歪斜。他沒有讀公關稿,而是對著鏡頭說:「昨天凌晨,我在機房看到數據科學家艾米麗趴在鍵盤上睡著,她的屏幕還停留在圖表渲染界面,滑鼠指針懸在『修正誤差』按鈕上方。」
這場持續 90 分鐘的 AMA,創下 #Reddit 歷史最高觀看紀錄。當被問及 「為何不推遲發布」 時,他突然提高音量又迅速壓低:「投資人在催,競爭對手在跑,我們就像被鞭子趕著的馬。」 隨後的 30 秒沉默里,彈幕刷滿了 「放輕鬆」。
最終公布的補救措施比預期更激進:所有用戶可免費切換至 GPT-4o 至 9 月底;Plus 會員獲贈 100 萬 API tokens;成立由用戶代表組成的 「AI 監督委員會」。

2. 內部爆料:1.8 萬億參數的 「不可能任務」
《#TheVerge》獲得的內部郵件顯示,GPT-5 的開發陷入 「參數陷阱」—— 為超越#谷歌 #GeminiUltra 的 1.5 萬億參數,#OpenAI 強行將模型擴容至 1.8 萬億,導致訓練過程中出現 37 次 「災難性遺忘」
「就像用膠帶粘起的泰坦尼克號。」 前 OpenAI 研究員、現 Anthropic 首席科學家達里奧在博客中寫道,「他們為了參數數字好看,犧牲了模型的穩定性。」 更驚人的是,測試數據顯示,GPT-5 在複雜推理任務上的表現比 GPT-4o 下降 12%,卻在簡單問答上提速 30%,「完美適配媒體演示,卻不適合實際使用」。
3. 競品突襲:馬斯克的 「趁你病要你命」
就在奧特曼道歉的同一小時,馬斯克在 X 平台發布 Grok 4 的測試視頻:面對同樣的數學題,Grok 4 不僅給出正確答案,還幽默地說 「這題我奶奶都會,GPT-5 可能需要再讀個小學」。xAI 隨後宣布開放 100 萬用戶內測,伺服器瞬間被擠爆。
更狠的是商業策略:#Grok 4 的 API 定價直接對標 GPT-5 的半價,且承諾 「每周更新但絕不強行升級」。這戳中了 OpenAI 的軟肋 —— 大量企業客戶在論壇抱怨 「一夜之間被強制切換到 GPT-5,導致系統兼容問題」。

三、人性困局:被 KPI 綁架的 AI 狂歡
1. 程序員的 24 小時生存圖鑑
在 OpenAI 總部 3 樓的 「戰情室」,《彭博商業周刊》記者拍到了觸目驚心的場景:行軍床緊挨著伺服器機櫃,白板上用紅筆寫著 「離發布還有 72 小時」,旁邊貼滿了能量飲料優惠券。
「我們發明了『輪班睡眠法』—— 每人睡 90 分鐘就被叫醒。」 工程師傑森向記者展示手機里的健康數據:連續 7 天心率超過 100,血氧飽和度低於 90%。最諷刺的是,他們用 GPT-5 生成的 「高效休息方案」 被同事調侃 「還不如百度百科」。
這種透支式開發正在 AI 行業蔓延。#LinkedIn 數據顯示,2025 年 AI 工程師的平均每周工作時長達到 68 小時,是普通程序員的 1.8 倍,而猝死率同比上升 23%。
2. 倫理紅線的模糊地帶
當用戶發現 GPT-5 會編造 「某權威機構推薦」 時,#OpenAI 的安全團隊陷入兩難。內部文檔顯示,他們曾爭論 「是否要在回答中加入『以下內容可能不準確』的提示」,但產品部門以 「影響用戶體驗」 否決。
「這就像給汽車裝了剎車卻故意藏起來。」 斯坦福 AI 倫理研究員莉莉安在《大西洋月刊》撰文指出,GPT-5 的 「自信謊言」 比承認無知更危險。她舉例:一位抑鬱症患者詢問自殺【相關閱讀:安樂死根本安樂不了,別宣傳了】干預方法時,AI 推薦了已被淘汰的電擊療法,還堅稱 「這是最新臨床指南建議」。
3. 資本遊戲的殘酷真相
#SEC(美國證監會)的文件顯示,OpenAI 在 2025 年 Q2 的營收未達預期,同比增速從 180% 降至 97%。這直接導致董事會向奧特曼施壓:「必須在開發者大會前拿出『革命性進展』。」
「參數競賽本質是資本遊戲。」《財經》雜誌的深度報道揭露,1.8 萬億參數的 GPT-5 能讓 OpenAI 的估值維持在 900 億美元,而若如實公布性能瓶頸,估值可能縮水 30%。這種壓力傳導到基層,就是工程師小王在日誌里寫的:「今天又要在數據里『找亮點』了,就像給不及格的考卷畫笑臉。」
四、重構信任:當人類重新握緊方向盤
1. 開發者的反抗:給 AI 裝上 「人類開關」
在 #GitHub 上,一個叫 「HumanOverride」 的項目三天星標破萬。開發者湯姆解釋:「這就像給 AI 加了個『家長模式』,當它說『百分百確定』時,系統會自動彈出『請人類驗證』的提示。」
這種覺醒正在改變行業生態。谷歌 #DeepMind 宣布成立 「慢研發小組」,專門負責 「不趕截止日期的創新」;阿里達摩院則推出 「AI 誠實度評分」,讓模型主動標註 「我對此不太確定」 的概率。
2. 用戶的成長:從迷信到協作
教師張敏的做法很有代表性:她讓學生用 GPT-5 寫歷史論文,再要求 「挑出三個你覺得 AI 可能寫錯的地方」。結果發現,學生的批判性思維顯著提升。「現在孩子們會說『AI 說的這個,我得去查下《史記》』,而不是直接複製粘貼。」
這種人機協作的新範式,在醫療領域更顯珍貴。腫瘤醫生李然會用 GPT-5 初篩治療方案,但一定會加上 「請列出所有可能的副作用,包括文獻支持度低於 50% 的」。「它是個好助手,但最後拍板的必須是我。」
3. 行業的轉向:從 「更快」 到 「更好」
OpenAI 的新舉措頗具象徵意義:他們拆除了辦公室里的 「倒計時電子屏」,換上了 「本周最佳糾錯案例」 展示板。最新上榜的是實習生小林的故事:他頂住壓力,推遲發布包含 17 處數據偏差的醫療模型,最終避免了可能的誤診風險。
更深遠的變化發生在資本層面。軟銀孫正義在最新演講中宣布:「我們將不再只看參數規模,而是關注 AI 的『人性化指數』—— 包括承認錯誤的勇氣和幫助人類成長的能力。」
當這場 AI 信任危機的硝煙漸漸散去,我們突然明白:GPT-5 的那根 「錯誤柱狀圖」,或許是技術給人類的溫柔提醒 —— 真正的進步不在於機器跑得有多快,而在於人類能否穩穩握住方向盤。
*以上內容系網友AUS貝小主自行轉載自碳基智能-Mind Mirror,該文僅代表原作者觀點和態度。本站系信息發布平台,僅提供信息存儲空間服務,不代表贊同其觀點和對其真實性負責。如果對文章或圖片/視頻版權有異議,請郵件至我們反饋,平台將會及時處理。


