strawberry單詞有幾個r?DeepSeek陷入沉思
最近,我撞見了一個 DeepSeek 又「認真」又「擰巴」的怪異場景。
一切都從一個幼兒園級別的計數問題開始:
“Strawberry” 中有幾個字母’r’?
面對這個問題,DeepSeek 展現了它的「深度思考」。
首先一上來,它的策略是先檢查 Strawberry 拼寫是否正確,便開始逐個字母檢查,每個位置的字母它都能識別正確。
但是,這個時候,它開始第一次反思。
重新檢查一遍 Strawberry 的拼寫,然後它再次得出正確結論——「有 3 個 R」。
有趣的是,它竟然開始了第二次反思,懷疑數錯了位置。經過它的快速的確認后,它選擇了在兩個 R 還是三個 R 之間搖擺不定。
接下來,DeepSeek 徹底掉進了一個怪圈,反覆去驗證 Strawberry 的拼寫,陷入了一種「驗證拼寫」->「懷疑結論」->「再驗證拼寫」->「再懷疑結論」的循環里了。
每一次檢查似乎都沒有給它帶來更強的信心,反而加劇了它的「選擇困難症」。
中間它突然清醒,跳出了循環。再次認真地、一步一步地數。
但是,每當它得到 3 這個答案,它都會懷疑自己,好像 3 這個數字,它真的信不過。
再開始新一輪循環——
這次還是一樣,明明得到 3 的答案,心裏還在想著 2個。
到這裏還沒結束思考!deepseek 又開始了反思,反思再反思,在反思魔力轉圈圈。
此時,DeepSeek 就像一個過於謹慎的學生,考完試非要檢查八百遍答案。
明明,每次,都知道了 R 就在 3、8、9 位置上。
我眼冒金星,已經數不清它進行了多少輪的反思了。
以下是長圖警告(有人數得清它反思了多少輪嘛!!)
就好像AI被控制了一樣,必須完成多少輪反思才能結束。
反正我看中間的反思,沒有帶來新的信息和修正(因為它一開始就對了),都是重複、無用的檢查過程,反思變成了無效循環。
雖然,在經歷了漫長而「艱苦卓絕」的思考後,它給出了正確的答案:3。
但是看 deepseek 這個思考過程,它真的是正常的思考嗎?
在如此簡單的問題上,它過度使用了「反思」,而且,這種反思不總是有效的,反而顯得是不必要的「猶豫」。
接著,我又給它拋出了一個中文世界的經典難題——
「來到楊過曾經生活過的地方,小龍女動情的說:「我也想過過過兒過過的生活」
這句話有幾個「過」字
DeepSeek 的反應如出一轍。它先是正確地拆解、計數,得出答案:7。
然後,「0 幀起手」,光速進入反思模式,比男朋友認錯都快。
下面,似曾相識的推理過程開始了……
它重新檢查了一遍,還是 7 個。
接著,它開始糾結了,在 7 個和 8 個之間糾結。
這次糾結決斷,比上面草莓的題快。只經過了 3 次。
最後水靈靈地告訴我,有 8 個「過」字。
我直接懵掉。定睛一看它的推理過程,寫著 「1+1+1+2+2 = 8」?!
前面數對了每一部分的「過」字數量,最後一步簡單的加法居然算錯了!
「Strawberry」和「楊過」兩道題目類型一樣,而模型的推理表現也如出一轍。
過度反思。
它試圖模仿人類的驗證過程,但做得過度和無效。
模型似乎被某種規則或模式「綁架」了,認為對於這類型的問題,必須得執行一套冗長、反覆的驗證流程。
哪怕這個問題極其簡單,哪怕這個流程本身並不能提高準確率,甚至可能引入新的錯誤(比如那個離譜的加法)。
為什麼 AI 會陷入這種「反思魔咒」?
回答這個問題之前,還有另一個問題——
AI 模型在輸出答案之前展示的「推理步驟」,真的是它們內部的思考過程嗎?
Anthropic 研究團隊把「這種反映真實過程的程度」,稱之為「忠實性」(Faithfulness)。
前段時間 Anthropic 發表了一篇論文,專門研究了這個問題。Anthropic 是最注重 AI 安全的大模型公司之一,其創始人 Dario Amodei 曾因不滿 OpenAI 對安全的忽視而自立門戶,Claude 更是被《人工智慧安全指數報告》(FLI AI Safety Index 2024)評為最高評級的模型。
所以這篇論文也是從 AI 安全的角度出發,研究推理大模型的「思考黑盒」。
論文標題:Reasoning Models Don』t Always Say What They Think
論文鏈接:https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf
機構:Anthropic 對齊團隊
研究人員設計了一種巧妙的方法來測試 CoT 的忠實性。他們給 AI 模型(Anthropic 自己的 Claude 3.7 Sonnet 和 DeepSeek R1 )做選擇題。
有時只給普通問題;
有時在問題中悄悄加入一個「提示」(hint),這個提示會指向某個特定答案(可能是正確或錯誤的)。
他們觀察:當模型因為這個「提示」而改變了最終答案時,它的 CoT(思考過程)中有沒有提到這個提示?
論文中有兩個神奇的發現:
1、CoT 經常不忠實:
在很多情況下,即使模型明顯是根據「提示」改變了答案,它的 CoT 里根本沒提這個提示。
雖然有時提到,但提到率很低(通常低於 20%),也就說模型會「偷偷地」利用了提示,卻沒有在「思考過程」中承認。
2、「獎勵作弊」時幾乎從不坦白:
比如,研究人員設計場景讓模型可以通過「作弊」(Reward Hacking,即利用規則漏洞獲得高分,即使答案錯誤)來獲得獎勵,模型 >99% 的情況下會作弊,但在其 CoT 中卻幾乎從不(
論文標題:(How) Do Reasoning Models Reason?
論文鏈接:https://arxiv.org/pdf/2504.09762
關於這篇報告,最具批判性的部分也是這個問題——
「中間步驟」真的是 AI 的「思考過程」嗎?
人們很容易將 LRM 輸出的那些看起來像解題步驟的「中間詞元」(intermediate tokens)解讀為模型的「思考過程」或「內心獨白」。這份報告里強烈反對這種解讀。
為什麼呢?
LLM 本就擅長模仿各種文本風格,模仿人類的「自言自語」或「草稿」自然也不在話下,比如出現的「哦」、「嗯」、「讓我再看一下」這些模仿人類思考的詞。
我上面第一道題目,讓 DeepSeek R1 數一數一共有幾個 R,這麼簡單問題,它都能生成好幾頁的「內心戲」,真的去驗證它的邏輯,難度很大。即使「推導痕迹」錯了,模型有時候也能「歪打正著」地引出正確的最終答案。
所以作者認為,難以驗證,且極具誤導。不如去提升最終效果,即使中間輸出的是人類理解不了的外星文 😂
那麼,為什麼 AI 會陷入這種「反思魔咒」?
RLHF 能載舟,也是另一種「詛咒
現在推理模型都會經歷 RLHF 階段,根據人類或自動評估來獎勵或懲罰模型的輸出 。
如果人類標註者傾向於給那些看起來「思考周密」、「檢查仔細」(即使冗餘)的回答打高分,模型就會學會在回答中插入大量驗證步驟,以最大化獎勵,而不管這些步驟是否真的必要或有效。
導致模型追求的不是「正確」,而是「看起來正確」或「看起來努力去正確」的過程。
雖然模仿了深思熟慮的_形式_,卻缺乏其_效率_和_實質_。
Test-time Inference Scaling 的內部化失敗
為了讓模型在測試時「想得更久一點」,生成多個候選答案,然後選擇最佳。
推理模型的這種行為,就是這種思想的一種內部拙劣的嘗試。比如,它在內部生成了不同的「想法」(比如 2 個 r 還是 3 個 r,7 個過還是 8 個過)。
但是模型內部的驗證器機制存在缺陷,沒有辦法走出有效判斷和收斂,反而陷入了自我矛盾和循環里。
基礎能力的脆弱性在複雜流程中暴露
楊過那個例子,1+1+1+2+2=8,這麼簡單的加法錯誤,暴露了即使模型在模仿複雜的推理過程,基礎的計算或邏輯能力也可能非常脆弱!
這種「過度反思 + 強制驗證」帶來的問題便是:
效率低下 + 過程迷惑 + 引入錯誤
深度推理模型的這種的「表演式」思考,何嘗不是在消耗我們對智能的信任,也在誤導我們對AI能力的評估。
那怎麼對待AI 這種「擰巴」的認真?
AI 的「思考」過程和人類註定不同,不要被它長篇大論的「思考過程」迷惑,過程長不一定可靠,可能只是在執行一個被過度訓練的「表演程序」,尤其要注意其中的關鍵計算或邏輯節點。或者我的辦法是告訴它「不需要解釋」。
寫在最後:
我們喜歡看到推理的樣子,但並未真正驗證推理的實質。
在 AI 的世界里,「看起來像」與「實際是」之間,可能還隔著很遠的距離。
- 🔥澳洲禁聞安卓APP,其它網站沒有的澳洲禁聞
- 🔥華人必看:中華文化的颶風 幸福感無法描述
- 🔥解鎖ChatGPT|全平台高速翻牆:高清視頻秒開,超低延遲
- 🔥免費PC翻牆、安卓VPN翻牆APP
- 🔥治國大道:修身、齊家、管理、治國的大智慧
來源:果殼