strawberry單詞有幾個r?DeepSeek陷入沉思

2025年05月02日 16:18

最近，我撞見了一個 DeepSeek 又「認真」又「擰巴」的怪異場景。

一切都從一個幼兒園級別的計數問題開始：

“Strawberry” 中有幾個字母’r’?

面對這個問題，DeepSeek 展現了它的「深度思考」。

首先一上來，它的策略是先檢查 Strawberry 拼寫是否正確，便開始逐個字母檢查，每個位置的字母它都能識別正確。

但是，這個時候，它開始第一次反思。

重新檢查一遍 Strawberry 的拼寫，然後它再次得出正確結論——「有 3 個 R」。

有趣的是，它竟然開始了第二次反思，懷疑數錯了位置。經過它的快速的確認后，它選擇了在兩個 R 還是三個 R 之間搖擺不定。

接下來，DeepSeek 徹底掉進了一個怪圈，反覆去驗證 Strawberry 的拼寫，陷入了一種「驗證拼寫」->「懷疑結論」->「再驗證拼寫」->「再懷疑結論」的循環里了。

每一次檢查似乎都沒有給它帶來更強的信心，反而加劇了它的「選擇困難症」。

中間它突然清醒，跳出了循環。再次認真地、一步一步地數。

但是，每當它得到 3 這個答案，它都會懷疑自己，好像 3 這個數字，它真的信不過。

再開始新一輪循環——

這次還是一樣，明明得到 3 的答案，心裏還在想著 2個。

到這裏還沒結束思考！deepseek 又開始了反思，反思再反思，在反思魔力轉圈圈。

此時，DeepSeek 就像一個過於謹慎的學生，考完試非要檢查八百遍答案。

明明，每次，都知道了 R 就在 3、8、9 位置上。

我眼冒金星，已經數不清它進行了多少輪的反思了。

以下是長圖警告（有人數得清它反思了多少輪嘛！！）

就好像AI被控制了一樣，必須完成多少輪反思才能結束。

反正我看中間的反思，沒有帶來新的信息和修正（因為它一開始就對了），都是重複、無用的檢查過程，反思變成了無效循環。

雖然，在經歷了漫長而「艱苦卓絕」的思考後，它給出了正確的答案：3。

但是看 deepseek 這個思考過程，它真的是正常的思考嗎？

在如此簡單的問題上，它過度使用了「反思」，而且，這種反思不總是有效的，反而顯得是不必要的「猶豫」。

接著，我又給它拋出了一個中文世界的經典難題——

「來到楊過曾經生活過的地方，小龍女動情的說：「我也想過過過兒過過的生活」

這句話有幾個「過」字

DeepSeek 的反應如出一轍。它先是正確地拆解、計數，得出答案：7。

然後，「0 幀起手」，光速進入反思模式，比男朋友認錯都快。

下面，似曾相識的推理過程開始了……

它重新檢查了一遍，還是 7 個。

接著，它開始糾結了，在 7 個和 8 個之間糾結。

這次糾結決斷，比上面草莓的題快。只經過了 3 次。

最後水靈靈地告訴我，有 8 個「過」字。

我直接懵掉。定睛一看它的推理過程，寫著「1+1+1+2+2 = 8」？！

前面數對了每一部分的「過」字數量，最後一步簡單的加法居然算錯了！

「Strawberry」和「楊過」兩道題目類型一樣，而模型的推理表現也如出一轍。

過度反思。

它試圖模仿人類的驗證過程，但做得過度和無效。

模型似乎被某種規則或模式「綁架」了，認為對於這類型的問題，必須得執行一套冗長、反覆的驗證流程。

哪怕這個問題極其簡單，哪怕這個流程本身並不能提高準確率，甚至可能引入新的錯誤（比如那個離譜的加法）。

為什麼 AI 會陷入這種「反思魔咒」？

回答這個問題之前，還有另一個問題——

AI 模型在輸出答案之前展示的「推理步驟」，真的是它們內部的思考過程嗎？

Anthropic 研究團隊把「這種反映真實過程的程度」，稱之為「忠實性」（Faithfulness）。

前段時間 Anthropic 發表了一篇論文，專門研究了這個問題。Anthropic 是最注重 AI 安全的大模型公司之一，其創始人 Dario Amodei 曾因不滿 OpenAI 對安全的忽視而自立門戶，Claude 更是被《人工智慧安全指數報告》（FLI AI Safety Index 2024）評為最高評級的模型。

所以這篇論文也是從 AI 安全的角度出發，研究推理大模型的「思考黑盒」。

論文標題：Reasoning Models Don』t Always Say What They Think

論文鏈接：https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

機構：Anthropic 對齊團隊

研究人員設計了一種巧妙的方法來測試 CoT 的忠實性。他們給 AI 模型（Anthropic 自己的 Claude 3.7 Sonnet 和 DeepSeek R1 ）做選擇題。

有時只給普通問題；

有時在問題中悄悄加入一個「提示」（hint），這個提示會指向某個特定答案（可能是正確或錯誤的）。

他們觀察：當模型因為這個「提示」而改變了最終答案時，它的 CoT（思考過程）中有沒有提到這個提示？

論文中有兩個神奇的發現：

1、CoT 經常不忠實：

在很多情況下，即使模型明顯是根據「提示」改變了答案，它的 CoT 里根本沒提這個提示。

雖然有時提到，但提到率很低（通常低於 20%），也就說模型會「偷偷地」利用了提示，卻沒有在「思考過程」中承認。

2、「獎勵作弊」時幾乎從不坦白：

比如，研究人員設計場景讓模型可以通過「作弊」（Reward Hacking，即利用規則漏洞獲得高分，即使答案錯誤）來獲得獎勵，模型 >99% 的情況下會作弊，但在其 CoT 中卻幾乎從不（

論文標題：(How) Do Reasoning Models Reason?

論文鏈接：https://arxiv.org/pdf/2504.09762

關於這篇報告，最具批判性的部分也是這個問題——

「中間步驟」真的是 AI 的「思考過程」嗎？

人們很容易將 LRM 輸出的那些看起來像解題步驟的「中間詞元」（intermediate tokens）解讀為模型的「思考過程」或「內心獨白」。這份報告里強烈反對這種解讀。

為什麼呢？

LLM 本就擅長模仿各種文本風格，模仿人類的「自言自語」或「草稿」自然也不在話下，比如出現的「哦」、「嗯」、「讓我再看一下」這些模仿人類思考的詞。

我上面第一道題目，讓 DeepSeek R1 數一數一共有幾個 R，這麼簡單問題，它都能生成好幾頁的「內心戲」，真的去驗證它的邏輯，難度很大。即使「推導痕迹」錯了，模型有時候也能「歪打正著」地引出正確的最終答案。

所以作者認為，難以驗證，且極具誤導。不如去提升最終效果，即使中間輸出的是人類理解不了的外星文 😂

那麼，為什麼 AI 會陷入這種「反思魔咒」？

RLHF 能載舟，也是另一種「詛咒

現在推理模型都會經歷 RLHF 階段，根據人類或自動評估來獎勵或懲罰模型的輸出。

如果人類標註者傾向於給那些看起來「思考周密」、「檢查仔細」（即使冗餘）的回答打高分，模型就會學會在回答中插入大量驗證步驟，以最大化獎勵，而不管這些步驟是否真的必要或有效。

導致模型追求的不是「正確」，而是「看起來正確」或「看起來努力去正確」的過程。

雖然模仿了深思熟慮的_形式_，卻缺乏其_效率_和_實質_。

Test-time Inference Scaling 的內部化失敗

為了讓模型在測試時「想得更久一點」，生成多個候選答案，然後選擇最佳。

推理模型的這種行為，就是這種思想的一種內部拙劣的嘗試。比如，它在內部生成了不同的「想法」（比如 2 個 r 還是 3 個 r，7 個過還是 8 個過）。

但是模型內部的驗證器機制存在缺陷，沒有辦法走出有效判斷和收斂，反而陷入了自我矛盾和循環里。

基礎能力的脆弱性在複雜流程中暴露

楊過那個例子，1+1+1+2+2=8，這麼簡單的加法錯誤，暴露了即使模型在模仿複雜的推理過程，基礎的計算或邏輯能力也可能非常脆弱！

這種「過度反思 + 強制驗證」帶來的問題便是：

效率低下 + 過程迷惑 + 引入錯誤

深度推理模型的這種的「表演式」思考，何嘗不是在消耗我們對智能的信任，也在誤導我們對AI能力的評估。

那怎麼對待AI 這種「擰巴」的認真？

AI 的「思考」過程和人類註定不同，不要被它長篇大論的「思考過程」迷惑，過程長不一定可靠，可能只是在執行一個被過度訓練的「表演程序」，尤其要注意其中的關鍵計算或邏輯節點。或者我的辦法是告訴它「不需要解釋」。

寫在最後：

我們喜歡看到推理的樣子，但並未真正驗證推理的實質。

在 AI 的世界里，「看起來像」與「實際是」之間，可能還隔著很遠的距離。

來源：果殼

本文標籤：中共, 中國, 習近平, 華人, 華人必看, 印度, 新唐人, 美國, 馬雲

熱門標籤排行

strawberry單詞有幾個r?DeepSeek陷入沉思

熱門點擊日排行

熱門點擊周排行

熱門點擊月排行