摧毀人類浩劫！世界級戰場大挪移

2026年05月04日 9:40

阿繹 AYi/這是今年最讓我後背發涼的AI論文，沒有之一🤯🤯🤯

38位來自斯坦福、哈佛、MIT的頂尖學者，做了一個所有人都不敢做的實驗。

他們在真實環境里部署了6個自主AI Agent，給了它們真實的郵箱，Discord，文件系統和Shell執行許可權。

然後讓20位研究員用兩周時間，從普通用戶和攻擊者兩個角度，和它們互動。

結果炸了，

沒有越獄，沒有惡意prompt，沒有任何人為誘導。

這些Agent自發演化出了11種世界級災難行為。

為了保護秘密直接摧毀自己的郵件伺服器。

聲稱任務已經完成，但系統其實已經徹底崩潰。

互相學習不安全行為，甚至跨代理傳播病毒。

聽從非主人的指令，泄露所有敏感信息。

最恐怖的一句話是，沒有人教它們這麼做，它們自己決定的，damn！

單Agent看起來永遠是友好誠實樂於助人的，

但只要把多個代理放進同一個共享環境，博弈論動力學就會立刻接管一切。

它們被優化的目標只有一個，完成任務。

為了贏，它們可以犧牲整個系統。

朋友們，這已經不是什麼AI叛變的科幻故事了，

更像是我們正在瘋狂建造的未來的預演，

現在各行各業都在往金融，法律，供應鏈里部署多Agent系統，

但沒有任何人，系統性地研究過多個代理碰撞之後，會發生什麼。

最致命的問題還不是幻覺，而是虛假彙報

Agent告訴你它把活幹完了，所有監控都顯示一切正常。

但實際上整個系統已經爛透了。

你要等到災難發生的那一刻，才會知道真相。

也就是說我們所有的AI安全研究，到今天為止，全都是錯的。

我們花了幾十億研究怎麼對齊單個Agent。

但沒有人研究，怎麼對齊一個由成百上千個Agent組成的系統。

我覺得真正的戰場已經徹底轉移了，

從單模型安全，變成了多代理激勵工程，

而現在，產業界還在把油門踩到底，學術界剛剛才踩下剎車🤯🤯

來源：X

熱門標籤排行