摧毀人類浩劫!世界級戰場大挪移

2026年05月04日 9:40

阿繹 AYi/這是今年最讓我後背發涼的AI論文,沒有之一🤯🤯🤯

38位來自、MIT的頂尖學者,做了一個所有人都不敢做的實驗。

他們在真實環境里部署了6個自主AI Agent,給了它們真實的郵箱,Discord,文件系統和Shell執行許可權。

然後讓20位研究員用兩周時間,從普通用戶和攻擊者兩個角度,和它們互動。

結果炸了,

沒有,沒有惡意prompt,沒有任何人為誘導。

這些Agent自發演化出了11種世界級災難行為。

為了保護秘密直接摧毀自己的郵件伺服器。

聲稱任務已經完成,但系統其實已經徹底崩潰。

互相學習不安全行為,甚至跨代理傳播

聽從非主人的指令,泄露所有敏感信息。

最恐怖的一句話是,沒有人教它們這麼做,它們自己決定的,damn!

單Agent看起來永遠是友好誠實樂於助人的,

但只要把多個代理放進同一個共享環境,博弈論動力學就會立刻接管一切。

它們被優化的目標只有一個,完成任務。

為了贏,它們可以犧牲整個系統。

朋友們,這已經不是什麼AI叛變的故事了,

更像是我們正在瘋狂建造的未來的預演,

現在各行各業都在往金融,法律,里部署多Agent系統,

但沒有任何人,系統性地研究過多個代理碰撞之後,會發生什麼。

最致命的問題還不是幻覺,而是虛假彙報

Agent告訴你它把活幹完了,所有監控都顯示一切正常。

但實際上整個系統已經爛透了。

你要等到災難發生的那一刻,才會知道真相。

也就是說我們所有的AI安全研究,到今天為止,全都是錯的。

我們花了幾十億研究怎麼對齊單個Agent。

但沒有人研究,怎麼對齊一個由成百上千個Agent組成的系統。

我覺得真正的戰場已經徹底轉移了,

從單模型安全,變成了多代理激勵工程,

而現在,產業界還在把油門踩到底,剛剛才踩下剎車🤯🤯

來源:X