OpenAI機器人炸裂登場!ChatGPT終於有身體了

2024年03月15日 15:39

OpenAI機器人炸裂登場!ChatGPT終於有身體了(圖/視)

以 GPT-4 為代表的大模型已經建造了大腦，下一步則是需要能承載這一大腦的機器人軀體。

昨天深夜，人形機器人明星公司 Figure AI 震撼發布了一段視頻，展示了他們的機器人 Figure 01 在 OpenAI 強大模型的支持下，進行的一系列對話交互。

視頻中的機器人展現出了靈活的操作反應，其與人類溝通的流暢度幾乎可以與真人相媲美。

這距離 Figure AI 獲得 OpenAI、微軟、英偉達等公司投資，僅僅過去了不到半個月。也讓我看到，OpenAI 最強的多模態大模型有了身體後會是什麼樣子。

Figure 01，最懂你的人形機器人？

得益於 OpenAI 多模態大模型的強大支持，Figure 01 現在可是個桌上物品識別的小能手。蘋果、瀝水架、水杯和盤子，對它來說都是小菜一碟！

餓了，想讓它整口吃的，它能秒懂你的心思，麻溜地遞上一個蘋果。

而且，它甚至能在撿起你丟棄的垃圾，邊還能跟你解釋為啥剛才給了你蘋果。在大模型的輔助下，Figure 01 可以理解桌面上唯一的食物——蘋果。

在人類的一聲令下，Figure 01 還能做家務，收拾餐具，這機器人，簡直是家庭生活的最佳夥伴。

廣大網友在看到這段令人驚艷的視頻后，反應可謂是五花八門。

網友已經迫不及待地給 Figure 01 安排任務了，任務清單里怎麼還混進了機器人前輩的電影。

競爭對手怕是要看在眼裡，急在心裏，準備暗地裡摩拳擦掌，來一場技術大比拼？

更興奮的網友表示，AGI 的曙光似乎就在眼前。

當然，總有些挑剔的聲音，有的網友就吐槽說，這機器人說法怎麼結結巴巴呢？

網友也沒放過玩梗的機會。

Figure AI 掌門人 Brett Adock 也不甘寂寞，在 X 上跳出來做了一番精彩解讀。

視頻展示了端到端神經網路的應用（end-to-end neural networks）。在此過程中沒有使用遙控器（teleop）。視頻是以實際速度（1.0 倍速）拍攝的，並且是連續不斷的。

如您在視頻中看到的，機器人的速度有了顯著的提升，我們正在逐步達到與人類相似的速度。

無需遙控，自學成才

那麼 Figure 01 是怎麼做到的呢？

Figure AI 團隊負責人 Corey Lynch 在 X 上解釋了一番。

具體來說，視頻中展示的所有行為都是通過學習獲得的（非遙控操作），並且以實際速度（1.0 倍速）執行。

Ad：美好不容錯過，和家人朋友一起享受愉快時光，現在就訂票

Figure AI 將機器人攝像頭拍攝的圖像和通過板載麥克風記錄的語音轉錄文本輸入到一個由 OpenAI 訓練的多模態模型中，這個模型能夠同時理解圖像和文本信息。

該模型會處理整個對話的歷史記錄，包括以往的圖像，以生成語言響應，並通過文本到語音的方式向人類回話。同一個模型還負責決定執行哪種已學習的閉環行為來響應給定的命令，它將特定的神經網路權重載入到 GPU 上，並執行相應的策略。

而將 Figure 01 連接到一個大型預訓練的多模態模型，為其帶來了許多有趣的新功能。

現在，Figure 01 + OpenAI 能夠：

詳述其周圍環境。

在決策時運用常識推理。例如，「桌子上的餐具，像那個盤子和杯子，很可能接下來會被放到烘乾架上」。

將含糊的高級指令，如「我餓了」，轉化為符合情境的適當行為，比如「遞給那個人一個蘋果』。

用簡單的英語解釋為什麼它執行了某個特定的動作。例如，「這是我能夠從桌子上提供的唯一可食用物品」。

當談到 Figure 01 通過學習掌握的精細雙手操作技能時，其實這背後也蘊含著一系列複雜而精妙的原理。

所有行為都由神經網路的視覺-運動轉換器策略驅動，這種策略能直接將圖像像素映射到動作。這些網路以每秒 10 幀的速率接收機器人內置圖像，並生成每秒 200 次的 24 自由度動作（包括腕部姿勢和手指關節角度）。

這些動作作為高速「設定點」，供更高速率的全身控制器跟蹤，確保動作的精確執行。

這種設計實現了關注點的有效分離：

互聯網預訓練模型對圖像和文本進行常識推理，以生成一個高級計劃。

學習到的視覺-運動策略執行這個計劃，完成那些難以手動指定的快速、反應性行為，例如在任何位置操縱一個可變形的袋子。

同時，全身控制器負責確保動作的安全性和穩定性，例如，保持機器人的平衡。

對於 Figure 01 取得的巨大進步，Corey Lynch 感慨道：

就在幾年前，我還認為與一個能自主規劃和執行學習行為的人形機器人進行完整對話，將是未來數十年後的事情。顯然，許多事情已經發生了巨大變化。

這會是人形機器人的 GPT 時刻嗎

不得不說，Figure 01 的發展速度簡直像是踩了油門，一路狂飆。

今年 1 月，Figure 01 就掌握了製作咖啡的技能，這一成就得益於端到端神經網路的引入，使得機器人能夠自主學習和糾正錯誤，僅需 10 小時的訓練。

一個月後，Figure 01 已經學會了搬運箱子並運送至傳送帶的新技能，儘管其速度僅為人類的 16.7%。

在這個過程，Figure AI 商業化的步伐也未曾停歇，與寶馬製造公司簽訂了商業協議，將 AI 和機器人技術融入汽車生產線，並落戶于寶馬的工廠。

緊接著，就在兩周前，Figure 宣布完成了 6.75 億美元的 B 輪融資，公司估值飆升至 26 億美元。

投資方几乎涵蓋了矽谷的半壁江山——Microsoft、OpenAI 創業基金、英偉達、Jeff Bezos、Parkway Venture Capital、Intel Capital 和 Align Ventures 等。

當時，OpenAI 與 Figure 還宣布將共同開發下一代人形機器人 AI 模型，OpenAI 的多模態模型將擴展到機器人感知、推理和交互環節。

如今，從 Figure 01 身上，我們彷彿能窺見未來生活的草稿。

事實上，在大模型之前，機器人屬於專用設備，如今有了大模型的通用能力，通用機器人開始曙光乍現，現在的我們不止需要 ChatGPT，還需要 WorkGPT。

這些進化間接印證了一條清晰可見的道路：當 AI 大模型生根發芽之後，總歸是要走進現實世界，而具身智能則是最佳的路徑。

一直活躍在 AI 前線的英偉達創始人黃仁勛曾洞察道：「具身智能將引領下一波人工智慧浪潮。」

將 OpenAI 大模型融入 Figure 01 也是有意的戰略布局。

成熟的 AI 大模型充當人工大腦，模擬了人腦複雜的神經網路，實現了語言理解、視覺識別、情景推理等認知功能，解決了機器人更高層次的認知和決策問題。

與此同時，各種感測器、執行器、計算單元被集成到機器人軀體中，實現了對環境的感知和交互。比如視覺系統可以捕捉圖像和視頻，觸覺感測器可以感受物體的形狀和質地等。

Figure AI 創始人 Brett Adcock 此前在接受採訪時表示，未來 1-2 年，Figure AI 將專註于開發具有里程碑意義的產品，期望在未來一兩年內向公眾展示人形機器人的研發成果，涵蓋 AI 系統、低級控制等，最終呈現能在日常生活中大展身手的機器人。

他還透露，在成本方面，一個人形機器人約有 1000 個零件，重約 150 磅（68 公斤），而電動汽車可能有約 1 萬個零件，重達 4000-5000 磅（1800-2250 公斤）。因此，長期來看，人形機器人的成本有望低於廉價電動汽車，這取決於執行器、電機組件、感測器的成本及計算成本。

機器人專家 Eric Jang 曾提出他的洞見：「儘管許多 AI 研究者認為通用機器人的普及還需數十年，但別忘了，ChatGPT 的誕生仿幾乎就在一夜之間。」

一年前的今天，OpenAI 震撼發布了 GPT-4，向世界證明了大模型的強大威力。

一年後的今天，我們沒等來 GPT-5，但也迎來 Figure 01，而這會是人形機器人的 GPT-4 時刻嗎？

只用13天，OpenAI做出了能聽、能說、能自主決策的機器人大模型

資深機器人專家 Eric Jang 不久前曾預言：「ChatGPT 曾在一夜之間出現。我認為，有智慧的機器人技術也將如此。」

他或許說對了。

北京時間 3 月 13 日深夜，一段人形機器人的視頻開始在 X 上熱傳。

之前從未展示過機器人方向能力的 OpenAI，在與投資公司的人形機器人的合作中，第一次展示了自己的機器人智能能力。

Figure，OpenAI 投資的機器人公司，上傳了這段視頻。在視頻中，Figure 的人形機器人，可以完全與人類流暢對話，理解人類的意圖，同時還能理解人的自然語言指令進行抓取和放置，並解釋自己為什麼這麼做。

而其背後，就是 OpenAI 為其配置的智能大腦。

在過去一年的具身智能進展中，或許你曾經看過類似的機器人自主決策、拿取物品的展示，但在這段視頻中，Figure 人形機器人的對話流暢度、展現出的智能感，接近人類操作速度的動作流暢性，絕對都是第一流的。

Figure 還特意強調，整段視頻沒有任何加速，也沒有任何剪輯，是一鏡到底拍攝的。同時，機器人是在完全自主的情況下進行的行為，沒有任何遠程操縱——似乎在暗暗諷刺前段時間爆火的展現了酷炫機械能力，但是沒有太多智能程度的斯坦福炒菜機器人。

比起機器人的智能表現，更可怖的是，這隻是 OpenAI 小試牛刀的結果——從 OpenAI 宣布與 Figure 共同合作推進人形機器人領域的前沿，到這個視頻的發布，只有短短的十三天。

此次 Figure 人形機器人背後的智能，來自端到端的大語言-視覺模型，這是具身智能領域目前非常前沿的領域。去年極客公園報道過谷歌在類似領域的進展。谷歌做出的端到端機器人控制模型，被一些行業內的人士，譽為機器人大模型的 GPT-3 時刻。

而當時，谷歌的機器人模型，還只能根據對話來做一些抓取，並不能與人類對話，也不能向人類解釋自己為什麼會這麼做。而谷歌自身，從 Everyday Robotics 開始，已經有了五年以上的機器人研究經驗。

而 Figure 本身，成立於 2022 年。從OpenAI 宣布介入與之合作，到今天它們共同推出一個能夠自主對話和決策的機器人，只有 13 天。

機器人智能的發展，顯然正在加速。

01. 端到端大模型驅動，機器人的速度已經接近人類速度

Figure 的創始人 Brett Adcock 和 AI 團隊的負責人 Corey Lynch 在 X 上解釋了此次視頻中機器人互動背後的原理。

此次的突破，由 OpenAI 與 Figure 共同做出。OpenAI 提供負責提供視覺推理和語言理解，而 Figure 的神經網路提供快速、低水平、靈巧的機器人動作。

機器人所做出的所有行為都是出於已經學習過，內化了的能力，而不是來自遠程操作。

研究人員將機器人攝像頭中的圖像輸入，和機載麥克風捕獲的語音中的文本轉錄到由 OpenAI 訓練的，可以理解圖像和文本的多模態模型（VLM）中，由該模型處理對話的整個歷史記錄，得出語言響應，然後通過文本到語音的方式將其回復給人類。

同樣的模型，也負責決定在機器人上運行哪些學習的閉環行為來完成給定的命令，將特定的神經網路權重載入到 GPU 上並執行策略。

這也是為什麼這個機器人，屬於「端到端」的機器人控制。從語言輸入開始，模型接管了一切處理，直接輸出語言和行為結果，而不是中間輸出一些結果，再載入其他程序處理這些結果。

Figure 的機載攝像頭以 10hz 的頻率拍攝圖像，然後神經網路以 200hz 輸出 24 個自由度動作。

Figure 的創始人提到，這代表機器人的速度已經有顯著提高，開始接近人類的速度。

Corey Lynch 的 X

OpenAI 的模型的多模態能力，是機器人可以與世界交互的關鍵，我們能夠從視頻中展示中看到許多類似的瞬間，比如：

描述一下它的周圍環境。

做出決定時使用常識推理。例如，「桌子上的盤子和杯子等餐具接下來很可能會進入晾衣架」。

將「我餓了」等模稜兩可的高級請求轉化為一些適合上下文的行為，例如「遞給對方一個蘋果」。

用簡單的英語描述*為什麼*它會執行特定的操作。例如，「這是我可以從桌子上為您提供的唯一可食用的物品」。

而模型能力的強大，使其還能夠擁有短期記憶，比如視頻中展示的「你能把它們放在那裡嗎？」「它們」指的是什麼？「那裡」又在哪裡？正確回答需要反思記憶的能力。

而具體的雙手動作，可以分成兩步來理解：

首先，互聯網預訓練模型對圖像和文本進行常識推理，以得出高級計劃。如視頻中展示的：Figure 的人形機器人快速形成了兩個計劃：1）將杯子放在碗碟架上，2）將盤子放在碗碟架上。

其次，大模型以 200hz 的頻率生成的 24-DOF 動作（手腕姿勢和手指關節角度），充當高速「設定點（setpoint）」，供更高速率的全身控制器跟蹤。全身控制器確保安全、穩定的動力，如保持平衡。

所有行為均由神經網路視覺運動 Transformer 策略驅動，將像素直接映射到動作。

02.從 ChatGPT 到 Sora，再到機器人，OpenAI 想包攬「智能」這件事

2021 年夏天，OpenAI 悄悄關閉了其機器人團隊，當時，OpenAI 曾宣布無限期終止對機器人領域的探索，原因是缺乏訓練機器人使用人工智慧移動和推理所需的數據，導致研發受到阻礙。

但顯然，OpenAI 並沒有放下對這個領域的關注。

2023 年 3 月，正在一年前，極客公園報道了 OpenAI 投資了來自挪威的機器人製造商 1X Technologies。其副總裁正是我在文初提到的，認為具身智能將會突然到來的 Eric Jang。

而無獨有偶，1X Technologies 的技術方向，也是端到端的神經網路對於機器人的控制。

而今年 3 月初，OpenAI 和其他投資人一起，參与了 Figure 的 B 輪融資，使其成立兩年，就達到了 26 億美金估值。

也正是在這一輪融資之後，OpenAI 宣布了與 Figure 的合作。

Figure 的創始人 Brett Adcock，是個「擅長組局」的連續創業者，整個職業生涯中創立過至少 7 家公司，其中一家以 27 億美元的估值上市，一家被 1.1 億美元的價格收購。

創建公司后，他招募到了研究科學家 Jerry Pratt 擔任首席技術官，前波士頓動力/蘋果工程師 Michael Rose 擔任機器人控制主管。此次進行分享的 AI 團隊負責人 Corey Lynch，則原本是 Google Deepmind 的 AI 研究員。

Figure 宣布自己在電機、固件、熱量、電子產品、中間件操作系統、電池系統、執行器感測器、機械與結構方面，都招募了硬核的設計人才。

公司的確進展很快。在與 OpenAI 合作之前，已經做出了不少成績。2024 年 1 月，Figure 01（Figure 的第一款人形機器人）學會了做咖啡，公司稱，這背後引入了端到端神經網路，機器人學會自己糾正錯誤，訓練時長為 10 小時。

Figure 01 引入 AI 學會做咖啡

2 月，公司對外展示 Figure 01 的最新進展，在視頻里，這個機器人已經學會搬箱子，並運送到傳送帶上，但速度只有人類的 16.7%。

甚至在商業化上，也已經邁出了第一步：Figure 宣布與寶馬製造公司簽署商業協議，將 AI 和機器人技術整合到汽車生產中，部署在寶馬位於南卡羅來納州斯巴達堡的製造工廠。

而在今天的視頻展示推文中，Figure 宣布其目標是訓練一個世界模型，最終能夠賣出十億個級別的模型驅動的人形機器人。

不過，儘管OpenAI與 Figure的合作進展順暢，但看起來 OpenAI 並未把寶壓在一家機器人公司。

北京時間 3 月 13 日，來自谷歌研究團隊、加州大學伯克利分校、斯坦福大學教授等一群研究者新成立的一家機器人 AI 公司 Physical Intelligence，被彭博社爆料也拿到了 OpenAI 的融資。

毫無意外，該公司，也是研究未來能夠成為通用機器人系統的人工智慧。

多頭下注機器人領域，13 天合作做出領先的機器人大模型，OpenAI 在機器人領域意圖為何，引人關注。

智能人形機器人，未來不止看馬斯克的了。

來源：愛范兒/極客公園

本文標籤：中共, 中國, 北京, 華人, 華人必看, 科學, 老闆, 運動, 預言

熱門標籤排行

OpenAI機器人炸裂登場!ChatGPT終於有身體了

熱門點擊日排行

熱門點擊周排行

熱門點擊月排行