280美元一單!1000名工程師教Claude寫好代碼

280美元一單!1000名工程師教Claude寫好代碼

Anthropic自家工程師早已基本不寫代碼了,卻280美元一個任務,花錢請約1000名外部工程師,手把手教Claude Code寫出好代碼。餵養前沿模型的,終究還是人。

最近,一篇報道把Claude Code的「進步秘笈」擺在了檯面上。

Business Insider稱,Anthropic有一個專門提升Claude Code的項目,正在通過約1000名軟體工程師的反饋來打磨它。

這個項目在數據公司Snorkel AI內部,代號為「Marlin」。

早在今年1月,Claude Code負責人Boris Cherny就爆料自己已經兩個多月沒手寫過一行代碼,一天就讓Claude提交22個拉取請求(Pull Request),前一天則提交了27個,全是模型寫的。

也有報道稱,Anthropic內部代碼也大部分由AI生成。

有趣的地方,正在這兒。

一邊,Anthropic自家核心工程師已經把大量編碼工作交給模型;另一邊,它在花錢請約1000名外部工程師,手把手教Claude Code什麼才叫「好代碼」。

一小時280美元

買的到底是什麼

按Business Insider的說法,Marlin項目請的外部工程師都有軟體工程背景。他們的活兒,聽上去很像一次真實的代碼評審。

流程大致是這樣。先從一份包含數千個倉庫的清單里,選一個GitHub的代碼倉庫。然後建一個PR,也就是開發者提交代碼修改的那一步。再寫一段提示詞,把任務講清楚。

模型會生成兩套代碼,而這些外部工程師接下來要做的,是A/B測試:比較兩套輸出,選出更好的那一套。

每個任務報酬280美元,大約花一小時。有些還要和Snorkel的審核層來回好幾輪。

評判的標準,是評估生產級代碼的正確性、安全性、可靠性和可維護性。

舉兩個真實的例子。

在一個任務里,外部工程師讓模型重構系統處理執行元數據(execution metadata)的方式,目標是讓代碼更清晰、更好維護,但不改變功能。

另一個任務中,外部工程師給MLflow這個開源機器學習平台做安全修復,針對它載入模型時下載Python包可能出現的命令注入漏洞。材料的要求十分明確:既要擋住命令注入,又不能誤傷合法的pip(Python包管理器)選項。

這些任務的要求,已經超出了數據標註的範疇,更像是要讓一個資深工程師,把腦子裡那套「這樣寫更好」的判斷原樣拷給模型。

顯然,Anthropic購買的並非代碼,而是資深程序員頭腦中那個如何把代碼寫得更安全、更乾淨的判斷。

為什麼非得是工程師

Anthropic為什麼要如此大費周章?因為Claude Code早就不是一個寫代碼的聊天框了。

Anthropic官方把它定義為項目級的AI智能體。它能讀完整個代碼庫,跨文件做規劃,直接執行修改,跑測試,再根據失敗的結果自己迭代。

Anthropic官網對Claude Code的定義:一套能讀代碼庫、跨文件改動、跑測試、交付已提交代碼的智能體。

這意味著它會真的動手改文件、跑任務,接觸整個代碼工程。

Anthropic自己也清楚這件事的分量,因此在工程博客里反覆講Claude Code的許可權、沙箱和批准疲勞(approval fatigue)問題。

默認情況下,高風險文件修改或命令執行需要用戶批准;為減少反覆授權帶來的 批准疲勞,Anthropic還引入了sandboxing,讓Claude Code在預設文件系統和網路邊界內更安全地運行。

當一個AI能跑命令、能動線上代碼,犯錯的代價就完全不一樣了。訓練目標也跟著變:從「寫對」升級到「寫得安全、可靠、可維護」。

這些東西,普通的代碼語料喂不出來。它過去藏在資深工程師的代碼審查里,是人傳人的經驗。現在,Anthropic想通過招募人類編程專家,把它變成可以購買的數據。

Snorkel

被低估的「數據軍火商」

整件事情的真正主角是Snorkel。

這家公司2019年從斯坦福AI Lab走出來,押注的方向只有一個:真正決定機器學習成敗的是數據,而不是模型或者算力。

Snorkel的兩位重要創始人是Alex Ratner和他在斯坦福的導師Chris Ré,他們說Snorkel的核心學術源頭。

Snorkel AI聯合創始人、CEO Alex Ratner

2015年,Snorkel還只是Ratner讀博時的一個「下午項目」:與其花大價錢僱人一條條標數據,不如用程序和規則做「弱監督」(weak supervision),讓模型不靠人工逐條標註也能學。

靠著這套思路,Snorkel攢下60多篇論文,開源工具也被Google、Intel用了起來,直到2019年才正式拆分成公司。

Snorkel AI聯合創始人,斯坦福教授Chris Ré

Ratner的導師Chris Ré也是個狠角色。

他是斯坦福教授、麥克阿瑟天才獎得主、連續創業者,參与的項目曾被蘋果收購,還創辦了估值一度達50億美元的SambaNova。

最有意思的還是這家公司的轉身。

Snorkel當年要破的,正是「人工標註又慢、又貴、又不穩」這個老大難,那時AI開發約80%的時間都耗在手工標註數據上,因此Snorkel最初的夢想,就是盡量把人從標註里解放出來。

可到了前沿模型時代,最稀缺、最值錢的又回到了人身上,只是換成了博士、醫生、律師、資深工程師等專家的品味和判斷。這家靠「少用人」起家的公司,如今最賺錢的生意反倒是組織一支昂貴的專家大軍去訓練前沿AI,Marlin只是其中一單。

它的工作流,剛好也呼應了Marlin項目的需求。

Snorkel官網這樣描述這套工作流:先定義任務、評分標準和驗證器,框定「什麼算好」,再跑專家評審流水線,作者、多名評審、最終裁決者層層把關,全程留痕。

Snorkel官網示意:評審打分出現分歧后經裁決解決,並寫入評分標準變更記錄,每處改動都可追溯到誰、何時、依據什麼。

它還會把評估環境和數據一併搭好,讓同一批任務能在不同模型版本上反覆跑,得出可復現、可比較的分數。而要讓分數乾淨可比,評分的人就不能受版本干擾。這些外部工程師不知道自己評的是哪個版本,原因就在這兒。

報價也很能說明問題。

Snorkel一個公開的法律方向合同崗,每個高質量任務10到100美元;而Marlin的軟體工程任務是280美元一個、約一小時,折成時薪差不多是同行的兩倍半(Scale AI、Mercor給工程師開到每小時110美元)。頂尖專家周入還能超過3000美元。

Snorkel招募的這些外部工程師的反饋,是真的貴。

客戶名單里有Google、Mistral、Anthropic。2025年5月,Snorkel完成D輪融資,估值13億美元。

Anthropic營收負責人Kate Jensen表示,要把Claude的潛力完全釋放出來,得靠引入領域專家和人類反饋的新評估方法,Anthropic會持續和Snorkel這樣的公司合作。

Snorkel、Scale、Mercor這些公司,過去被當成「標註平台」。如今它們成了前沿模型公司背後的隱形供應鏈。

給最聰明的AI喂料的,就是這樣一支散布全球、看不見的專家大軍。

幾個巨頭

搶的是同一種數據

不只是Anthropic在買真實工程能力。這場競賽,幾個重磅玩家都在參与,只是打法不同。

Cursor走的是產品數據這條路。

它官方寫明:用戶開啟隱私模式后,代碼絕不會被它或第三方用於訓練;只有關閉隱私模式,它才可能用代碼庫數據、提示詞、編輯行為、代碼片段,來改進AI功能、訓練模型。

Cursor的Tab模型每天產出超過10億個編輯字元,請求量比初版漲了約100倍。更進一步的Composer,通過強化學習(RL)訓練,讓模型在大量代碼任務環境中學習調用編輯、搜索等工具,處理更長周期的工程任務。

到最新的Composer 2.5,乾脆主攻需要數百步操作的長周期任務。

馬斯克採用的是資本綁定/收購期權的方式。

今年2月,xAI併入SpaceX。4月底,SpaceX拿下了年內以600億美元收購Cursor母公司Anysphere的權利,或者先付100億美元做深度合作。馬斯克看中的正是Cursor手裡那份全球最活躍的真實開發者行為數據。

5月25日,馬斯克在X上宣布,新一代基礎模型Grok V9-Medium訓練完成,參數1.5T,是當前生產模型的3倍。他特意點出,這還是沒加Cursor數據補訓之前的成績,加完「編程能力會強很多」,模型預計6月中旬發布。

這樣一來,V9會是第一個系統性地「吃過」真實開發者行為數據的Grok。

OpenAI後來的Codex也走上了這條路。2025年發布的Codex由codex-1驅動,OpenAI稱其是在真實編碼任務上通過強化學習訓練的,目標是寫出貼近人類風格、符合PR習慣的代碼,還能反覆跑測試直到通過;每個任務跑在預裝了你代碼庫的隔離沙箱里。

如今Codex已升級為OpenAI的agentic coding平台,由其前沿編碼模型驅動;據Axios報道,每周用戶已超過500萬。

他們爭奪的,其實是同一種東西:過程數據,只是路徑各不相同。

Anthropic先有模型,缺真實開發現場的反饋,就花錢請約1000名工程師,把軟體工程過程拆成可學習的數據;

Cursor先有產品和真實用戶行為,也有自研的Tab、Composer等編程模型。但相比OpenAI、Anthropic,它更缺的是通用基礎模型底座和大規模訓練算力;

馬斯克缺的也是數據,乾脆試圖用幾百億美元去買一個持續產生開發者行為數據的產品入口;

OpenAI模型、產品兩頭都不缺,於是自己搭沙箱,讓模型在真實編碼任務里通過強化學習一遍遍試錯、測試、修正、迭代。

幾家打法不同,殊途同歸,都在用越來越接近真實工程現場的數據,來訓練自己的AI編程模型。

真正的護城河

是人的品味和判斷

有一篇叫SWE-chat的論文,第一次大規模採集了真實的智能體編碼會話:6000段、超過6.3萬條用戶prompt、35.5萬次工具調用。

它得出一個扎心的數字:智能體產出的代碼,只有44%最終進入了用戶的提交里。有一半多的命運被人刪了、改了、推翻了。

SWE-chat實測:vibe coding已佔41%的會話,但智能體寫的代碼只有44%最終進入提交;用戶在44%的交互輪次里通過糾正、報錯或中斷來反推模型輸出。

這說明,HumanEval那類老的基準測試(benchmark)已經刷到飽和,光看跑分意義不大了。真正的戰場,是真實開發過程里那些反覆、試錯、推翻重來的數據。

模型越強,越要花錢去買人類還沒被替代的那部分東西:工程直覺。

Anthropic花280美元一個任務,請來約1000名工程師做A/B投票:這套看上去笨重的活兒,買的正是這一點。

誰能把工程現場變成模型能消化的數據,誰就握住了進入AI編程下一程的入場券。

*以上內容系網友Max說自行轉載自新智元,該文僅代表原作者觀點和態度。yeeyi號系信息發布平台,僅提供信息存儲空間服務,不代表贊同其觀點和對其真實性負責。如果對文章或圖片/視頻版權有異議,請郵件至我們反饋,平台將會及時處理。

喜歡、支持,請轉發分享↓
贊助商鏈接
標籤: 澳洲