要聞

實探京東機器人數(shù)采中心：寶媽、工人齊上陣他們擦桌、縫紉的日常，能幫京東AI闖進物理世界嗎？

2026-05-21 23:36:56

5月20日，京東宣布全國首個具身智能數(shù)據(jù)采集社區(qū)在宿遷運行，采集員多為社區(qū)居民，月收入3000元到3500元不等。除社區(qū)外，京東還設有零售商超、物流倉儲等場景的數(shù)據(jù)采集區(qū)域。多場景數(shù)據(jù)采集旨在提高模型泛化能力。當前具身智能賽道深陷“數(shù)據(jù)荒漠”，京東等已開始數(shù)據(jù)采集工作，誰積累足夠數(shù)據(jù)，誰就可能搶占未來主動權。

每經記者｜王郁彪每經編輯｜許紹航

5月的宿遷室外氣溫雖不算太高，但面積不大的制衣廠廠房內還是有些熱。工人們正趕著新一批的貨，她們中有幾個人頭戴相同的黑色設備，這是用來采集訓練具身智能模型數(shù)據(jù)的儀器。經過上傳、清洗、質檢、標注等流程后，合格的數(shù)據(jù)會輸入具身智能模型，讓模型更加理解真實的物理世界。

圖：工人頭戴數(shù)據(jù)采集設備工作，來源：每經記者王郁彪攝

今年年初，京東曾宣布，將發(fā)動內部超10萬名各類職業(yè)員工，以及外部最多50萬各行業(yè)人員，同時在宿遷發(fā)動超10萬市民，參與具身智能數(shù)據(jù)采集工作。希望在兩年內積累超1000萬小時人類真實場景視頻數(shù)據(jù)。5月20日，京東宣布全國首個具身智能數(shù)據(jù)采集社區(qū)已在宿遷運行。

對制衣廠的工人們來說，目前數(shù)據(jù)采集的工作相對輕松，還能獲得一定的收入。在宿遷，數(shù)采工作的主力軍還有寶媽等居家群體。其一日的任務量是完成6個小時數(shù)據(jù)的采集，他們將日常做家務的動作記錄下來，整體每月收入在3000元到3500元不等。

機器人真正想要走向產業(yè)化，用于負責感知、決策和執(zhí)行的“大腦”能力的突破是關鍵，這已是行業(yè)共識。然而“大腦”的訓練需要燒掉海量數(shù)據(jù)燃料。為了具身智能數(shù)據(jù)大廈的落成，有人已經開始在造“磚”了。

具身智能數(shù)采“進”社區(qū) 采集人員月收入3000元到3500元

具身數(shù)據(jù)采集社區(qū)位于宿遷市湖濱新區(qū)。從今年4月數(shù)據(jù)采集社區(qū)試運行以來，有不少社區(qū)居民報名參與?！睹咳战洕侣劇酚浾吡私獾剑杉瘑T經過專業(yè)技術人員培訓后，在日常家務過程中就能完成數(shù)據(jù)采集工作。

正常進行擦桌子、疊衣服、整理收納、地面清潔等勞動時，他們只需頭戴京東自研的JoyEgoCam采集終端即可獲取上肢軌跡、力度分布、人與家居環(huán)境的交互關系等關鍵參數(shù)。

通過可穿戴設備，普通人也可以在工廠、物流、零售、醫(yī)療以及家庭等環(huán)境中完成數(shù)據(jù)采集，從而降低數(shù)據(jù)采集門檻，拓展采集場景。這也是當下行業(yè)共同的解決方案。

一位居家采集人員告訴每經記者，數(shù)采機會配備內存卡，內存卡儲滿數(shù)據(jù)需要6個小時的采集工作。月收入在3000元到3500元，多勞多得。除數(shù)采人員外，衍生出來的還有數(shù)據(jù)標注師、模型訓練師等。

采集回來的數(shù)據(jù)需要經過上傳、清洗、質檢、標注、訓練、驗證等流程，最終成為“數(shù)據(jù)燃料”，輸入到具身智能模型中。

每經記者注意到，除社區(qū)外，京東具身智能數(shù)據(jù)采集中心內，還設有零售商超、物流倉儲等場景的數(shù)據(jù)采集區(qū)域，相對居家等場景，產線上的數(shù)據(jù)采集工作需要一定的專業(yè)度，需要操作更復雜的設備，更全面的記錄視覺、觸覺、空間軌跡等全維度數(shù)據(jù)。

圖：京東機器人數(shù)據(jù)采集中心，來源：每經記者王郁彪攝

京東具身智能數(shù)據(jù)采集負責人告訴每經記者，這些數(shù)據(jù)采集完成后，經過完整的數(shù)據(jù)清洗，形成可用的數(shù)據(jù)集，用來做模型預訓練。相關模型借助這些數(shù)據(jù)完成學習后，初步具備執(zhí)行各類任務的泛化能力。最后再把模型搭載到機器人本體后，機器人依靠模型推理能力，去執(zhí)行各類不同任務。

多場景數(shù)據(jù)采集目的在于提高模型的泛化能力

除社區(qū)居家場景外，每經記者還實地探訪了宿遷的康養(yǎng)中心、果園等。在養(yǎng)老院，采集員記錄協(xié)助老人起身、喂藥、康復訓練等照護動作，為服務機器人提供人類照護行為樣本。

果園內，每經記者了解到，其采集內容覆蓋果蔬采摘的手眼協(xié)調軌跡、農具握持與操作的力學數(shù)據(jù)、田間不規(guī)則地形下的行走與避障動作等，以適應農業(yè)作業(yè)的復雜環(huán)境等特征。

制衣廠的采集員則在縫紉、裁剪、質檢等工位作業(yè)，記錄手部精細操作、多工位流轉等數(shù)據(jù)，為工業(yè)柔性操作模型提供小樣本、高精度、可復用的訓練素材。

那么，具身智能模型的訓練究竟需要什么樣的數(shù)據(jù)？

具身智能公司帕西尼數(shù)采負責人對每經記者表示，數(shù)據(jù)收集需要多場景數(shù)據(jù)的支撐。多場景的數(shù)據(jù)收集、植入訓練的是模型的泛化能力。就是當你告訴機器人去做任務A、B、C的時候，它通過對A、B、C數(shù)據(jù)的學習，哪怕它之前沒有做過D任務，但是經過模擬訓練之后，D任務也能做。

“我們之前拿到了京東的視覺EGO數(shù)據(jù)集（EGO數(shù)據(jù)集是指多個以?第一人稱視角?為核心的視頻數(shù)據(jù)集集合）之后，配合我們（機器人）觸覺的數(shù)據(jù)收集，對人類的日常工作模塊進行了補齊。”他表示。

此外，對于具身智能數(shù)據(jù)采集，他認為最重要的有兩點，一是需要覆蓋到人類的感知層面，二是在數(shù)據(jù)收集時維持人類原本的意圖?！拔覀冊谑占臅r候不以收集為目標，而是記錄人類以當前意圖去完成這個任務時，他做出的所有動作。雖然我們看到的數(shù)據(jù)是動作，但實際上更深層次，需要訓練模型理解做這個任務時人類的行為和意圖?！彼M一步表示。

2年1000萬小時能解具身智能“數(shù)據(jù)饑渴”嗎？

覓蜂科技董事長兼CEO（首席執(zhí)行官）、智元機器人合伙人姚卯青此前公開表示，訓練類似ChatGPT-5級別的系統(tǒng)所需語料達百億小時量級，而具身智能可用數(shù)據(jù)僅在50萬小時量級，規(guī)模差距懸殊，還存在標準缺失、質量不一、供需錯配等問題。

圖：機器人訓練場景，來源：每經記者王郁彪攝

與大語言模型相比，具身智能的數(shù)據(jù)積累無疑還處于早期階段。每經記者此前也從京東方面了解到，其認為具身智能要達到真正可用，至少需要1000萬小時級別的真實場景交互數(shù)據(jù)。然而，當前行業(yè)數(shù)據(jù)規(guī)模僅約100萬小時，數(shù)據(jù)缺口高達10倍。

融資規(guī)模不斷被刷新，量產步伐全面提速，市場規(guī)模水漲船高，一年比一年熱鬧的具身智能賽道，卻深陷“數(shù)據(jù)荒漠”困境，這背后必然有很多不可控因素。如今，京東、智元等已經開始做具身智能數(shù)據(jù)的采集工作。數(shù)據(jù)采集完成后，這些數(shù)據(jù)如何真正融入機器人的“大腦”？

京東具身智能相關負責人告訴《每日經濟新聞》記者，底層硬件設備完成物理世界真實數(shù)據(jù)采集后，需要被送至“工具層”，可以理解為用一個“工具箱”進行數(shù)據(jù)處理、模型訓練以及仿真評測等。

“再往上就是模型層，也就是所謂的‘大腦’，包含VLA模型（視覺—語言—動作模型）、VLN模型（視覺—語言導航）、世界模型等核心能力。最頂層就是應用層，就是這些技術最終落地的場景，比如家政服務、物流配送、醫(yī)療輔助、零售服務、工業(yè)制造等?！痹撠撠熑送嘎?。

機器人如何在物流、家庭、工業(yè)等現(xiàn)實場景中真正“落地生根”并發(fā)揮作用？這仍是一個需要無數(shù)機器人整機企業(yè)、具身智能數(shù)據(jù)公司反復探索并傾注全部心血去解答的課題與過程。這場關于具身智能基礎設施的競賽沒有終點，誰先打通道路、積累足夠的數(shù)據(jù)“燃料”，誰就更有可能在機器人“大腦”時代的賽跑中，搶占未來十年的主動權。

封面圖片來源：每經記者王郁彪攝

如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

上一篇文章

以軍襲擊加沙多地至少4人死亡

返回每經網首頁

下一篇文章

歐洲主要股指收盤漲跌不一