具身智能新势力:美团外卖前负责人入局与多模态导航的厘米级革命

具身智能新势力:美团外卖前负责人入局与多模态导航的厘米级革命

一个外卖大佬为什么去做机器人

王莆中这个名字,在互联网圈不算陌生。作为美团外卖的前负责人,他带领团队做到行业第一,在一线城市的高峰时段每秒处理数万条订单的调度。然后他转身去做了具身智能机器人,这条消息在行业内引发了不小的讨论。

很多人不理解:外卖和机器人有什么关系?一个管人的为什么去做机器?

关系大了。外卖配送的核心是什么?是在复杂的城市环境中,实时规划路线、躲避障碍物、精准送达。骑手要在川流不息的车流中找到准确的门牌号,要判断哪条小路能抄近道,要实时响应商家出餐延迟和顾客临时修改地址——这些核心能力,本质上和机器人在物理世界中自主运行是一模一样的问题。只不过以前是人骑着电动车在做这些事,现在王莆中想用AI和机器人系统来做。

他创立的元节智能,瞄准的是具身智能的核心难题之一——导航。更准确地说,是在复杂、动态、不可预测的非结构化环境中实现高精度自主导航。这与外卖骑手每天面对的挑战在结构上高度同构。


具身智能到底是什么

简单说,就是让AI有"身体"。

以前的AI是"纯软件"——你给它文字,它给你文字;你给它图片,它给你标签。整个输入输出闭环都在数字世界里打转。具身智能不一样,它需要AI能感知物理世界、做出决策、然后驱动身体去执行。这意味着整个AI系统的架构要发生根本性的变化:感知层需要接传感器数据(摄像头、雷达、力矩传感器、温湿度传感器……),决策层需要把感知结果转化为具体的动作序列,执行层需要精确控制电机、液压或气动元件来完成这些动作。

这听起来简单,做起来极难。因为物理世界比数字世界复杂太多了。光线在变、地面不平、有人突然走过来、门被风吹关上了、一杯水被打翻了——这些在软件里不存在的问题,在物理世界里全是挑战。你在Web后端写一个API,返回错误了重试就行;但机器人执行一个"抓取杯子"的动作失败了,可能杯子已经碎了一地,没有"重试"的机会。

所以具身智能的核心技术之一,就是导航:让机器人在复杂环境中知道自己在哪里、周围有什么、该怎么走。


厘米级导航意味着什么

传统的机器人导航,误差在10-20厘米左右。这个精度在工厂里够用了,因为环境是固定的——地面贴了二维码,障碍物位置已知,所有参数都提前标定过。但放到真实的家庭、办公室、商场里就不够了。你家里摆放着各种桌椅板凳,宠物在地板上乱跑,小孩把玩具丢得到处都是——任何一个固定的导航精度在动态环境下都不够用。

元节智能做的事情,是把导航精度提升到厘米级别。怎么做的?不是靠单一传感器,而是把摄像头、激光雷达、IMU(惯性测量单元)、轮速计的数据融合在一起,用多模态AI模型来实时理解和判断。摄像头负责语义识别("这是门、那是墙、前面走过来一个人"),激光雷达负责精确测距,IMU负责感知自身运动状态,轮速计提供实际位移数据。这些数据在毫秒级时间窗口内被融合进一个统一的预测框架中。

打个比方:传统导航像是只看GPS地图开车,厘米级导航像是你坐在车里,眼睛看路、耳朵听周围声音、身体感受车的震动,综合判断该怎么开。你甚至能感觉到车轮压过了一个小石子,然后微调方向盘——这种精细的多模态感知和实时反应,就是厘米级导航追求的效果。

这个技术如果真的能稳定做到,意义很大。仓储物流机器人可以更精准地拣货并将货品放进指定框位,家庭服务机器人可以更安全地在家里的各种环境中移动而不会磕碰家具或惊吓宠物,巡检机器人可以在复杂的工业环境中自主避障作业。更重要的是,厘米级精度是许多精细化操作的前提——你不能让一个手伸出去抓杯子的人,连自己在哪个位置都搞不清。


这个赛道有多热

2025-2026年,具身智能可能是AI领域融资最火的方向之一。

Figure AI融了超过6亿美元,1X Technologies拿到了腾讯领投的融资。国内有傅利叶智能、优必选、小鹏旗下PX5等多家人形机器人公司拿到了大额融资。特斯拉的Optimus虽然没有实现马斯克最初承诺的量产时间表,但每一版迭代视频的传播量都在提升。小米的CyberOne则在探索消费级人形机器人的可能性。

但大部分公司的产品还停留在"演示视频"阶段。能稳定运行、真正解决实际问题的产品,少之又少。演示视频里的机器人通常只在固定场景、预设路线下运行,一旦环境稍有变化就容易失误。很多公司的Demo是在实验室里拍了十几个版本、挑了最好的一个放出来的,并不代表稳定复现的水平。

这个行业目前的状态,有点像2015年的自动驾驶——技术方向是对的,各路人才和资本都在涌入,但离大规模商用还有不短的距离。上次自动驾驶从热潮到冷静花了大约七年时间,具身智能可能不需要那么久,但期望两三年就能在每家每户看到人形机器人,显然不现实。


最大的挑战在哪

硬件成本。一台人形机器人的硬件成本目前还在几十万到上百万的量级。减速器、力矩传感器、精密电机这些核心零部件的产能和成本还没有降到消费级水平。降本是一个漫长的过程,类比电动车电池从两万元一度电降到一千元一度电极的历程,机器人核心零部件可能需要类似的时间。

泛化能力。在实验室里表现很好的机器人,放到一个没见过的环境中可能就抓瞎了。桌面上多了一个没见过的物品、灯光换了一个色温、地板材质从木地板变成瓷砖,都可能让整个导航算法的鲁棒性瞬时崩溃。让机器人像人一样"举一反三",在看到过十种杯子之后能自动对付第十一种形状不同的杯子,是目前AI还没解决的难题。

安全性。机器人在物理世界中运动,一旦出错可能伤人。一个几公斤重的机械臂以每秒一米的速度挥动,相当于一个成年人全力挥拳。安全冗余的设计非常重要——既要有软件层面的力矩限制和速度限制,也要有硬件层面的物理缓冲和紧急停止按钮——但也增加了系统的复杂度。

数据。训练AI模型需要大量高质量数据,但机器人数据的采集比互联网数据难得多。你不能像爬取网页一样批量获取"机器人如何在厨房里倒水"的数据。每条数据都需要一个真实或仿真的机器人执行一次真实操作才能获得。目前行业正在通过仿真环境和数据采集工厂加速这一问题,但整体数据量仍然远低于训练一个成熟AI模型所需的量级。


我的看法

具身智能是AI的下一个大方向,这一点我毫不怀疑。但它的爆发时间点可能比很多人预期的要晚。

王莆中入局这个赛道,至少说明了一件事:中国互联网行业的顶尖人才,开始从"虚拟世界"转向"物理世界"了。这个趋势本身就很值得关注。过去二十年,中国互联网几乎全部的创新都发生在信息流、交易流、资金流的数字化上。未来二十年,AI与物理世界的深度融合可能成为更大的创新浪潮。

对于普通投资者和从业者,我的建议是:关注这个方向,但别被演示视频忽悠。真正要看的是:有没有实际的客户在用?有没有可量化的效率提升?有没有可持续的商业模式?一个能在工厂里稳定工作8小时的机器人,远比一个能后空翻的机器人更有商业价值。

技术很酷,但商业落地才是硬道理。具身智能赛道里,最终走出来的不一定是技术最炫的公司,而是最先找到"技术够用、价格合理、客户愿意买单"这个交叉点的公司。