RoboChallenge测评：π0、π0.5领先，自变量WALL-OSS-Flow零成功率引关注

2026-03-01 新闻

在具身智能竞速加速升温的当下，真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日，“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到，π0、π0.5 在成功率上遥遥领先其他开源模型。自变量机器人（X Square Robot）的大模型wall-oss-flow虽然在多次企业自我宣传中提到，“基本上和PI、和google在同一个水平线上”，但是在多个任务上成功率偏低。根据公开的测评记录，其在31次测试中大部分成功率为零，这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge是全球首个具身智能的大规模真机评测平台，也是目前行业内最受关注的真实物理机器人评测平台，由Dexmal原力灵机联合Hugging Face发布，被视作“机器人界的硬核基准”。其最大特点是真机真测：评测同时接入UR5、Franka、Aloha 双臂系统以及国产ARX-5 四类主流机器人，统一软件栈并配备多台RGB-D深度相机，以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务，包括叠抹布、整理果篮、插花、开关水龙头等，难度从基础操作递进到长链条组合动作。

据了解，RoboChallenge 之所以被认为更加客观，是因为其采用了 “任务成功率进度评分”的双指标体系。前者统计任务是否完整成功，后者将任务拆解为多个关键阶段并按推进程度累计分值，即便任务未完成也能反映模型做到哪一步，为能力评估提供更细粒度的信息。

在该评测体系中，多款主流开源模型已完成测试。“具身进化论”对比发现，基于Physical Intelligence （Pi）系列构建的π0和π0.5是官方重点基线，它们在成功率与进度得分上整体领先其他开源模型，特别是π0.5，显示出更成熟的任务执行能力。