主题

视觉-语言-动作

把感知与语言直接映射到机器人动作的模型。

实验室环境中的机器人

视觉-语言-动作模型试图让机器人利用语言和视觉模型已经学到的语义世界。目标不只是识别物体或理解指令,而是输出能在真实硬件上工作的连续动作或离散动作 token。

这个主题还早,但战略价值很高。RT-2 展示了如何通过类语言动作表示,把网页规模视觉语言知识迁移到机器人控制。π0 则用连续动作上的 flow matching 推向更通用的机器人策略。真正难点在数据采集、安全、具身迁移、延迟,以及单一策略能否适应真实机器人硬件差异。

从这里开始

奠基论文

近期解读