主题

视觉-语言-动作

把感知与语言直接映射到机器人动作的模型。

视觉-语言-动作模型试图让机器人利用语言和视觉模型已经学到的语义世界。目标不只是识别物体或理解指令，而是输出能在真实硬件上工作的连续动作或离散动作 token。

这个主题还早，但战略价值很高。RT-2 展示了如何通过类语言动作表示，把网页规模视觉语言知识迁移到机器人控制。π0 则用连续动作上的 flow matching 推向更通用的机器人策略。真正难点在数据采集、安全、具身迁移、延迟，以及单一策略能否适应真实机器人硬件差异。

从这里开始

一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。

RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。

RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。

一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。

一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。

RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。

一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。

RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。