视觉-语言-动作 · Physical Intelligence
π0:一个会叠衣服、能开七种机器人的模型
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
主题
把感知与语言直接映射到机器人动作的模型。
视觉-语言-动作模型试图让机器人利用语言和视觉模型已经学到的语义世界。目标不只是识别物体或理解指令,而是输出能在真实硬件上工作的连续动作或离散动作 token。
这个主题还早,但战略价值很高。RT-2 展示了如何通过类语言动作表示,把网页规模视觉语言知识迁移到机器人控制。π0 则用连续动作上的 flow matching 推向更通用的机器人策略。真正难点在数据采集、安全、具身迁移、延迟,以及单一策略能否适应真实机器人硬件差异。
视觉-语言-动作 · Physical Intelligence
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。
RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。
视觉-语言-动作 · Physical Intelligence
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
视觉-语言-动作 · Physical Intelligence
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。
视觉-语言-动作 · Physical Intelligence
一个统一的视觉-语言-动作模型,用七种机器人平台的数据训练,能按自然语言指令完成叠衣服这类灵巧的日常任务。
RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。