一句话
RT-2 把机器人动作表示成类似语言的 token,让经过网页级视觉语言预训练的模型把语义知识迁移到物理控制。
解决什么问题
机器人最大的问题之一是数据少。网页上有海量语言和视觉语言知识,但机器人轨迹昂贵、稀缺,还绑定具体硬件。真实机器人经常遇到训练演示里没有的新物体、新指令、新场景关系。RT-2 问的是:一个在网页级视觉语言数据上训练过的模型,能不能在微调成机器人控制器之后,保留那些语义知识并用来行动。
核心方法
论文把先进视觉语言模型同时在机器人轨迹数据和互联网规模视觉语言任务上联合微调。关键技巧很简单但影响很大:把机器人动作也表示成文本 token。这样同一个模型格式既能输出自然语言回答,也能输出低层机器人动作,形成真正的视觉-语言-动作模型,而不是把语言规划器和控制器硬拼在一起。
关键结果
RT-2 在训练数据没有直接覆盖的指令和物体概念上有更好的泛化。模型能利用从网页预训练学到的类别、语义关系和简单推理,同时为真实机器人生成动作。它的重要性在于把 VLA 从一个模糊概念变成了具体可操作的模型类别和训练配方。
为什么重要
通用机器人不可能只靠在每个厨房、仓库、实验室继续收集演示来解决泛化。RT-2 指向一条更可扩展的路线:用广泛网页知识理解世界,再用机器人数据把理解绑定到动作。它也影响了后续很多机器人工作,让大家开始把动作、语言和感知看成同一个序列建模问题。
局限与存疑
RT-2 并没有消除机器人数据需求,它的成功仍取决于微调数据覆盖了多少实体、场景和动作空间。把动作 token 化很优雅,但物理控制还需要精度、反馈、安全和出错恢复。更难的问题是,当任务涉及复杂接触操作或长时程规划时,网页语义到底能把机器人带多远。
一句话:RT-2 让 VLA 从概念图变成了训练配方。