具身智能综述:A Survey of Embodied Learning for Object-Centric Robotic Manipulation
具身智能入门框架,整理自A Survey of Embodied Learning for Object-Centric Robotic Manipulation[1][2],其余见参考资料。
具身智能研究模块可以分为以下几部分:感知、策略学习、操作。分别对应以下三章。
Embodied Perceptual Learning
机器人感知世界。
数据表示
- 图像
- 3D表示:深度特征(Depth-based),点云(Point cloud-based),TR(如基于Nerf)
- 触觉
位姿估计
- Instance-Level Object Pose Estimation (ILOPE):必须知道物体属于哪个类别以及它的3D模型(如CAD)
- Category-Level Object Pose Estimation (CLOPE):只需知道物体属于哪个类别,无需3D模型
- Novel Object Pose Estimation (NOPE):估计从未见过的新类别物体的姿态。
Affordance Learning(交互学习):即不仅要知道这个物体是什么,还要知道如何与它交互。比如一个瓶子我们可以开启它,一个包可以拎起来。
- 监督学习
- 从交互中学习
Embodied Policy Learning
机器人做出决策。
策略表征
- 显式策略
- 隐式策略:EBM
- Diffusion Policy
策略学习
- 强化学习(RL)。
- 模仿学习(IL)。包括三种主要方法:行为克隆 (BC) [165]、逆向强化学习 (IRL) [170] 和生成对抗模仿学习 (GAIL) [166]。BC 通过监督学习最大限度地减少专家行动与策略预测之间的均方误差来学习策略。IRL 以两阶段循环运行,先从演示中推断出奖励函数,然后使用 RL 技术进行策略优化。GAIL 是一种基于生成模型的方法,它依靠对抗性学习同时开发判别器和动作生成器,以区分专家的行动和策略产生的行动。IL的主要挑战在于数据收集和泛化能力。
分类如下表
Task | Type | Subfields & references |
---|---|---|
Policy Representation | Explicit Policy | Deterministic policy [118], Stochastic policy [119] |
Implicit Policy | EBMs [120], Implicit behavioral cloning [121], IDAC [122], EBIL [123] | |
Diffusion Policy | Diffusion Policy [124], Decision Diffuser [125], Diffusion-QL [126], HDP [127], UniDexFPM [128], BESO [129] | |
Incorporating language instructions: MDT [130], Lan-o3dp [131] | ||
Policy Learning | RL | ViSkill [132], RMA² [119], SAM-RL [133], Offline RL [134], [135], Demonstration-guided RL [136] |
Rewards function learning: Text2reward [137] and EUREKA [138] | ||
IL | DMPs [139], DAgger [140], SpawnNet [141], ACT [142] | |
Scaling up demonstration data: MimicGen [143], Bridge Data [144], Open X-embodiment [145] | ||
Learning from human videos: Vid2Robot [146], Ag2Manip [147], MPI [148] | ||
Equivariant models: NDFs [149], L-NDF [150], EDFs [151], EDGI [152], Diffusion-EDFs [153], SE(3)-DiffusionFields [154] | ||
Other Methods | Combination of RL & IL | UniDexGrasp [155], UniDexGrasp++ [156] |
LLM- or VLM-driven | VILA [157], Grounding-RL [158], OpenVLA [159], 3D-VLA [160] |
其中比较重要的,Diffusion Policy,ACT,VLA。
Embodied Task-Oriented Learning
机器人进行操作。
物体抓取:需要分析对象属性,如位置、形状、大小和材料,以制定抓取策略,确保在保持对象完整性的同时进行稳定控制。
-
分类:SOG: 单对象抓取;MOG:多对象抓取;NDM: 非灵巧作;DM:灵巧作;H2R:人对机器人。
-
SOG:开环抓取不准确,于是在研究闭环抓取的方法。主要有三类挑战性的问题。
- transparent object grasping,重点在如何应对透明材质的光学、摩擦特性。
- grasping in clutter,重点在研究如何避碰。此外,一些研究进一步探索了包括抓取和推动以重新定位周围物体的策略[193],这在目标物体被遮挡或无法直接接近时尤为重要。Language-conditioned grasping has emerged as a novel and promising research field, increasingly attracting attention for future exploration.
- dynamic object grasping。
-
H2R:旨在使机器人能够接收来自人类的物体。有研究通过了解人类的意图来提高 H2R 交接的成功率。
物体操作
- 分为non-dexterous manipulation 和 dexterous manipulation (灵巧手和非灵巧手)。
Challenges and Future Directions
Sim-to-Real Generalization
- 感觉这个是最难的一个,包括如何适应不同机器人本体。
Multimodal Embodied LLMs
- 目前的最大问题:机器人不够智能。就像invalid s(知乎)关于自动驾驶的言论,L3-L5其实是等价的,都是【机器需要知道哪些东西我处理不了】,然后交给人类。而这个与大模型幻觉息息相关。可能大模型幻觉是一个亟待解决的问题。
Human-Robot Collaboration
Model Compression and Robot Acceleration
Model Interpretability and Application Safety
Highlights
PointNet:3D表征。
Diffusion Policy:Diffusion策略表示。
- 为什么Diffusion可以学习多模态特征?
Text2reward,ACT,Vid2Robot:策略学习(RL/IL)
OpenVLA:策略学习(其它方法)
附:RHOS实验室工作
Yonglu Li老师的讲座[3],深有启发,大致可以归类进上述框架。
前言:是否可以用CV和NLP的套路做Robotics呢?不太可行,维度太高,数据远远不够。
具身主要是指机器人站在第一视角,主动观察、理解与交互,形成自己的世界模型。分为Know-What,Know-How到Practice。
在Know-What方面,考虑到人类行为的复杂性和结构性,做了Pangea 树形语料库,将人类行为按树的形式组织起来,然后将多模态数据和这棵树的节点进行映射。既可以明确哪里缺失,又大大提升了认知效果。
- 树的表示用了双曲空间,以及如何映射,可以细看论文。
在Know-How(类似Affordance Learning)方面,考虑到交互的复杂性(比如涉及到物理属性),提出OCL,Object Concept Learning,并使用因果推理进行解决。也建立了因果数据集(分为Category-Level和Instance-Level,比如苹果这一类都可以吃,但我手里拿的苹果坏了,不能吃)。训练过程:比如让AI看一个草莓,AI认为可以吃,再逐渐让它腐化,并告诉AI不能吃的概率逐渐上升。认为AI学到了因果。
- Counterfactual特性:改变过去的变量,再让事情发生一遍。在现实世界做不到,而在机器人中可以,这个有利于我们做更深层的因果推理。
- 挑战:如何平衡数据集scale和干净程度;如何让机器从数据集中自发挖掘因果关系。
- 训练的细节参考论文。
在Practice方面,提出Human-Robot Joint Learning。
- 挑战:算法如何适应不同的本体;Sim2Real(究竟要多真才算真?)