具身智能综述
具身感知、具身交互、具身代理以及模拟到现实的适应
综述调研了近 400 篇文献,从多个维度对具身智能的研究进行了全面解析,聚焦于多模态大模型(MLMs)时代下具身人工智能(Embodied AI)领域。探讨了Embodied AI在实现人工通用智能(AGI)中的重要性和作为连接网络空间与物理世界的基础技术的角色。特别地,随着多模态大模型和世界模型(WMs)的出现,这些架构因其出色的感知、交互和推理能力而被视作具身代理的“大脑”。首先回顾了具身机器人和模拟器的代表工作,分析了其研究重点和局限性;随后,详细讨论了四个主要研究领域:具身感知、具身交互、具身代理以及模拟到现实的适应。此外,文中还探索了多模态大模型在虚拟和实体具身代理中的应用,并强调了它们对于实现在动态数字和物理环境中的交互的重要性。最后,文章总结了具身AI所面临的挑战和局限,并指出了未来的发展方向。这项研究为具身AI领域的学者提供了重要的参考,并鼓励更多的创新。

论文地址: https://arxiv.org/pdf/2407.06886
具身智能 Paper List: https://github.com/HCPLab-SYSU/Embodied_AI_Paper_List
嵌入式人工智能(嵌入式AI)对于实现人工通用智能(AGI)至关重要,也是连接网络空间和物理世界的各种应用的基础。近年来,多模态大模型(MLMs)和世界模型(WMs)的出现因其显著的感知、交互作用和合理的能力而引起了广泛的关注,使其成为具身主体的一个很有前途的架构。然而,在mlm时代,目前还没有对体现式人工智能的全面调查。在此调查中,我们对嵌入的最新进展进行了深入的探索。我们的分析首先通过了具身机器人和模拟器的代表性工作的前沿,以充分了解研究的重点及其局限性。然后,我们分析了四个主要的研究目标: 1)具身感知、2)具身交互、3)具身主体、4)模拟到真实的适应,涵盖了最先进的方法、本质范式和全面的数据集。此外,我们还探讨了虚拟和真实浮雕体中的复杂性,提高了它们的标志缺乏促进在动态数字和物理环境中的互动。最后,我们总结了具身人工智能所面临的挑战和局限性,并讨论了其潜在的未来发展方向。我们希望本次调查能为研究界提供基础参考,并激励持续的创新。
1. 具身智能的前世今生
人工智能最初是由艾伦·图灵在1950年[1]的图灵测试提出的,它旨在确定代理是否能够显示而不局限于解决抽象问题的智能,还能应对物理世界的复杂性和不可预测性。因此,具身智能的发展被视为一条实现通用人工智能的基本途径。深入探讨具身智能的复杂性、评估其当前的发展现状并思考其未来的发展轨迹显得尤为重要。如今,具身智能涵盖了计算机视觉、自然语言处理和机器人技术等多个关键技术,其中最具代表性的是具身感知、具身交互、具身智能体和虚拟到现实的迁移。在具身任务中,具身智能体必须充分理解语言指令中的人类意图,积极主动探索周围环境,全面感知来自虚拟和物理环境的多模态元素,并执行适当的操作以完成复杂任务。多模态模型的快速进展展示了在复杂环境中相较于传统深度强化学习方法更强的多样性、灵活性和泛化能力。最先进的视觉编码器预训练的视觉表示提供了对物体类别、姿态和几何形状的精确估计,使具身模型能够全面感知复杂和动态的环境。强大的大语言模型使机器人更好地理解人类的语言指令并为具身机器人对齐视觉和语言表示提供了可行的方法。世界模型展示了显著的模拟能力和对物理定律的良好理解,使具身模型能够全面理解物理和真实环境。这些进展使具身智能体能够全面感知复杂环境,自然地与人类互动,并可靠地执行任务。下图展示了具身智能体的典型架构。

具身智能体框架
在本综述中,我们对具身智能的当前进展进行了全面概述,包括:(1)具身机器人—— 具身智能在物理世界中的硬件方案;(2)具身仿真平台—— 高效且安全地训练具身智能体的数字空间;(3)具身感知—— 主动感知 3D 空间并综合多种感官模态;(4)具身交互—— 有效合理地与环境进行交互甚至改变环境以完成指定任务;(5)具身智能体—— 利用多模态大模型理解抽象指令并将其拆分为一系列子任务再逐步完成;(6)虚拟到现实的迁移—— 将数字空间中学习到的技能迁移泛化到物理世界中。下图展示了具身智能从数字空间到物理世界所涵盖的体系框架。本综述旨在提供具身智能的全面背景知识、研究趋势和技术见解。

本综述整体架构
2. 具身机器人
具身智能体积极与物理环境互动,涵盖了广泛的具身形态,包括机器人、智能家电、智能眼镜和自动驾驶车辆等。其中,机器人作为最突出的具身形态之一,备受关注。根据不同的应用场景,机器人被设计成各种形式,以充分利用其硬件特性来完成特定任务。如下图所示,具身机器人一般可分为:(1)固定基座型机器人,如Franka机械臂,常应用在实验室自动化合成、教育、工业等领域中;(2)轮式机器人,因高效的机动性而闻名,广泛应用于物流、仓储和安全检查;(3)履带机器人,具有强大的越野能力和机动性,在农业、建筑和灾难场景的应对方面显示出潜力;(4)四足机器人,以其稳定性和适应性而闻名,非常适合复杂地形的探测、救援任务和军事应用。(5)人形机器人,以其灵巧手为关键,在服务业、医疗保健和协作环境等领域广泛应用。(6)仿生机器人,通过模拟自然生物的有效运动和功能,在复杂和动态的环境中执行任务。

不同形态的具身机器人
3. 具身智能仿真平台
具身智能仿真平台对于具身智能至关重要,因为它们提供了成本效益高的实验手段,能够通过模拟潜在的危险场景来确保安全,具有在多样环境中进行测试的可扩展性,具备快速原型设计能力,能够为更广泛的研究群体提供便利,提供用于精确研究的可控环境,生成用于训练和评估的数据,并提供算法比较的标准化基准。为了使智能体能够与环境互动,必须构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其相互作用。如下图所示,本综述将对两种仿真平台进行分析:基于底层仿真的通用平台和基于真实场景的仿真平台。

通用仿真平台

基于真实场景的仿真平台
4. 具身感知
未来视觉感知的 “北极星” 是以具身为中心的视觉推理和社会智能。如下图所示,不同于仅仅识别图像中的物体,具有具身感知能力的智能体必须在物理世界中移动并与环境互动,这需要对三维空间和动态环境有更透彻的理解。具身感知需要具备视觉感知和推理能力,理解场景中的三维关系,并基于视觉信息预测和执行复杂任务。该综述从主动视觉感知、3D 视觉定位、视觉语言导航、非视觉感知(触觉传感器)等方面进行介绍。

主动视觉感知框架
5. 具身交互
具身交互指的是智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答和具身抓取。如下图所示,在具身问答任务中,智能体需要从第一人称视角探索环境,以收集回答问题所需的信息。具有自主探索和决策能力的智能体不仅要考虑采取哪些行动来探索环境,还需决定何时停止探索以回答问题,如下图所示。

具身问答框架
除了与人类进行问答交互外,具身交互还涉及基于人类指令执行操作,例如抓取和放置物体,从而完成智能体、人类和物体之间的交互。如图所示,具身抓取需要全面的语义理解、场景感知、决策和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大型模型(如大语言模型和视觉语言基础模型)相结合,使智能体能够在多感官感知下执行抓取任务,包括视觉主动感知、语言理解和推理。

语言引导的交互式抓取框架
6. 具身智能体
智能体被定义为能够感知环境并采取行动以实现特定目标的自主实体。多模态大模型的最新进展进一步扩大了智能体在实际场景中的应用。当这些基于多模态大模型的智能体被具身化为物理实体时,它们能够有效地将其能力从虚拟空间转移到物理世界,从而成为具身智能体。为了使具身智能体在信息丰富且复杂的现实世界中运行,它们已经被开发出强大的多模态感知、交互和规划能力。如下图所示,为了完成任务,具身智能体通常涉及以下过程:
(1)将抽象而复杂的任务分解为具体的子任务,即高层次的具身任务规划。(2)通过有效利用具身感知和具身交互模型,或利用基础模型的策略功能,逐步实施这些子任务,这被称为低层次的具身行动规划。
值得注意的是,任务规划涉及在行动前进行思考,因此通常在数字空间中考虑。相比之下,行动规划必须考虑与环境的有效互动,并将这些信息反馈给任务规划器以调整任务规划。因此,对于具身智能体来说,将其能力从数字空间对齐并推广到物理世界至关重要。

基于多模态大模型的具身智能体框架
7. 虚拟到现实的迁移
具身智能中的虚拟到现实的迁移(Sim-to-Real adaptation)指的是将模拟环境(数字空间)中学习到的能力或行为转移到现实世界(物理世界)中的过程。该过程包括验证和改进在仿真中开发的算法、模型和控制策略的有效性,以确保它们在物理环境中表现得稳定可靠。为了实现仿真到现实的适应,具身世界模型、数据收集与训练方法以及具身控制算法是三个关键要素,下图展示了五种不同的 Sim-to-Real 范式。

五种虚拟到现实的迁移方案
8. 挑战与未来发展方向
尽管具身智能发展迅速,但它面临着一些挑战,并呈现出令人兴奋的未来方向:
(1)高质量机器人数据集。获取足够的真实世界机器人数据仍然是一个重大挑战。收集这些数据既耗时又耗费资源。单纯依靠模拟数据会加剧仿真到现实的差距问题。创建多样化的真实世界机器人数据集需要各个机构之间紧密且广泛的合作。此外,开发更真实和高效的模拟器对于提高模拟数据的质量至关重要。为了构建能够在机器人领域实现跨场景和跨任务应用的通用具身模型,必须构建大规模数据集,利用高质量的模拟环境数据来辅助真实世界的数据。
(2)人类示范数据的有效利用。高效利用人类演示数据包括利用人类展示的动作和行为来训练和改进机器人系统。这个过程包括收集、处理和从大规模、高质量的数据集中学习,其中人类执行机器人需要学习的任务。因此,重要的是有效利用大量非结构化、多标签和多模态的人类演示数据结合动作标签数据来训练具身模型,使其能够在相对较短的时间内学习各种任务。通过高效利用人类演示数据,机器人系统可以实现更高水平的性能和适应性,使其更能在动态环境中执行复杂任务。
(3)复杂环境认知。复杂环境认知是指具身智能体在物理或虚拟环境中感知、理解和导航复杂现实世界环境的能力。对于非结构化的开放环境,目前的工作通常依赖预训练的 LLM 的任务分解机制,利用广泛的常识知识进行简单任务规划,但缺乏具体场景理解。增强知识转移和在复杂环境中的泛化能力是至关重要的。一个真正多功能的机器人系统应该能够理解并执行自然语言指令,跨越各种不同和未见过的场景。这需要开发适应性强且可扩展的具身智能体架构。
(4)长程任务执行。执行单个指令通常涉及机器人执行长程任务,例如 “打扫厨房” 这样的命令,包含重新排列物品、扫地、擦桌子等活动。成功完成这些任务需要机器人能够规划并执行一系列低级别动作,且持续较长时间。尽管当前的高级任务规划器已显示出初步的成功,但由于缺乏对具身任务的调整,它们在多样化场景中往往显得不足。解决这一挑战需要开发具备强大感知能力和大量常识知识的高效规划器。
(5)因果关系发现。现有的数据驱动的具身智能体基于数据内部的相关性做出决策。然而,这种建模方法无法使模型真正理解知识、行为和环境之间的因果关系,导致策略存在偏差。这使得它们难以在现实世界环境中以可解释、稳健和可靠的方式运行。因此,具身智能体需要以世界知识为驱动,具备自主的因果推理能力。
(6)持续学习。在机器人应用中,持续学习对于在多样化环境中部署机器人学习策略至关重要,但这一领域仍未被充分探索。虽然一些最新研究已经探讨了持续学习的子主题,如增量学习、快速运动适应和人机互动学习,但这些解决方案通常针对单一任务或平台设计,尚未考虑基础模型。开放的研究问题和可行的方法包括:1) 在最新数据上进行微调时混合不同比例的先前数据分布,以缓解灾难性遗忘,2) 从先前分布或课程中开发有效的原型,用于新任务的推理学习,3) 提高在线学习算法的训练稳定性和样本效率,4) 确定将大容量模型无缝集成到控制框架中的原则性方法,可能通过分层学习或慢 - 快控制,实现实时推理。
(7)统一评估基准。尽管有许多基准用于评估低级控制策略,但它们在评估技能方面常常存在显著差异。此外,这些基准中包含的物体和场景通常受到模拟器限制。为了全面评估具身模型,需要使用逼真的模拟器涵盖多种技能的基准。在高级任务规划方面,许多基准通过问答任务评估规划能力。然而,更理想的方法是综合评估高级任务规划器和低级控制策略的执行能力,特别是在执行长时间任务和衡量成功率方面,而不仅仅依赖于对规划器的单独评估。这种综合方法能够更全面地评估具身智能系统的能力。
总之,具身智能使智能体能够感知、认知并与数字空间和物理世界中的各种物体互动,显示了其在实现通用人工智能方面的重要意义。本综述全面回顾了具身机器人、具身仿真平台、具身感知、具身交互、具身智能体、虚拟到现实的机器人控制以及未来的研究方向,这对沿着促进具身智能的发展具有重要意义。
————全文完————
关于Franka机器人 Franka Robotics
Franka机器人原名Franka Emika,思灵机器人收购后更名为Franka Robotics,总部位于慕尼黑,陆续推出了Franka Panda,FR3等机器人产品。PNP机器人是思灵机器人和Franka机器人中国官方渠道伙伴,关注PNP机器人关注Franka.
推荐参考:Franka机器人中国业务全新启航——Franka机器人的10个基本问题,一文掌握归来的力控机器人最新产品和趋势
Franka机器人在具身智能方向展现了强大的技术优势。其七轴力控系统极大提升了机器人与环境的交互能力,使其在复杂场景下表现出类人般的精细动作和柔顺性,完美适应动态和未知环境。Franka还为开发者提供了FCI接口,可实时控制每个关节,实现高精度定制开发,支持各种先进的人工智能算法与具身智能的研究需求。
推荐参考:应用场景:Franka机器人9大应用场景——反应出的七轴力控机器人哪些技术维度?
作为世界知名大学的通用型科研平台,Franka机器人在哈佛、斯坦福等顶尖学府广泛应用,成为前沿研究的首选工具。许多最新的科研突破,尤其是在机器人感知、学习和动作控制领域,都是通过Franka机器人进行验证,展现了其在具身智能研究中的无可替代性。
推荐参考:斯坦福大学李飞飞携Franka机器人创业空间智能提ReKep
六轴机器人和七轴机器人在设计、功能和应用场景上存在明显区别。为什么六轴机器人当前仍然是工业应用主流?七轴机器人的逐渐增长的市场需求在哪里?
推荐参考:未来七轴机器人会占据主流?深度解析具身智能方向当前六轴机器人和七轴机器人的区别,七轴力控机器人发展会加快吗?
关于集智联机器人PNP Robotics
集智联机器人, 英文名字:Plug & Play Robotics, 取义为“集中智慧互联,达到即插即用”,目标用先进的机器人技术实现机器人在各个行业的迅速使用。集智联机器人团队成员均来自于国内外机器人行业知名企业,具有较强的学术背景,服务过超过500家终端客户。
集智联机器人公司主要围绕协作机器人、机器人生态产品和移动复合机器人开展业务,致力于成为协作式机器人生态工具和移动复合机器人配合装备的龙头企业,目的为客户提供创新的机器人柔性解决方案,让客户充分体验真正的即插即用功能(Plug & Play)。
集智联机器人(PNP Robotics)在机器人行业有多年的专业性经验,致力于开发机器人Plug&Play即插即用产品,是德国Franka机器人和ABB机器人中国区域官方战略合作伙伴。
推荐参考:Franka机器人亮点回顾:推动人工智能技术革新与PNP机器人战略合作
集智联机器人(PNP Robotics)
江苏苏州吴江经济技术开发区云创路233号智慧产业园1号楼东5层

关注PNP机器人,更多前沿技术