ShoelessCai - CMU 具身智能风云榜：从传统到全面

CMU 具身智能风云榜：从传统到全面

- 2025 -
01/07
13:39

零号员工

发表时间：2025.01.07 作者：雷锋网来源：与非网阅读：246

作者 | 赖文昕，编辑 | 陈彩娴

他们成长于新与旧的碰撞，让机器人迈向了下一个台阶。

与位于宇宙中心硅谷湾区的伯克利、斯坦福不同，被视为锈带区复兴唯一希望的卡内基梅隆大学（以下简称“CMU”）坐落在上世纪的工业重镇匹兹堡。计算机科学学院的机器人研究所（以下简称“RI”）成立于1979年，是世界上第一个致力于机器人研究的大学级研究所。

这座机器人摇篮在 45 年间诞生了无数耀眼成就，但在如今技术更迭到由 AI 方向领衔、以仿真与强化学习算法方为“技术先进”之际，以传统机器人学见长的 CMU 能否跟上具身智能的热潮？答案毋庸置疑：有人加入了最前沿热门的企业，或在OpenAI研究机器人基础模型，或到特斯拉参与人形机器人Optimus 的研发；有人选择了创业，宾通智能、星猿哲、木牛、雅可比，涵盖工厂、物流、商超场景；有人走进了高校，在北大、中大、USCD 等大学继续具身智能的研究。

回到纽维尔·西蒙楼，一切才刚刚开始。

01 坚守「传统」Robotics

人形机器人控制算法的演进分为三个阶段：一是经典模型控制，如 LIPM+ZMP，以 ASIMO 为代表；二是高级模型控制，即如 MPC+WBC 的动态模型和最优控制算法，以 Atalas 为代表；三是仿真和强化学习的结合。前两者均基于模型（Model-Based），第三代则转为基于学习（Learning-Based）。

一般而言，“技术先进”指技术出现得更晚、更年轻。在这个概念上，由 CS、AI 人才主导的第三代算法可以说最为先进，基于模型的方法也逐渐被称为“传统机器人学”。但同时也有很多人认为，在现实的应用中，世界上只有一种先进的技术，那就是行得通的技术。

2017年正值学习萌芽之际，机器人顶会ICRA中约40%的论文都与之相关，对于是否转向，侯一凡与导师Matthew T. Mason有过一番对话：Mason问他是否考虑转向，侯一凡深思好久后回答，目前对机器人学习（Robot Learning）兴趣不大，自己关注的重点在解决操作，而非用学习解决操作——他不在乎方法或流派，只关注效果，哪种方法对解决问题最有效，就会尝试——当时学习的成本及效果上限都远不及基于模型。

回到2015年，侯一凡从清华自动化系毕业，来到CMU成为了刚卸任RI所长、机器人操作（Manipulation）先驱Matthew T. Mason的学生。二人的互选缘于12年进组的周佳骥：计划读博的侯一凡看到师兄周佳骥在知乎回答了不少CMU与机器人的问题，便主动私信探讨课题，就此结为好友。侯一凡觉得周佳骥做的研究很有意思，来到CMU后在周的介绍下和Mason见面也相谈甚欢，就进组开工了。

曾为清华火神队队长的侯一凡，2014年曾带队参加RoboCup，拿到了人形组AdultSize第三名，擅长运动控制和步态规划。在CMU深入探索机器人系统后，他逐渐领悟到，要让机器人变得实用，最大的瓶颈在于手部的操作能力，而非腿部的移动，便改变了研究重点。

侯一凡操作和移动在理论知识上有许多共通之处，尤其是在运动规划和轨迹优化方面，因此侯一凡起初打算将移动的思路应用于操作上。在第一个手内操作（In-hand Manipulation）的项目中，他试图将模型做得尽可能精确，花了半年时间研究摩擦力模型，以深入理解操作中的摩擦力。然而，两者在实际应用上差异显著。对人类来说简单的动作，想要精确建模却异常困难。

严格来说，摩擦力并没有完美的模型，许多操作的模型也是如此。过分追求模型的精确性，往往导致模型过于复杂，限制了分析和控制规划方法的应用，反而效果不佳。渐渐地，侯一凡形成了对操作的清晰思路：若需建模，应选择简单模型，并以此设计出鲁棒的控制和规划方法。模型简单则可利用强大的方法获得鲁棒的解决方案，再利用这些解决方案的鲁棒性去应对实际环境中的不确定性和复杂性，而非试图将所有复杂性和不确定性精确描述出来——这种偏向工程的思维，实际上非常有效。受Mason的影响，侯一凡对操作的取舍也很明确。灵巧手多年来未广泛应用并非因为技术难以实现，而是因为难以找到成本效益高的应用方法。

传统上，机器人主要用于工业，一旦确定了具体应用，通常能找到比灵巧手更适用的系统。因此在研究手内操作时，侯一凡决定简化手指的自由度，采用基本的两指结构，微调硬件以便于在各种姿态下进行操作。他广泛使用了“外部灵巧度”概念，即机器人通过与环境互动来弥补手部自由度的不足，如二指夹爪也能通过与地面的接触来竖立一本书。接着，侯一凡转向了更具通用性的3D物品重定向问题，专注于规划。但很快，他发现控制才是瓶颈——即使提供了精确的轨迹，当时的算法也很难执行动作，尤其是在多接触点操作中。操作通过接触传递力，每个接触都有其模式（Contact Mode），如粘着、滑动或脱离。即使是粘着接触，也分为点到面、边到面或边到边等多种类型，这些离散状态与运动的连续性形成鲜明对比。在操作中，接触模式的任何变化都可能导致环境约束和物体动力学的突变。如果控制器不能迅速适应这些变化，操作就会失败。

尽管一些机器人具有柔性控制，但往往只保证一般安全性，缺乏精细操作任务对机器人柔性的具体要求，难以在多接触任务中有效应对不确定性。简而言之，如果能稳健地执行接触模式，就能显著提高操控控制的稳定性。因此，侯一凡的博士研究分为三个步骤：首先，提出了量化接触模式鲁棒性的方法，通过精确计算接触点位置和姿态来评估系统在不同控制下的稳定性；其次，基于这种鲁棒性评估，优化柔性控制策略以增强操作的抗干扰性；最后，在量化鲁棒性并优化底层控制后，将控制度量纳入高级机器人规划中，寻找一条从始至终都极为鲁棒的轨迹。侯一凡发表的论文让机器人能够规划并稳定执行一系列接触模式变化复杂的动作，而非简单的抓取pick and place，这些动作能够在模型并不准确的情况下做到稳定多次重复，而以往这些动作即使完成一次都很困难。同行也传来了积极反馈，称这套方法不仅算法简单，而且效果显著。彼时，在CMU同样选择传统robotics的还有刚完成RoboMaster 2018总决赛的前大疆技术总监杨硕。

早在2016年底，一直想读博但工作繁忙的杨硕就申请过不需提交托福和GRE成绩的伯克利，并在次年初收到秋季入学的录取通知。因想先完成好手头的事，杨硕又推迟到2018年再入学。2017年，杨硕在大疆深入研究了深度神经网络和强化学习，既为了探索新领域的知识，也为了筹备2018年的RoboMaster AI挑战赛。在研究深度强化学习（DRL）时，杨硕常感到一种难以名状的挫败：算法难以稳定收敛，结果波动大，对参数极为敏感，稍有调整就可能导致截然不同的输出，且调整缺乏理论支持。尤其让杨硕不适的是，DRL忽视了机器人学的核心——能量转换和系统建模。

在机器人领域，电能和磁能转化为动能、力的传递产生运动，是一个复杂但可预测的系统。然而，在DRL中，这些原理被边缘化，调整参数或神经网络结构时，依据的竟并非牛顿运动定律。

杨硕3月，杨硕受邀到CMU RI介绍大疆的无人机技术和RoboMaster，然后又去伯克利参加了给博士生组织的校园开放日。两地的探访经历让杨硕意识到，自己在工业界的经验和编程技能，更适合以产学合作和大型项目执行能力强著称的CMU。而且，匹兹堡作为美国传统工业重镇，总让杨硕想起自己的家乡太原——两者都曾因煤炭和钢铁而繁荣，也都在国家发展新阶段中面临挑战。

种种因素影响下，杨硕在2018年来到了CMU，成为了Howie Choset的学生，研究主线是足式机器人的长距离定位，应用在四足和人形机器人上。读博的头两年里，杨硕机器人做得很好，却一直未能发论文：他先是在六足机器人Daisy上面做状态估计，优化了卡尔曼滤波器以更准确地估算机器人在空间中的行进距离；接着做了个两自由度的猴子机器人，并利用iLQR算法快速验证了不同构型机器人的性能，辅助进行了机器人参数的选择。“花了两年时间让六足机器人上楼梯，但做出楼梯上得好的机器人不是一个科学问题，解释清楚为什么能上楼梯才是。”杨硕意识到，自己是重新解决了一遍已被人解决过的问题，再用较强的工程能力提升机器人性能，呈现的结果虽好，却没有解决某个新的科学问题。茅塞顿开后，杨硕的第一篇论文推进的很顺利，和过去重工程的工作不同，这是个非常数学且具理论性的工作，从有了想法到完成，只用了短短两三个月。2020年8月，杨硕复现了几种带约束的LQR算法，意识到这类问题是领域内的挑战，并萌生了将约束LQR与SLAM中的图优化技术相结合的创新想法。他和SLAM图优化先驱 Frank Dellaert 及其学生合作，用因子图求解有约束的最优控制问题，并成功发表在ICRA 2021上。

2021年初，杨硕邀请RI新来的年轻教授Zachary Manchester做他的另一位导师。Zach最初从事航天研究，其博导曾任NASA首席科学家，后来Zach将航天和卫星控制中的数学和优化理论应用于机器人问题，取得了显著成效。在Zach的指导下，杨硕深入掌握了航天及机器人领域几十年基于模型的控制方法，还花了半年系统性地学习了机器人轨迹规划的各种知识，特别加深了对非线性优化、LQR和DDP的理解。至此，他把足式机器人的建模、状态估计、底层控制、轨迹规划每个环节都摸了一遍。“所谓的传统方法并不等同于过时，二者是平行的，只是侧重点不同，并无先进与否之分。”

同样是从大疆到CMU的邱迪聪告诉雷峰网，“CS的人更倾向于基于学习的方法，认为它能解决所有问题，但实际上并非如此。”回到2013年，在中山大学软件工程系读大三的邱迪聪就开始探索强化学习，并认为这是机器人技术中不可或缺的一环。作为非传统机器人领域出身且十分推崇强化学习的一员，邱迪聪却觉得，自己真正深入研究机器人始于CMU。2017年，他来到CMU读研，由“大白之父”Christopher Atkeson和场地机器人之父、自动驾驶先驱William（Red）Whittaker指导，研究多步优化决策和人形机器人的双臂灵巧操作。在实践中，邱迪聪发现RL存在时代的局限性，并不能立即广泛应用，应将强化学习与优化或基于模型的方法结合起来，以适应更复杂的决策和技能学习， “毕竟目前纯基于学习方法的机器人还没实现任何落地，而无论黑猫白猫，能抓到老鼠的就是好猫。”

02 进军 Learning

在学术研究是否转向数据驱动的学习方法的十字路口，CMU机器人研究所（RI）中也有学者选择了不同的道路。2017年夏，林星宇从北京大学信息科学系毕业，进入 CMU 读博士学位。本科阶段，他主要研究三维视觉。然而，在实时观看AlphaGo战胜李世石的比赛后，他深受启发：基于搜索的机器学习算法不仅能够创造自己的策略，还可能推动通用人工智能（AGI）的实现。林星宇意识到，这种算法的潜力不应仅限于棋赛或游戏，而应应用于更实用的领域——机器人。

此时，机器人学与强化学习的交叉领域尚处于起步阶段。伯克利人工智能实验室（BAIR）刚成立，全球从事此方向的研究者尖指可敲。恰逢此时，CMU机器人研究所进入了一位新加入的助理教授——刚从伯克利Pieter Abbeel组完成博士后的David Held。林星宇被David的研究吸引，主动联系了进一步面谈。两人在第一次见面时一拍即合，就样本效率、从图像中学习奖励函数等关键问题展开了深入讨论。几天后，林星宇正式加入研究团队，成为了David的大弟子。

初入实验室时，林星宇开发了一种新算法，通过增加探索奖励，使强化学习智能体能够快速适应新环境，无需人工干预。2017年圣诞前夜，在空荡荡的校园里，他独自进行实验。当实验首次取得成功时，他激动得从凳子上跳了起来。这部分科研成果的发表之路却比较坎坷，几次被会议拒稿后才发表在ICRA上。在这个过程中，林星宇感到了些许挫折，但逐渐意识到了在机器人领域，有影响力的工作最终需要体现在学习新的机器人技能上。

到2020年博士三年时，林星宇开始研究机器人对柔性物体的操作。机器人操作领域对学习算法的态度仍存在疑虑：传统方法在处理复杂任务时表现出艰艳，研究者不理解为何要转向数据驱动的强化学习算法。面对这种疑问，林星宇决定创建一个针对柔性物体的Benchmark，这也是该领域的首个此类基准测试。“柔性物体的研究使机器人学更加完整。传统机器人学假设操作对象是刚性物体，并在此基础上做出了对物体状态估计和动态估计的各种假设。柔性物体的操作挑战几乎打破了所有这种假设，是构建通用机器人的必经之路。” 林星宇解释他聚焦柔性物体的原因，“假如这能解决，就相当于解决了最难的方向，能以相同的算法或系统解决其他机器人任务，把成果迁移过去。通过多种算法试验，林星宇发现一种简单的搜索算法——Cross-Entropy效果卓越。

该算法基于试错优化动作，其关键假设是：如果有仿真器能够预测动作结果，就可以通过简单的优化方式选择最佳动作，无需依赖对复杂动力学的强化学习。这一发现使他认识到，学习世界模型或动力学是机器人学中最基础也是最困难的任务。此后，他将研究重点转向数据驱动的方法，通过将柔性物体视为粒子集合，借助图神经网络模拟粒子间的相互作用和动态，为机器人完成复杂任务（如平整痕褶衣物）提供了可能性。林星宇的博士研究逐渐聚焦于构建柔性物体的世界模型。他认识到，领域内真正缺乏的是具有挑战性的任务，而非传统方法也能解决的简单问题。通过建立Benchmark，他进一步意识到数据驱动的核心在于预测和动力学建模，一旦掌握了动力学建模，优化就相对简单，可以通过搜索不断提升模型的能力。

“从这个角度，机器人领域走在了自然语言前面，因为语言模型是从预训练ma慢慢走向测试时计算（Test Time Computing），而机器人作为一个决策任务，从一开始就必须要做搜索。”林星宇认为，在处理复杂任务和实时决策方面，机器人可能比语言模型更早地面临和着手了类似的挑战。除了林星宇的博导David Held外，CMU RI中的两位印度教授、Skild AI创始人Abhinav Gupta和Deepak Pathak在AI+Robotics领域也十分活跃，但后者比较年轻，2020年9月才入职，所带的博士生们都尚未毕业。资深的Abhinav Gupta涉猎领域广泛，多做视觉，也涉及机器人学与语言，是现UCSD助理教授王小龙的博导。2014年，王小龙从中山大学来到CMU读博，延续硕士时师从林倞的研究，继续做计算机视觉，利用视觉数据的冗余性进行深度学习的无监督学习和视频识别。

读博期间，王小龙曾在FAIR实习，由何恺明和Ross Girshick指导，在CVPR 2018发表了了非局部神经网络（Non-local Network）的工作，通过其创新的全局上下文聚合和自注意力机制，在视频分类、语义分割、目标检测等多个领域内提升了模型的性能，并且由于其计算效率高和易于集成的特点备受关注，至今引用量已近1.2万。2018年，随着导师Abhinav创立了Facebook的匹兹堡实验室与机器人组，王小龙也开始接触机器人导航、操作等相关研究，并在ICLR 2019发表了自己的首个RL+Robotics的工作。这是关于将语义先验知识融入语义导航任务的研究。

人类能利用多年来建立的语义或先验知识来高效搜索和导航，比如找杯子时会搜索咖啡机附近的橱柜，找水果时则会查看冰箱。为了让机器人具备相似的导航能力，王小龙通过融合语义先验知识到深度强化学习框架中，利用图卷积网络提升智能体在新场景中导航至目标物体的性能和泛化能力。2019年9月，博士毕业的王小龙在BAIR做了一年博士后，受Alexei Efros和Trevor Darrell指导，期间也和彼时在OpenAI的吴翼一起指导过多智能体强化学习的论文。次年7月，王小龙加入UCSD视觉计算中心任教，带领实验室研究视觉与机器人技术，后者侧重于研究机器人手部操作、腿部移动的学习和低层控制（Low-level Control）。

除了王小龙外，在CMU从视觉切入具身智能的研究者还有梁小丹与仉尚航。梁小丹2013年起在中山大学读博，是林倞的首位博士生，和王小龙是同门。博士期间，梁小丹主要研究人物解析，提出的库在当时是人物解析领域最大的，连续五年举办的workshop和比赛也吸引了众多参与者，许多人像分割、解析和编辑的研究也都基于其方法和数据。

在分割算法后，因导师对复杂推理特别感兴趣，梁小丹就转向推理相关的研究。视觉研究更侧重于解决具体问题，如架构和图像模型的构建及因果关系的分析，她在申请博士后时希望体验不同技术方向，特意选择了与之前导师关联甚少的邢波（Eric Xing），想在CMU的机器学习系（MLD）开阔视野，探索底层和基础问题。邢波也希望有些偏视觉的工作，梁小丹便在2016年7月来到CMU，成为当时组里唯一一个视觉方向的博士后，延续图像分割的工作。

在CMU，梁小丹主要做机器人视觉语言导航。从软到硬的转变十分丝滑，让机器人到达某位置最关键的是视觉导航，而视觉导航再往下就是对场景的分割理解、物体检测问题，就是自己的老本行。“很多分割算法都被用在搜索或编辑中，但跟机器人交互其实是非常自然的过渡，所以就是从 2D 走到 3D 世界和机器人交互。”在梁小丹看来，具身智能并非从天而降，“30年前SLAM也可以理解为具身智能，而现在的具身智能考虑落地应用，普遍认为抓取很难，SLAM等导航算法非常成熟，其实是上一代的技术已被应用，现在开始想下一代的应用场景，探索下一代的技术。”

2018年底，在婉拒OpenAI、CMU与腾讯AI Lab等多个offer后，梁小丹回到母校中山大学任教。回国后，梁小丹也开始接触真机，并与智能工程学院里的同僚们合作交流，特别是擅长硬件与控制的同事。目前，梁小丹正带领团队做具身大模型，希望把多模态大模型加上3D感知能力，做具身智能领域的GPT-4o。

此外，为了改善之前仿真环境缺乏真实感和细节的问题，梁小丹团队还发布了仿真平台InfiniteWorld，能通过简单拍照将现实场景如咖啡厅等精确复制到虚拟环境中，实现物品的交互功能，以促进机器人在复杂环境中的泛化能力。“以前的仿真平台场景不太真实，也缺少纹理，因为在真机上训练测试性能不佳，很少能被机器人厂商使用，所以首先得把虚拟环境的真实感提升上去。”仉尚航也是在2013年开始读博，她从北京大学读完研到CMU，收到了博导José Moura教授（美国工程院院士、美国发明院院士、IEEE/AAAS Fellow、前IEEE主席）给的难题：对整个纽约市各路口监控视频中的车辆进行检测计数与流量分析。

面对缺乏具体数据集和思路的挑战，仉尚航自己定义研究问题，开启了领域自适应（Domain Adaptation）的研究。此时正值深度学习初兴之际，经过调研后，她提出了基于深度学习的解决方案。刚开始时，José不太信任此方法，在她汇报时经常一句接一句地提出质疑，让她不停在白板上推公式。因导师坚持采用非深度学习方法低秩回归（Low Rank Regression），仉尚航便采取了一个工作量倍增但“两全其美”的解决方案：对同一个问题和同样的数据，同时设计深度学习和非深度学习两种方法进行研究，一年后均取得成功并发表在CVPR上。

经历了该工作从问题定义到数据收集与标注，从传统机器学习方法到深度学习方法的完整过程，仉尚航的科研能力得到了很大提升。此后，José就对她特别信任和赞赏，无论她提出什么想法，总会频频点头认可、大力称赞，在此鼓励下，她愈发敢于探索新方法、尝试新研究，后来做科研也越来越顺利，产出也越来越多，沿着模型泛化、领域自适应、有限样本学习的方向继续推进。此时正是自动驾驶的火热时期，仉尚航也通过高通创新竞赛将研究场景从车辆检测计数过渡到自动驾驶，并使用深度学习方法研究自动驾驶的泛化视觉感知，关注领域自适应和有限样本学习的难题。

因其一直对机器人方向很感兴趣，来CMU的最大动力也是因为其RI久负盛名，读博期间，她经常跑到RI与在Matthew T. Mason组做博士后的北大师兄万伟伟（现大阪大学副教授）和在John Dolan组读博的董驰宇、许闻达探讨，也发表了一篇关于机器人操作的工作。

2018年博士毕业后，仉尚航来到了“梦寐以求”的湾区，在Eric Xing的创企Petuum做了一年科研后，更加坚定了做教职的决心，就来到伯克利的 Berkeley AI Research Lab（BAIR）做了两年博士后，在Trevor Darrell和Kurt Keutzer的指导下进行开放世界泛化学习的研究，包括领域自适应、零样本学习等，主要应用场景是自动驾驶。Trevor是BAIR的Director，同时和Kurt一起带领Berkeley Deep Drive，在伯克利期间，仉尚航参与了DARPA、BDD等多个项目并和多位教授展开合作，此经历成为她日后担任教职的重要基石。

一直以来都有教职梦的仉尚航，经历了湾区的工作和伯克利的博士后研究后，更加坚定了回国任教的决心。而且她惊喜地发现教课、做报告和登台主持有异曲同工之妙，能满足自己曾经有过的媒体梦（她很喜欢主持，曾在CMU多次担任过华人春晚主持人）。博士导师José十分支持她的决定，其妻子Manuela Veloso是CMU RI教授与RoboCup创始人之一，IEEE/AAAS/ACM/AAAI Fellow，曾任CMU Machine Learning Department Head，也很关注她的研究，专门参加她在CMU的博士答辩，对其很欣赏，夫妻二人在给她的教职推荐时赞扬“尚航能去世界上任何一所TOP10大学”。

现在想起José、Kurt和Trevor三位老师的指导和鼓励，以及Manuela的支持，仉尚航还很感动，正是这些优秀的学者给她树立了榜样，让她坚定了踏实科研、勇于探索、教书育人的决心。2022年初，仉尚航回到北京大学任教，加入了硕士曾就读的计算机学院视频与视觉技术国家工程研究中心，办公室就在当年读研的工位旁，让她更有“勿忘初心，方得始终”的归属感。加入北大后，她开始专注于具身智能领域的研究，将之前在自动驾驶、泛化学习、多模态大模型方向积累的经验转化到具身智能研究中，在此方向迅速成长。

2024年夏天，仉尚航还成为北京智源人工智能研究院的智源学者，带领具身多模态大模型研究中心专注于面向具身智能的多模态大模型与大数据构建，目前正在研究4D世界模型。她于近期发布了大规模多构型智能机器人数据集RoboMind，是世界上集中采集的最大规模数据集，捕捉机器人面对复杂环境、长程任务时的各种交互和经验，从而促进能够掌握不同操作策略的通用模型的训练。RoboMIND包含5万5千条机器人轨迹数据，涉及279项不同的任务，涵盖了高达61种不同的物体，覆盖了家居、厨房、工厂、办公、零售等大部分生活服务场景，将打造具身智能领域的ImageNet时刻。

原文链接

长按/扫码，有您的支持，我们会更加努力！