首页   >   新闻   >   文章

CMU 具身智能风云榜:从传统到全面(II)
- 2025 -
01/07
13:51
零号员工
发表时间:2025.01.07     作者:雷锋网     来源:与非网     阅读:19

原标题:CMU 具身智能风云榜:从传统到全面(II)

作者:雷锋网

03 系统见长

2014年秋,走进地下负一层没有窗户的生物机器人实验室,龚超慧得知了自己的蛇形机器人工作登上《Science》杂志的好消息。四年前,2010年,龚超慧从哈工大毕业来到CMU RI读博。下属计算机学院的 RI 做机器人较偏算法化,在机器人算法三要素感知规划决策的闭环系统颇有建树。在各实验室轮转上课时,龚超慧意识到,机器人自动化远比自己的机械式理解更广泛,除了预设程序与硬件外,不仅包括通过传感器进行感知和数据采集,还涉及到基于数据的智能化控制和复杂规划。

对规划着迷的龚超慧决定加入此领域顶尖学者Howie Choset的小组。Howie除了在RI任教外,也是生物医学工程、电气与计算机工程的教授,研究蛇形机器人、工业机器人与医疗机器人。第一次正式见面时,龚超慧在Howie的办公室磕磕绊绊地分享了自己对规划的一些基础研究和文献调研工作,感受到他的热情后,Howie建议龚超慧尝试参与组内课题。在蛇形机器人平台上进行软件开发并迅速取得研究成果后,龚超慧顺利开启了PhD阶段,成为了Howie的首位华人学生。

进组后,龚超慧有两个并行项目:一是研究蛇形机器人的运动,如控制转弯、行进方向;二是定位和建图的 SLAM 项目, 基于拓扑学的数学理论,研究如何通过机器人之间的信息交互,包括不断设计新的行进方向,快速地把未知环境的拓扑结构描述出来。龚超慧从本科就开始“手搓”机器人,跟周谷越(清华AIR副教授、前大疆CV总监)同为哈工大机器人队的主力成员。此前龚超慧的做事方式偏工程化,喜欢去实现机器人的某个功能,Howie却告诉他,如果要成为一个PhD,必须对能认知、改变世界的方法论上形成新的观点和突破,否则只是位工程师。

因此,龚超慧的研究核心放在了高维度数学空间的规划问题,即如何找到最优解。假设机器人有无穷个关节,那面对无穷个自由度,该如何控制变量才能让它形成有效运动的最低能量,且运动速度最快?

这其实是一个非常抽象的数学问题,所以在做研究时,龚超慧接近数学方法论,专注于在高维空间中寻找高效的低维子流形(Submanifold)。通过降低机器人的维度,在更低维的空间中快速进行计算,并利用这一理论框架,研究生物和机器人的运动,从高维统计数据中提取低维特征和模式。导师Howie对学术有着近乎变态的苛刻,对于任何一个公式的推导,每个上下角标是否准确,每项异常数据如何解读归因,都要求严谨准确。在他的指导下,龚超慧陆续在机器人顶会ICRA、IROS以及《科学》杂志和美国科学院刊上发表论文。

到博士后期时,龚超慧开始对广义机器人的规划与任务分配软件感兴趣,认为AI 和 Robotics 技术会在制造业里有广泛应用的机会,“工业 4.0让物理实体设备具有结合数据技术使其更智能化的机会,而设备智能化后也是一种机器人。”因此,龚超慧在2016年初继续留校做博士后,除了收尾PhD时的工作外,也开始把研究重点往智能制造的方向转变。在每周五下午的午餐会上,RI各组学生都会聚在一起喝咖啡闲聊,龚超慧结识了小两届的周佳骥,二人常讨论机器人的商业化问题。周佳骥本科毕业于东南大学吴健雄学院,2012年来到CMU读研,次年在RI开启其博士阶段,师从Matthew T. Mason与视觉教授Drew Bagnell,研究抓取操作与视觉感知规划。2016年,周佳骥发表的平面滑动运动模型工作获得了当年ICRA全会最佳论文,成为了ICRA创办30年来第三位以第一作者身份获奖的华人。

与Matthew T. Mason在两位学术成果颇为优秀的年轻人中,更早产生创业念头的是龚超慧。每次讨论机器人时,周佳骥更关注深入的学术问题,龚超慧则更关注应用场景。彼时富士康到美国找研究团队合作,VP戴佳鹏资助了龚超慧团队,龚超慧就开始研究如何让生产更柔性和智能,包括生产设备网络化、智能化后的集群管理,以及AGV等设备有移动能力后的调度来连接生产环节。在同富士康交流的过程中,龚超慧发现,制造业中传统的管理方法、技术都有大量的信息不对称,在数据的全面性、运算的智能化、计算能力都有瓶颈,生产线上大量设备也没有自适应能力,导致生产效率不足。

看到产业机会后,此前认为自己肯定会走学术路线的龚超慧向Howie提出了自己的创业计划。Howie非常惊讶,没想到龚超慧会在学术做得不错、有教职机会的情况下,还想要创业。龚超慧向Howie解释,学术研究存在的目的是解决实践中遇到的问题,把它抽象出来突破,但既然部分机器人和AI 结合的技术已经到了可以工程应用和产业化的阶段,更大的机会和空间应该在产业界而非学术界中。龚超慧的想法得到了Howie的认可,再加上当时组里的硕士生任中强(现上海交大AP),师徒三人于2017年1月在匹兹堡一起成立了宾通智能(Bito Intelligence)。

很快,周佳骥也决定创业。他与在麻省理工大学(MIT)读博的俞冠廷相识,后者师从操作与机制实验室负责人Alberto Rodriguez,曾作为技术架构总负责人带领MIT-Princeton联队在2015-2017连续三年参加亚马逊拣选挑战赛,均获全球前三,并且获得2017年装载任务冠军。通过亚马逊挑战赛,他们意识到视觉拣选领域已接近可商用化的程度,便于2018年4月在波士顿一起创办了星猿哲(XYZ Robotics),为物流及工业自动化提供更好更快的机器人解决方案,周佳骥的导师Drew Bagnell也参与了种子轮的投资。不难发现,两位CMU学子对产业机会极其敏锐,果断抓住了机器人的第一波创业机会。

伯克利的Pieter Abbeel与三位华人学生成立的Covariant,也是在同一时期诞生,并同样以物流场景起步。(伯克利故事详见伯克利具身智能图谱:深度强化学习浪尖上的中国 90 后们)说起各高校的机器人人才,业内普遍认为,若想让机器人达成商业目标、落地,CMU是首选,若关注具体算法,则选伯克利和斯坦福。据罗瑞琨介绍,CMU 学子多对机器人工程落地的全链条有系统性认知,从课程体系起,就要求学生除了必修数学和本专业外,感知、规划、运动各方向都上够学分,了解机器人整个系统。而且工程师和科学家协作制度完善,教授也分研究型和工程型两类;RI 虽属计算机学院,但却很重视跨学科交叉,吸收了很多机械工程、电气工程等专业的学生一起科研做项目,而非以单一的计算机专业为主。

2012年,罗瑞琨毕业于清华的机械工程自动化系,来到CMU读研。起初他打算申博研究纳米机器人,后因联系的教授在欧洲,面试安排不定,担心错过截止日期的他就先接受了硕士项目的录取。因对人机交互感兴趣,罗瑞琨加入了做多智能体与高层次规划的Katia Sycara小组,研究人体动作学习和预测,通过结合动作识别和活动学习,优化学习的准确性,并预测下一步行为。此方向当时非常热门,其应用前景包括使机器人能预测人类行为,从而决定自己的行动,例如帮助做家务和做饭。

Katia不会干预学生的研究兴趣,但对论文写作尤为细致,带着罗瑞琨从头到尾改完了他的第一篇论文。项目资金结束后,罗瑞琨又做了点 SLAM 及多智能体的工作,便在14年顺利毕业了。在伍斯特理工与密歇根大学读博期间,罗瑞琨专注于人机协作的实际应用,如工厂中的共同作业、问题检查和装配协助。他曾与苹果供应链专家探讨,发现机器人执行效率低,不如全自动化或人工作业,许多需求在实际应用中不切实际,是伪需求。权衡过各类机会后,罗瑞琨以CTO的身份在2021年加入创企木牛机器人。他认为,过往积累的机器人交互的多领域知识、实践经验与对系统的了解,在大厂难以充分发挥优势,聚焦工业场景落地的木牛更适合自己,加入后带队开发了一套从伺服驱动控制到上层感知决策的底层框架。

04 新与旧共舞

2024年10月,特斯拉「We,Robot」发布会上,人形机器人TeslaBot(前Optimus)列队出场,化身“酒保”走入人群调酒、猜拳、合照、蹦迪,现场俨然成为了一场赛博大派对。发布会后,杨硕站在TeslaBot旁,和它合照了一张。就在2023年3月,即将博士毕业的杨硕看到Optimus项目在扩张,便在领英上与团队取得了联系。很快,HR发来了面试邀请,在两轮现场手写C++代码和推公式的面试后,杨硕拿到了offer。

可以说,读博时精进的工程能力,让杨硕具备独自完成推公式、仿真、做硬件、上真机实验、处理数据全流程的能力,特别是对C++解决机器人控制和估计的钻研,使他成为了最匹配的候选人。特斯拉让杨硕尽快入职,导师Zach了解情况后非常开明地同意了,让杨硕努努力再整理投出一篇论文即可毕业。7月,杨硕正式加入,参与机器人控制核心算法模块的开发。2024年初,团队发现第二代Optimus机器人的一项关键指标需远超行业标准才能稳定运行。

一次双周会议上,Elon Musk对项目进展表示不满。会后,杨硕主动提出在十天内开发一个新的算法模块,两千行代码加上后情况迅速有改善,便在下次会议上向马斯克现场演示。在特斯拉的一年半里,杨硕慢慢转移到用深度学习、AI 的方法做机器人,过往对传统机器人学的理解让转变十分丝滑。“做机器人得不断推翻自己之前形成的固有思维,之前无人机做久了我选择去研究新东西,博士期间做传统的方法,来到特斯拉又推翻,用比较主流的AI技术。”

杨硕告诉雷峰网,“ 对基于模型的方法有深刻理解后,对无模型的AI方法,通过数据让神经网络自己发掘模型,是更有帮助的。”除了杨硕,侯一凡对新方法的态度也发生了转变。2021年博士毕业时,侯一凡认为科研问题已解决,自己完整的操作方案需要在实际场景中验证效果,便加入了有着世界上最大的操作场景的亚马逊机器人部门,研究物流场景中的储存任务,负责自动化存储过程中的柔性控制和运动规划设计。

在亚马逊的三年间,侯一凡意识到自己提出的解决方案效果不错,但受限于建模的需求,在应对不断出现的新场景(长尾效应)或者难以预先建模的家庭服务类场景时往往需要巨量的工程投入来解决。

因此,如何在模型质量高度不确定时提高操作的成功率和效率,成为一个全新的挑战。一直关注着学术进展的侯一凡发现,机器人学习已进入激动人心的阶段,尽管目前成果距离解决实际问题还有很大差距,但已完成了从0到1的转变,让非机器人背景的人也能快速做出demo。不过,侯一凡认为,在接下来的5年或更长时间内,学习方法仍无法替代某些问题的最佳解决方案,特别是在机器人需要快速、高成功率地应对高度不确定场景时,因为这些问题用模型来处理更容易获得可预测,解释和调节的结果。他意识到,后续想让demo变得通用和鲁棒既需要机器学习的泛化能力,也需要对机器人问题的理解和分析——机器人学习与传统机器人学的结合有巨大的机会,而探索这些机会的最佳场所是学校,而非工业界。

侯一凡读博时,因参加亚马逊挑战赛的MIT-普林斯顿队中有导师Mattew的学生Alberto Rodrigue,双方交流密切,就此认识了队里的宋舒然。加上近些年自己最喜欢研究都来自其团队,考虑重返学术界时,侯一凡便联系了宋舒然,两人讨论非常投机,侯一凡就在2024年3月来到斯坦福做博士后,依旧沿着解决操作的主线。“以前认为解决操作的方法和学习关联不大,所以做模型和优化,随着对问题的了解和不同方法的演化,现在觉得是基于模型与learning的结合。”同样支持两者结合的邱迪聪,在2018年硕士毕业后,先进入了更成熟的自动驾驶领域。他同时接到了英伟达与MIT创企ISee的offer,在面对他“公司要做什么”的提问时,双方给出了不同的答案:英伟达想构建一个能在特定场景下工作的自动驾驶系统;ISee则致力于开发具有人性化思考的AI,目标不仅是自动驾驶。

ISee的愿景更符合邱迪聪的规划,在他看来,自动驾驶是当时最接近智能化机器人的实例,其他技术要么不够先进,要么虽能落地但缺乏革命性。三年后,邱迪聪又先后加入了如祺出行与PIX Moving,负责搭建自动驾驶团队,探索商业化落地。到了23年4月,在意识到开放推理能力开始有解决方案后,邱迪聪与CMU LTI(语言技术研究室)的师兄梁俊卫合作,共同创立了雅可比机器人,采取轮式方案,重点在操作以及机器人对开放世界和开放物品的理解。雅可比以商超为切入点,下一步是餐饮服务、办公场景,最终进入到养老以及家庭场景。“这样每个场景积累的知识和经验能直接应用于新场景,比如机器人在商超场景中学会识别锅碗瓢盆等物品,当转移到餐饮场景时,如清理餐桌,就已具备基础能力,几乎无需额外专用化投入,甚至能实现零样本迁移。”

至于一开始就笃定learning路线的林星宇,则在2022年从CMU毕业。答辩前,David Held专门开了个告别组会,让林星宇给学弟学妹们分享建议,还把二人的邮件往来与合照放在一起,配文“this is how we started”。林星宇来到伯克利在Pieter Abbeel的组里做博士后,从博士期间注重解决不同任务,如柔性物体的一个个建模,转变为做更通用的基础模型,研究如何利用基础模型让任务更通用,以及构建一个属于机器人学的基础模型。在伯克利,林星宇和高阳的学生汶川合作,利用互联网人类视频训练机器人大模型,发表了RSS 2024的满分论文。林星宇发现,许多视频预测模型专注于纹理的真实感,却忽略了物理真实性,就提出了学习微粒轨迹模型的想法,用于预测空间中每个点随时间变化的轨迹。例如,当拿起并倾倒一杯水时,杯中水的微粒会沿着不同的路径移动。最重要的是,这一模型能够直接从视频数据中学习。2024年8月,OpenAI风传已久的机器人组终于重启,林星宇成为了创始成员之一。

OpenAI成立初期,机器人技术就是其主攻方向之一,联创Wojciech Zaremba领导的团队最初试图打造一个通用机器人,并在2019年发表了一篇工作,分享了他们如何训练神经网络使用单只机械手复原魔方。但在2020年10月,因缺乏训练数据,机器人组解散。加入OpenAI重整旗鼓的机器人组,林星宇经过了不短的思考:首先,OpenAI有研究机器人的经验,重启说明时机已经成熟;再者,产业界研究能比学术界更易于拓展。

更重要的是,很多机器人学的问题在于boot strapping(自举,指机器人或AI系统通过自我学习和自我改进来提高其性能和能力),缺乏数据导致系统性能不佳,无法产出产品,数据积累陷入停滞,形成恶性循环——视觉语言模型能有效缓解这一问题,而OpenAI拥有最顶尖的视觉语言模型。来到OpenAI,林星宇将继续探索机器人基础模型,“我一开始是想训练一个模型做好可变形物体的任务,但逐渐发现真正需要的是海量数据,需要不同数据间有各种积极的迁移转化,最终希望有一个模型来理解物理、空间来完成各种任务。”

05 结语

站在是否转向的十字路口,没有all in机器人学习的CMU似乎慢了一步。与从纯仿真出发、始于图像或游戏的模式不同,工业合作伙伴众多的CMU携带着工程师基因,对解决实际问题习以为常,做项目的重要意义之一就是将技术真正应用于某个具体场景中。可以说,如果将机器人学的研究工作分为0-1(概念创新)、1-99(技术发展)和99-100(产品成熟)三个阶段,CMU更擅长1到99%的推进,甚至能够制造出接近实用的高完成度机器人。除了擅长实际工程落地外,CMU的强项还在于对基础问题以及整个系统的深入理解。

凭借对传统方法的深厚积累,CMU人才们能够轻松而顺畅地过渡到基于学习的方法。杨硕、林星宇、王小龙、仉尚航、梁小丹、龚超慧、周佳骥、罗瑞琨、侯一凡、邱迪聪……成长于基于模型方法的CMU一派,用“传统机器人学”搭起坚实地基,以学习为梯,让机器人迈向了下一个阶梯。在具身智能产学结合紧密的趋势下,补上学习拼图后的CMU派系,逐渐从传统走近了全面。此刻的他们,正搭建着下一块台阶。



原文链接



长按/扫码,有您的支持,我们会更加努力!









TOP 5 精选

       



回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。