我来告诉你“微信小程序雀神广东麻将开挂方法”确实真的有挂
“具身智能真正的‘涌现’是跨任务跨场景的,最好的本体将萌生于中国 。”
5月29日 ,在2025张江具身智能开发者大会“具身·无界:智能模型的范式创新与架构革命”论坛期间,联汇科技(OmAI)CEO兼首席科学家赵天成在接受澎湃新闻记者采访时作出上述表述。
随着具身智能浪潮的兴起,为了让机器人能真正理解物理世界 ,视觉语言模型(VLM) 、视觉语言动作模型(VLA)等具身智能大模型应运而生。当前,如何让具身智能像人类一样进行规划与操作,成为学术界与产业界共同面临的挑战。
赵天成毕业于卡耐基梅隆大学计算机系 ,在视觉语言模型领域有着多年的深入研究,多次担任国际顶会领域主席,是国家重点研发计划(青年科学家)项目负责人 。其创办的OmAILab人工智能实验室在今年2月推出了VLM-R1开源视觉语言大模型 ,采用生成式奖励处理优化(Generative Reward Processing Optimization, GRPO)强化学习技术,将DeepSeek R1的方法从纯文本领域迁移到了视觉语言领域,目前在GitHub上已获得近5000颗星。
“当前具身智能模型的发展状态 ,与2017年、2018年的大语言模型有相似之处,呈现出百花齐放的态势,存在诸多技术路线。但方向较为明确,就是构建‘世界模型’ 。”赵天成表示 ,目前全球各实验室在实现世界模型方面均有各自不同的思路,“成熟的VLM模型,其理解与生成功能目前仍是分离的。我们正开展研究 ,探索如何实现统一结构”。
对于VLM-R1的走红,赵天成称,最初发布的目的是让模型能够更好地进行复杂物体理解与视觉推理 ,目前社区已基于其开放框架衍生出众多新应用 。
“终端用户真正需要的是一个能交付结果、完成任务的完整智能体(Agent)。我们团队专注的是可以实际部署于物理终端的智能体,不论是机器狗 、无人机还是摄像头,都可以变成智能体。 ”赵天成认为 ,智能终端面临的挑战比单模型层面要大得多,具身智能绝非仅凭一家公司之力便可做成,必然会存在生态分层的商业模式 ,“中国的制造业实力强劲,当下并非一两家,而是有十几上百家企业在从事硬件本体研发 。我们专注于做好‘大脑’(AI能力)部分,与从事本体研发、打造‘小脑’(运动控制)的公司展开合作 ,这才是效率更高的商业模式,可以推动机器人真正进入良好的发展循环”。
赵天成强调,中国在具身智能领域具备显著优势 ,尤其是在供应链制造业和数据方面。他以小脑系统为例表示,“小脑和硬件的高度吻合意味着,在中国更有机会萌生出最好的本体 ,我认为这是具有较高确定性的事情” 。
赵天成同时也向记者透露,其团队近期将推出机器人大脑平台,旨在通过与更多硬件厂商合作 ,使智能硬件超越单纯硬件属性,成为能结合应用场景的智能体。
据赵天成介绍,上述机器人大脑涵盖语言交互、3D空间感知 、记忆以及决策执行控制四大板块 ,能够依据应用场景实现快速定义。
在当天的论坛上,赵天成便以移动机器人智能体为例,展示了其VLM在服务场景中融合多模态感知、长程记忆与自适应决策的完整闭环案例:机器狗结合地图与视觉进行导航,寻找目的地并完成相应动作 ,随后凭借记忆实现自主返航。
赵天成强调,物理终端智能体与普通智能体存在一个显著差异,就是必须要“快 ” ,要确保响应的时效性,“不能出现我说一句话,机器人过了很久才行动的情况 ,这是任何人都无法接受的” 。
他表示,可以通过强化学习,使更小的模型能够解决特定场景的复杂任务 ,进而提高响应速度;也可借助模型结构的改进,例如替代类似GPT的自回归生成方式,采用一次性生成一套方案的方法 ,从本质层面实现提速。“对于一些特别复杂的逻辑判断,现在总体来说会慢一些,可能还需要一两年时间去不断进化”。赵天成预测道 。
那么,具身智能的AGI(通用人工智能)何时能够到来?赵天成认为 ,一定是通过海量的某种学习方式,使其涌现出智能,“真正的涌现应当是跨任务跨场景的 ,而不仅仅是抓取、叠衣服等初级能力 ”。
技术开源打破“单一阵营”的壁垒,机器人大脑平台提供了从理论模型到物理终端的转化工具,协同创新正加速推动具身智能技术的迭代发展。