• 点击右上角微信好友

    朋友圈

    请使用浏览器分享功能进行分享

    正在阅读:横扫全球15项SOTA!高德首个面向AGI的全栈具身技术体系大公开
    首页>时政频道>要闻>正文

    横扫全球15项SOTA!高德首个面向AGI的全栈具身技术体系大公开

    来源:{getone name="zzc/xinwenwang"/}2026-04-19 19:05:23

    一水 发自 凹非寺量子位 | 公众号 QbitAI

    等等——你是说,高德也闯入具身智能赛道了。

    咱品,咱细品。一个国民级导航APP,怎么就和机器人、机器狗这些铁家伙联系起来了。

    难道说,高德也开始跟风搞噱头了??

    细一吃瓜才知道,误会了家人们:

    这件事并非噱头,人家不仅有实打实的东西,而且成绩还位列全球第一梯队。

    揭开面纱你会看到,高德这次带来了首个面向AGI的全栈具身技术体系ABot——

    AGI、全栈、具身,这几个词我都懂,但放在一起到底啥意思?

    再一看才明白,原来这是一套让机器人/机器狗(当然也不止这些),从炫技表演到真正走进现实世界帮大家干活的完整解决方案。

    大多数行业玩家还在卷单点突破的时候,高德却率先把数据、模型、Agent从下到上全打通了。

    而且得益于地图时代攒下的底层数据优势,其世界模型近期在依托CVPR 2026 Video World Model Workshop举办的国际挑战赛中,分数超过谷歌英伟达。ABot体系横扫具身智能全球15项SOTA,跻身全球第一梯队。

    看到这儿,估计你和我一样好奇:

    一个做导航的,凭什么能在具身智能赛道跑到前面?

    (别急,咱火速开扒gogogo)

    原来不是“数据多”就行了

    答案,很多人第一反应可能是“数据”。

    毕竟瞟一眼高德ABot全栈具身技术体系,最底层的就是数据。

    数据层:ABot-World可交互世界模型模型层:导航基座模型ABot-N/执行基座模型ABot-MAgent层:机器人应用层操作系统ABot-Claw

    但如果你只看到“数据”,那就错过了高德真正的杀手锏——

    它没有停留在“数据多”,而是构建了一个“物理优先、动作可控、闭环进化”的机器人世界操作系统。

    这是一个从“视觉渲染范式”向“可微分物理引擎范式”的根本性迁移。

    当其他模型还在生成“看起来像”的视频时,高德的ABot-World已经在输出“符合物理规律”的动态变化过程。

    它不只告诉你“发生了什么”,更告诉你“为什么发生”、“如果这样做会发生什么”。

    而这,才是它成为全球唯一三项指标(物理合规性/动作可控性/零样本泛化)全面SOTA的真正原因。

    所以,与其说高德赢在“数据”,不如说它赢在范式创新+系统工程+物理智能内核。

    核心解决思路:可交互世界模型

    具体来说,面对“如何让机器人理解真实物理世界”这一终极挑战,高德没有选择传统的“采集→标注→训练”路径,而是另辟蹊径——

    它没有去“收集数据”,而是去“重建物理世界”。

    传统方法要么靠人拍(众包),要么靠机器跑(遥控),成本高、效率低、覆盖窄。

    而高德的答案是:

    与其等待机器人在真实世界中缓慢积累经验,不如先在高保真的数字世界中,高效、批量地生产具身智能所需的一切物理交互场景。

    而这,正是高德推出的可交互世界模型ABot-World的核心使命——

    构建一个可交互、可推演、可进化的机器人世界操作系统。

    等等,这不就是数据合成、数据仿真那一套吗?

    继续深挖才发现,虽然二者思路看起来相似,但底层逻辑其实不太一样。

    个人理解,合成仿真有点像“照猫画虎”,目标是让模拟尽可能逼近真实。

    而高德恰恰相反,它不是从零去模拟真实,而是基于现成的真实世界数据,把场景还原出来拿给机器人用。

    所以,哪个更精准就不用多说了吧…

    说实话,对高德来讲,“精密重建与理解物理世界”几乎就是自己的看家本领——

    毕竟它每天都在做的,就是把来自卫星、街景车、众包设备的大量数据,一点点拼起来,变成一个能被机器理解和计算的数字世界。

    emmm……光看文字可能还有点抽象,但转念一想:

    这不就是我最近骑行时打开高德看到的画面吗?

    只不过以前是给人交互,现在则更往底层走——变成了可以让机器“理解”和“交互”的训练环境。

    到这里,我已经搞懂高德ABot-World背后的原理了,但我想知道的可不止原理——

    具体方法论呢??

    所以我又接着扒了一下高德ABot-World的具体运作过程。

    具体落地:一套双引擎架构

    先从最直观的外观说起,ABot-World采用的是双引擎驱动架构:

    ABot-3DGS:物理世界的“数字孪生工厂”ABot-PhysWorld:因果推演的“物理思维引擎”

    一开始还以为这不过是简单的“数据生成+模型训练”,但看完才发现,它这是一个完整的物理智能操作系统。

    先说ABot-3DGS。

    都工厂了,你就知道高德这是在对传统那套“贵、慢、覆盖不全”的数据生产方式,来了一次彻底的重拳出击。

    具体来说,它这次干了这样一件事:

    以高德积累的厘米级城市、道路、室内空间数据+真实轨迹数据为基础,结合前沿的3DGS技术,构建可编程的数字孪生空间。

    划重点,可编程。说白了就是,现在你可以随心所欲生产数据了。

    在ABot-3DGS里,数据不再受制于采集条件——任意视角、光照、遮挡状态都可以直接生成,机器人形态也能灵活切换,不同执行体之间的差异被抹平。

    更关键的是,这套体系可以系统性补齐那些过去最难覆盖的部分:

    长尾交互场景(也就是机器人容易翻车的地方)。

    通过大规模组合与仿真,极端情况、突发干扰都能提前构造出来,最终把覆盖率推到99%。

    就是说,模型最容易出问题的那一小撮情况,基本都被提前见过、练过了。

    还有一个更关键的突破——

    这里的“空间”不是只有几何外观,而是带物理属性的。每个物体都会被赋予质量、摩擦系数等参数,从一开始就构成一个可计算、可干预的物理环境。

    啥叫可干预?其实就是通过编程改参数。

    比如把一个物体的质量调大,机器人抓取时需要的力度、轨迹都会随之改变;把地面的摩擦系数调低,同样的动作就可能打滑失败。

    于是你发现没,ABot-3DGS已经不是数据增强工具,而是在主动创造一个比现实更丰富、更可控、更物理一致的“训练宇宙”。

    好,现在我已经明白ABot-3DGS可以解决“数据稀缺”的问题了,但我还是不清楚其中的细节:

    高德积累的那些真实时空数据,是怎么一步步变成“机器人能用的训练材料”的?

    顺着网线再扒了一圈,脑海里自动浮现了这样一句口号:一翻译二重建三Run。

    “一翻译”是指先把数据转成机器能读懂的“多模态Clip”。

    比如骑车经过一个路口,高德记录下来的不只是“一张图”,而是一整套信息——

    包括路口长什么样(图像)、红绿灯在哪(空间位置)、现在是红灯还是绿灯(状态)、你是直行还是准备转弯(行为),甚至还包括周围有没有行人、车辆在动。

    所有东西打包在一起就是一个Clip,而高德手里有千万级这样的Clip。

    当机器拿到这些信息后,ABot-3DGS就能把路口、街道、商场这些地方重建出来,形成万级规模的3D真实场景。

    P.S. 看了下万级规模的概念,基本上能覆盖99%的典型生活场景了。

    而且由于前一步拿到的信息都是自带物理规则和空间逻辑的,所以这里的3D数字场景也都是“活”的。

    然后就是最后一步——Run起来。

    把机器人丢进去,让它在里面走一遍、做一遍,千万级训练轨迹数据,就这么批量生成。

    到这里,剩下的问题就只有一个了:

    怎么解决“懂物理”这个行业公认的老大难?

    ABot-PhysWorld为此而生。

    它基于14B参数的DiT主干构建,本质是一个物理思维引擎,回答的是机器人最核心的问题:

    “如果我这样动,接下来会发生什么?”

    为了打造ABot-PhysWorld,高德做了三件不同寻常的事:

    数据层面,高德精选300万条真实操作视频,用VLM+LLM双阶段标注,构建四层级物理语义结构(意图→动作→轨迹→物理关系),奠定因果推理基础。

    简单来说,就是将数据拆解成机器人更易“消化”的结构化信息:

    宏观层(意图):自然语言描述整体任务目标,如“抓取并放置苹果”。中观层(动作序列):动词-名词短语序列,如“接近→抓握→提起→移动→释放”。微观层(轨迹细节):记录笛卡尔轨迹、相对运动、夹爪状态,如“末端沿Z轴下降5cm,夹爪闭合至20mm”。场景层(物理关系):描述接触、支撑、包含关系及任务结果,如“苹果与桌面接触,被夹爪稳固抓握,成功放置于袋中”。

    看到没,这套标注流程不仅在告诉机器人“发生了什么”,更在解释“为什么发生”。

    训练层面,高德摒弃传统MLE(像素相似度优化),引入“物理判别机制”。

    所谓MLE,是指给模型看大量真实视频,让它预测“下一帧应该长什么样”,预测得越像真实的那一帧(像素差异越小),得分越高。

    换言之,这一机制下模型只关心“画面对不对”,不关心“物理对不对”。

    所以高德通过两个核心组件,把优化目标从“像素相似度”转向“物理一致性”:

    Proposer module:负责根据当前任务,列一份物理规则清单,说清哪些能做,哪些绝对不行。Scorer module:对模型生成的多个结果逐帧打分。

    然后用Diffusion-DPO强化合规行为——

    物理正确就奖励,物理错误就扣分。

    反复纠正下来,模型自然学会了“什么动作不违反物理”。

    至此,ABot-PhysWorld已经能够根据输入的末端位姿和夹爪状态,推演出未来的时空动力学变化——指令即因果,不再只是像素层面的“看起来像”。

    输出层面,ABot-PhysWorld的每一帧不仅是像素,更是包含质量、接触力场、惯性张量的可微分物理状态快照,支持“动作条件化推演”与“零样本泛化”。

    这意味着,给它一个动作指令(比如“下降5cm、夹爪闭合”),它就能精准算出接下来会发生什么,而不是靠“猜”。

    哪怕遇到从没见过的物体或机器人,它也能根据质量、摩擦、惯性这些通用物理规律做出合理判断,不需要重新训练。

    这三招下去,结果是,那些困扰行业已久的“低级错误”开始从根源上消失了——

    物体不会穿透、夹爪不会无接触抓取、动作不会反重力悬浮。

    因为,机器人已经不再是机械执行指令了,它开始知道“为什么不能这么做”。

    而当把两个引擎放在一起,你会发现ABot-World内部已经形成了一个持续增强的“数据-模型”飞轮。

    ABot-3DGS负责造数据,ABot-PhysWorld负责学物理——

    前者不断生成高质量训练材料,后者不断提升对真实世界的理解。

    但这个飞轮不止于此。

    ABot-World不是一个静态模型,而是一个具备自我修正能力的认知基座——

    它还能接入真实世界的执行反馈,让自己越用越准。

    具体来说,它支持完整的VLA闭环(预测→执行→反馈→自我修正)。

    比如机器人根据ABot-World的推演去抓杯子,结果实际执行中夹爪滑脱了。这个误差信号会立刻回传给ABot-PhysWorld,模型自动调整参数,下次预测就会更精准。

    对整个行业来说,这种“自生长、自修正、自适应”的能力,意味着机器人不再依赖人类演示,而是能在真实环境中持续进化。

    而这,或许才是AGI时代机器人应有的“操作系统级”能力。

    到这里,我对高德如何使用自己的数据已经很清晰了,咱捋一捋:

    核心解决思路是“可交互世界模型”,世界模型的数据来自ABot-3DGS,经“一翻译二重建三Run”加工成训练材料,物理对齐则交给ABot-PhysWorld完成。

    这一整套下来,高德本质上其实干了两件事:

    一是把数据生产成本打下来了,二是把“物理正确”这件事,真正嵌进了系统里。

    成本下降,意味着能喂给模型的数据量可以做到足够大;物理正确,意味着喂进去的数据质量足够真。

    当“量大”和“真实”同时满足,模型看到的不再是零散样本,而是接近真实世界分布的数据——

    于是它学到的也不再是“某几个场景的解法”,而是更通用的物理规律。

    这样一来,具身智能最后的大BOSS——泛化问题,也就真正有了被攻克的可能。

    就是说,数据开始反过来定义模型能力本身以及边界了……

    为什么是高德?

    看到这里,估计大家和我一样,终于反应过来高德凭啥跑到具身赛道前列了。

    说白了,这不是一次跨界,而是一次升维:

    从给“人”导航,到给“机器人”构建物理世界的操作系统。

    高德真正的护城河,从来不只是“数据多”——

    还有过去地图时代练出来的空间理解、地图构建、实时更新能力,这些共同构成了它难以被复制的底气。

    这当中,尤为值得一提的就是一张关键王牌:业界领先的POI(兴趣点)数据库和路网语义信息。

    说人话就是,高德给ABot-World提供的数据都是带“语义”的——

    不只是几何轨迹,还有“这里是星巴克的入口”、“前方是人行横道”、“左转50米是停车场出口”等语义锚点。

    为什么这很重要?

    因为行业里大多数机器人的导航训练,用的只有几何坐标和视觉特征。

    机器人只是知其然,而不知其所以然。

    它可以学会从A走到B,但很难理解为什么这里要绕行、为什么这里要停一下、为什么这条路更安全。一旦环境稍微变化,比如多了行人、临时施工、规则调整,就很容易出错。

    而带语义的数据,相当于把“规则”和“常识”一起教给它。

    这也是为什么,它更容易直接落到真实世界里用。

    恰逢北京亦庄机器人半马,高德也带着它的四足机器狗亮相了——

    它已经能帮助盲人朋友走出家门,实现精准导航。

    实际上,抛开所有技术不谈,从地图时代到现在,高德的角色其实并没有变——

    以前,它是连接人和现实世界的基础设施;现在,它开始变成连接机器人和物理世界的基础设施。

    只不过服务对象变了,能力边界被放大了。

    当然更重要的是,高德已经决定把ABot-World开源了。

    它正提供一个统一的、物理合规的、可进化的机器人世界模型操作系统,让所有开发者都能在其上构建自己的Agent、训练自己的机器人。

    从这个角度看,高德这次亮剑的并不只是一款产品,而是一个面向下一代机器人智能的底层平台。

    有了这个平台,行业就不用再各自重复造轮子了,以前数据不够、仿真又不够真的问题,也会被系统性缓解。

    由此我们看到,一个统一的“操作系统”正在成型,而生态也将围绕这一底座快速收敛并加速爆发。

    只能说,高德的心思不要太好懂(doge)——

    一边把底座铺好,一边把生态带起来。

    等大家都在这套体系上跑起来,它自然也就站在了具身赛道最核心的位置。

    One More Thing

    2026年,具身智能赛道依然热火朝天,融资纪录不断刷新。

    但历史经验告诉我们:

    当行业在底层基础设施上开始成型,局面就会迅速收敛。

    就像TCP/IP统一了网络连接方式,Linux成为事实上的操作系统底座,云计算把算力变成公共资源——

    现在的具身智能,正站在从“百花齐放”走向“生态收敛”的临界点。

    而高德,已经率先亮剑。

    横扫15项SOTA、“拿下全球唯一三项指标全面领先”、发布首个“物理优先”的世界模型操作系统——

    这些不只是数字和称号,而是它已经站上牌桌的证明。

    站在高德的角度而言——

    无论最终谁能胜出,它都已经为行业铺好了通往AGI的第一块基石。

    (好好好,原来你小汁打的是这个主意…)

    [责编:{getone name="zzc/mingzi"/}]
    阅读剩余全文(