Lun.A, 2026.06.10“高德地球”是我自己这么叫官方没这么叫后文我均以“高德地球”为名替代官方名称官方地址ABot Earth Studio · 即刻生成你的星球技术要点生成式 AI 模型大概率也是 Scaling Law 的随着数据集和算力的提升生成模型的质量和速度依旧有很大的提升空间训练集卫星影像使用的是多视角卫星影像即使用遥感对地面大多数地区都有一定倾斜角度的特点基于 Orbit2Ground高德和北大一起搞的一个有公开推文来还原建筑高度和模糊的侧面贴图后续接入自己训练的 FLUX 模型来对贴图进行修复。核心训练数据低空航片以高质量低空、多视角航片可能来自谷歌地球倾斜重渲染或者其他途径的采集数据作为核心训练集并可辅以点云或倾斜Mesh做先验数据来提升重建精度城市图片是以街景、无人机图片、城市低点位渲染图注原文特地说了所有多视角数据用的都是开源数据和采购的专有数据没用合成资产估计是为了避免版权问题。但是我还是保留使用了谷歌倾斜的看法因为全球各地收集那么多高质量低空航片的难度太大。但是无所谓GPT训练时候爬了多少数据也没提版权、付费的事为了人类进步嘛不丢人。推理时仅依赖遥感影像10分钟/平方公里创作空间支持通过文本来生成虚实结合的三维城市看描述应该是支持对场景风格、模型贴图材质等要素进行自定义生成没有内测权限不确定使用效果如何推理速度快原文表达为 10分钟/平方公里重新算了一下大概是 3卡 A100 并行跑的速度输入数据要求低推理仅要求输入遥感影像渲染与数据标准已打通且整体分块和 LOD 切换较丝滑无特别明显顿挫感。这条相对容易无论李飞飞团队、Spark 2.0、Bentley、ESRI 都已有完整解决方案且有开源方案可参考目前释出的版本是以 Ceisum.js 为主 高德云境插件 自定义存储格式 方式提供的 B 端 3DGS 渲染。高德云境也有 UE 插件但处于非常早期阶段不具有实用性。考虑 3DGS 生态的迅速成熟Bentley、ESRI、Spark 2.0、Khronos 等以及 3DGS 向传统 Mesh 转换、或基于 3DGS 渲染图走 3D AI 生成 Mesh 等方向的不断完善打通传统建模、渲染的路径也不具有明显短板。ABot-Earth 0.5 版本已生成超过 300 个城市和 190 个国家目前看主要集中在全球的各个大城市上可能和训练集数据有关大城市数据更好获取如谷歌全球倾斜也集中在大城市上是个很好的数据源在小城市或乡村上的泛化性如何仍需测试但小城市无论是资金还是注意力对其的专注度都不高即使效果很差也没有太大影响并且可以通过补充数据集来迅速补齐短板。核心流程如下高德地球核心的几步在模型生成、3DGS的LOD及分块和最终的渲染方面真正核心的还是训练的这个大模型其他的都是一些工程上的壁垒。原文简读应用方向原文指出目前版本的主要应用方向是以超低成本来缩小模拟仿真和真实世界的差距闭环诸如“无人机导航”、智驾仿真我自己补充的、具身智能Maybe等应用场景。从目前释出的版本来看核心技术在高推理速度和低输入要求带来的低成本、快速的仿真场景搭建。相比传统倾斜重建具有速度快的优势但精细度在目前模型参数量具体多少我不知道情况下差距仍明显但可能已经可以一些低精度场景的需求或者诸如自动驾驶、无人机路径自规划等方向的泛化性的验证相比规则建模明显具有更高的真实性。并且对输入数据要求更低规则建模一般需要有真实模型做参考并将模型主体拆分为不同部分并进行规则化成本、时效性均原文贴出的支持城市为什么生成原文指出高精度的三维地理空间重建技术确有价值已成为数字孪生、智能城市物流及虚拟仿真的基础支撑要素但有如下限制因素传统的三维重建MVS需要有高质量的多视角航片且处理时间长、计算资源消耗大不确定他们说的 10 分钟/平方公里是用什么硬件跑的但是这么说的话可能推理的计算成本会比传统倾斜重建要低很多最终模型效果也在一定程度上依赖人工的修复这句我自己加的激光雷达也类似采集、处理的算力和时间成本都很高。推理集为什么是遥感我猜是因为便宜、时效性高其他重建方案倾斜包括基于照片训练的 3DGS 都需要高清、密集、高覆盖度的航拍照片才能保证重建效果确实成本很高但是如果有这些数据了无论是倾斜重建还是 3DGS 出来的效果都一定比 ABot Earth 这种方式效果好但是高德地球这个版本是为了解决低成本快速重建所以两者本质不是一个东西。3D模型生成Sam 3D、Tripo 3D、混元、TRELLIS、CAT3D 等对单个模型的生成已经很不错了但是对大范围、连续、全要素且真实的生成确实还没办法。主要路径基于各种数据进行各种预处理数据空间匹配、多要素的语义区分、时间天气等成像干扰因素去除等之后先训练一套 3DGS 作为基础数据。基于上一步的 3DGS 场景构建虚拟相机进行多视角渲染覆盖从场景底部到顶部全范围及各个视角并且对摄像机的位置、高度、俯仰角和偏航角进行随机扰动以进一步增加视角多样性。对图块重建、视角渲染和数据集三个级别都构建了质量评估框架确保只有可靠、高质量的样本能进入最终训练的数据集。3DGS 的评价基于 PSNR/SSIM/LPIPS、几何精度、VLM感知质量评分以及空间完整性对不符合要求的打回重建或彻底排除。视图渲染评价消除空洞、边界以及累积不透明度较低的视图然后让 VLM 进行评价过滤。图块集合级别进行评价。空间多样性平衡追踪场景类别并采用分层抽样方法以确保没有单一的城市形态占据主导地位。语义去重对图块进行聚类并对近似重复的图块进行降采样避免模式崩溃。生成模型对比了 TRELLIS、混元等模型强调高德地球的生成大模型创建了一个新的直接学习并输出 3DGS 而不是 Mesh 的新模式。高德地球把 3DGS 的 LOD 做进了生成模型里面以解码器的方式让 LLM 直接输出具备合适 LOD 的 3DGS 而不是作为后续的后处理步骤。这个很吊在城市级这种超大范围的生成任务上一次性输出是不可行的他们设计了一种高效的无缝滑动窗口推理策略在生成阶段智能融合重叠区域并大幅度减少拼接痕迹。如何处理不同的遥感影像遥感受限于传感器、天气大气、时间等因素即使相同的卫星其遥感质量也难以一致更不说要接受那么多不同类型卫星的遥感产品这里高德他们在推理阶段引入了 VLM 来处理各种不同特征的遥感影像 让他们在最终喂给 LLM 之前能尽量贴合到训练集生成的模拟卫星影像的图像特征。具体效果不知道如何但是路径看着非常正确图像特征一致性的处理可以通过换用不同的 VLM 或者 VLM 技术迭代得到不断加强。高德地球如何展示这块对应高德地球 tech-report 的第四节工程化部署和交互展示方面。为了解决生成范围太大的问题他们把全球划分成了规则空间图块每个图块跑单独的任务。在 A100 上单次推理能处理一幅 4K 分辨率的卫星图像对应地面覆盖面积约为 1.6*1.6 km2.56 平方公里。这里秀了一下他们模型的长距离空间一致性因为训练数据是 200*200 米的区域推理范围大了 64 倍目标是在 2.56 平方公里范围内实现近乎完美的无缝性。图块范围如下图分块大小不一样是他们为了解决 web mercator 在不同维度下大小变形做的他们在千卡集群大概是 A100 吧下单个图块推理过程需要 25 分钟原文这里写的不清楚大概重算了一下可能是 3卡A100并行要跑25分钟/平方公里。这里按 20260610 的时间算一下推理成本按1.98刀来算就是 2.475刀/平方公里不到18元确实是便宜的。因为他们做的是全球的数据量很大有 3.2 万个图块32 万亿个高斯球大致做了如下操作因为高斯训练都是局部坐标系所以做了个地理位置的还原他们设计的 LOD 范围是 14~19 级17~19 级是 LLM 生成的14~16 是在 17 基础上用 Bhattacharyya distance 来统计做逐层降采样得到的然后提供了一个 tileset.json 的入口隐式遵守 z/x/y 的标准后续一些渲染相关的就是 CesiumJS 高德云境插件的相关描述了再后面第五章是模型质量优点之类的吹水部分了后续我会对照谷歌地球进行苛刻的用户评价当然这两个东西其实不应该放到一起去比较因为成本、出现的时间什么的都有显著差距但是你高德地球自己对比的谷歌地球我用相同标的应是合理的后续对比不考虑成本、技术差异和现有生态的契合度只对比视觉效果和真实度。吹水部分丢个雷达图在这苛刻的用户的对比鸡蛋里挑骨头了tech-report 有提到他们评价结果是 ABot-Earth 0.5 比谷歌地球有更好的美学评分这个确实见仁见智吧至少目前阶段我还是觉得离谷歌地球还是有一定差距这里的差距仅指视觉效果上。地标性建筑以中国台北101大厦为例谷歌的倾斜 Mesh 从几何、纹理、颜色、场景视觉效果等方面都更优。确实这么对比不合适ABot-Earth 目前是快速、低成本且只需要输出遥感影像就能生成的场景所以此处的所有对比不是刻意抹黑高德只是从用户角度给个真实评价仅对标 tech-report 中视觉效果部分后续也会有 ABot-Earth 优势点的对比。对基于遥感影像的生成模型进行地表建筑的对比确实过于苛刻所以地标建筑仅对比这一例。现代化高楼从可视化角度来看ABot-Earth 生成的城市模型确实几何合理、贴图颜色一致性强但是可视化效果比谷歌地球仍略有不足树木除外树木的看着高德地球的更好。但是对比下来会有真实性的存疑从两者的对比来看ABot-Earth 生成的城市在建筑高度和特征在现代化高楼通常是异形建筑上还略有不足。低矮房屋在非特异性建筑上ABot-Earth的还原程度显著更好相比高德地球的高楼区域但是依旧存在较多的建筑高度估计错误和谷歌地球比无论视觉效果、真实性均仍有较大差距数据稀疏区如下图在德黑兰这种对美不友好、或欠发达、或地理信息管制严格地区谷歌地球几无数据至少明面上没有ABot-Earth 在这些地方可以基于遥感快速生成城市场景确实是 0 和 1 的区别
高德地球-ABot-Earth 0.5
发布时间:2026/6/12 16:45:55
Lun.A, 2026.06.10“高德地球”是我自己这么叫官方没这么叫后文我均以“高德地球”为名替代官方名称官方地址ABot Earth Studio · 即刻生成你的星球技术要点生成式 AI 模型大概率也是 Scaling Law 的随着数据集和算力的提升生成模型的质量和速度依旧有很大的提升空间训练集卫星影像使用的是多视角卫星影像即使用遥感对地面大多数地区都有一定倾斜角度的特点基于 Orbit2Ground高德和北大一起搞的一个有公开推文来还原建筑高度和模糊的侧面贴图后续接入自己训练的 FLUX 模型来对贴图进行修复。核心训练数据低空航片以高质量低空、多视角航片可能来自谷歌地球倾斜重渲染或者其他途径的采集数据作为核心训练集并可辅以点云或倾斜Mesh做先验数据来提升重建精度城市图片是以街景、无人机图片、城市低点位渲染图注原文特地说了所有多视角数据用的都是开源数据和采购的专有数据没用合成资产估计是为了避免版权问题。但是我还是保留使用了谷歌倾斜的看法因为全球各地收集那么多高质量低空航片的难度太大。但是无所谓GPT训练时候爬了多少数据也没提版权、付费的事为了人类进步嘛不丢人。推理时仅依赖遥感影像10分钟/平方公里创作空间支持通过文本来生成虚实结合的三维城市看描述应该是支持对场景风格、模型贴图材质等要素进行自定义生成没有内测权限不确定使用效果如何推理速度快原文表达为 10分钟/平方公里重新算了一下大概是 3卡 A100 并行跑的速度输入数据要求低推理仅要求输入遥感影像渲染与数据标准已打通且整体分块和 LOD 切换较丝滑无特别明显顿挫感。这条相对容易无论李飞飞团队、Spark 2.0、Bentley、ESRI 都已有完整解决方案且有开源方案可参考目前释出的版本是以 Ceisum.js 为主 高德云境插件 自定义存储格式 方式提供的 B 端 3DGS 渲染。高德云境也有 UE 插件但处于非常早期阶段不具有实用性。考虑 3DGS 生态的迅速成熟Bentley、ESRI、Spark 2.0、Khronos 等以及 3DGS 向传统 Mesh 转换、或基于 3DGS 渲染图走 3D AI 生成 Mesh 等方向的不断完善打通传统建模、渲染的路径也不具有明显短板。ABot-Earth 0.5 版本已生成超过 300 个城市和 190 个国家目前看主要集中在全球的各个大城市上可能和训练集数据有关大城市数据更好获取如谷歌全球倾斜也集中在大城市上是个很好的数据源在小城市或乡村上的泛化性如何仍需测试但小城市无论是资金还是注意力对其的专注度都不高即使效果很差也没有太大影响并且可以通过补充数据集来迅速补齐短板。核心流程如下高德地球核心的几步在模型生成、3DGS的LOD及分块和最终的渲染方面真正核心的还是训练的这个大模型其他的都是一些工程上的壁垒。原文简读应用方向原文指出目前版本的主要应用方向是以超低成本来缩小模拟仿真和真实世界的差距闭环诸如“无人机导航”、智驾仿真我自己补充的、具身智能Maybe等应用场景。从目前释出的版本来看核心技术在高推理速度和低输入要求带来的低成本、快速的仿真场景搭建。相比传统倾斜重建具有速度快的优势但精细度在目前模型参数量具体多少我不知道情况下差距仍明显但可能已经可以一些低精度场景的需求或者诸如自动驾驶、无人机路径自规划等方向的泛化性的验证相比规则建模明显具有更高的真实性。并且对输入数据要求更低规则建模一般需要有真实模型做参考并将模型主体拆分为不同部分并进行规则化成本、时效性均原文贴出的支持城市为什么生成原文指出高精度的三维地理空间重建技术确有价值已成为数字孪生、智能城市物流及虚拟仿真的基础支撑要素但有如下限制因素传统的三维重建MVS需要有高质量的多视角航片且处理时间长、计算资源消耗大不确定他们说的 10 分钟/平方公里是用什么硬件跑的但是这么说的话可能推理的计算成本会比传统倾斜重建要低很多最终模型效果也在一定程度上依赖人工的修复这句我自己加的激光雷达也类似采集、处理的算力和时间成本都很高。推理集为什么是遥感我猜是因为便宜、时效性高其他重建方案倾斜包括基于照片训练的 3DGS 都需要高清、密集、高覆盖度的航拍照片才能保证重建效果确实成本很高但是如果有这些数据了无论是倾斜重建还是 3DGS 出来的效果都一定比 ABot Earth 这种方式效果好但是高德地球这个版本是为了解决低成本快速重建所以两者本质不是一个东西。3D模型生成Sam 3D、Tripo 3D、混元、TRELLIS、CAT3D 等对单个模型的生成已经很不错了但是对大范围、连续、全要素且真实的生成确实还没办法。主要路径基于各种数据进行各种预处理数据空间匹配、多要素的语义区分、时间天气等成像干扰因素去除等之后先训练一套 3DGS 作为基础数据。基于上一步的 3DGS 场景构建虚拟相机进行多视角渲染覆盖从场景底部到顶部全范围及各个视角并且对摄像机的位置、高度、俯仰角和偏航角进行随机扰动以进一步增加视角多样性。对图块重建、视角渲染和数据集三个级别都构建了质量评估框架确保只有可靠、高质量的样本能进入最终训练的数据集。3DGS 的评价基于 PSNR/SSIM/LPIPS、几何精度、VLM感知质量评分以及空间完整性对不符合要求的打回重建或彻底排除。视图渲染评价消除空洞、边界以及累积不透明度较低的视图然后让 VLM 进行评价过滤。图块集合级别进行评价。空间多样性平衡追踪场景类别并采用分层抽样方法以确保没有单一的城市形态占据主导地位。语义去重对图块进行聚类并对近似重复的图块进行降采样避免模式崩溃。生成模型对比了 TRELLIS、混元等模型强调高德地球的生成大模型创建了一个新的直接学习并输出 3DGS 而不是 Mesh 的新模式。高德地球把 3DGS 的 LOD 做进了生成模型里面以解码器的方式让 LLM 直接输出具备合适 LOD 的 3DGS 而不是作为后续的后处理步骤。这个很吊在城市级这种超大范围的生成任务上一次性输出是不可行的他们设计了一种高效的无缝滑动窗口推理策略在生成阶段智能融合重叠区域并大幅度减少拼接痕迹。如何处理不同的遥感影像遥感受限于传感器、天气大气、时间等因素即使相同的卫星其遥感质量也难以一致更不说要接受那么多不同类型卫星的遥感产品这里高德他们在推理阶段引入了 VLM 来处理各种不同特征的遥感影像 让他们在最终喂给 LLM 之前能尽量贴合到训练集生成的模拟卫星影像的图像特征。具体效果不知道如何但是路径看着非常正确图像特征一致性的处理可以通过换用不同的 VLM 或者 VLM 技术迭代得到不断加强。高德地球如何展示这块对应高德地球 tech-report 的第四节工程化部署和交互展示方面。为了解决生成范围太大的问题他们把全球划分成了规则空间图块每个图块跑单独的任务。在 A100 上单次推理能处理一幅 4K 分辨率的卫星图像对应地面覆盖面积约为 1.6*1.6 km2.56 平方公里。这里秀了一下他们模型的长距离空间一致性因为训练数据是 200*200 米的区域推理范围大了 64 倍目标是在 2.56 平方公里范围内实现近乎完美的无缝性。图块范围如下图分块大小不一样是他们为了解决 web mercator 在不同维度下大小变形做的他们在千卡集群大概是 A100 吧下单个图块推理过程需要 25 分钟原文这里写的不清楚大概重算了一下可能是 3卡A100并行要跑25分钟/平方公里。这里按 20260610 的时间算一下推理成本按1.98刀来算就是 2.475刀/平方公里不到18元确实是便宜的。因为他们做的是全球的数据量很大有 3.2 万个图块32 万亿个高斯球大致做了如下操作因为高斯训练都是局部坐标系所以做了个地理位置的还原他们设计的 LOD 范围是 14~19 级17~19 级是 LLM 生成的14~16 是在 17 基础上用 Bhattacharyya distance 来统计做逐层降采样得到的然后提供了一个 tileset.json 的入口隐式遵守 z/x/y 的标准后续一些渲染相关的就是 CesiumJS 高德云境插件的相关描述了再后面第五章是模型质量优点之类的吹水部分了后续我会对照谷歌地球进行苛刻的用户评价当然这两个东西其实不应该放到一起去比较因为成本、出现的时间什么的都有显著差距但是你高德地球自己对比的谷歌地球我用相同标的应是合理的后续对比不考虑成本、技术差异和现有生态的契合度只对比视觉效果和真实度。吹水部分丢个雷达图在这苛刻的用户的对比鸡蛋里挑骨头了tech-report 有提到他们评价结果是 ABot-Earth 0.5 比谷歌地球有更好的美学评分这个确实见仁见智吧至少目前阶段我还是觉得离谷歌地球还是有一定差距这里的差距仅指视觉效果上。地标性建筑以中国台北101大厦为例谷歌的倾斜 Mesh 从几何、纹理、颜色、场景视觉效果等方面都更优。确实这么对比不合适ABot-Earth 目前是快速、低成本且只需要输出遥感影像就能生成的场景所以此处的所有对比不是刻意抹黑高德只是从用户角度给个真实评价仅对标 tech-report 中视觉效果部分后续也会有 ABot-Earth 优势点的对比。对基于遥感影像的生成模型进行地表建筑的对比确实过于苛刻所以地标建筑仅对比这一例。现代化高楼从可视化角度来看ABot-Earth 生成的城市模型确实几何合理、贴图颜色一致性强但是可视化效果比谷歌地球仍略有不足树木除外树木的看着高德地球的更好。但是对比下来会有真实性的存疑从两者的对比来看ABot-Earth 生成的城市在建筑高度和特征在现代化高楼通常是异形建筑上还略有不足。低矮房屋在非特异性建筑上ABot-Earth的还原程度显著更好相比高德地球的高楼区域但是依旧存在较多的建筑高度估计错误和谷歌地球比无论视觉效果、真实性均仍有较大差距数据稀疏区如下图在德黑兰这种对美不友好、或欠发达、或地理信息管制严格地区谷歌地球几无数据至少明面上没有ABot-Earth 在这些地方可以基于遥感快速生成城市场景确实是 0 和 1 的区别