ASCENT：突破多楼层导航的零样本物体目标导航框架

发布时间：2026/6/16 12:53:26

1. 引言在现代智能机器人的应用场景中服务型机器人和配送机器人正逐步走入多楼层建筑环境。设想这样一个场景你向家用服务机器人发出指令帮我找到电视机但电视机位于楼上的客厅。对于人类而言这是一个自然而直观的任务——我们会本能地上楼、探索房间、最终找到目标物体。然而对于当前的机器人导航系统来说这个看似简单的任务却充满了技术挑战特别是在陌生环境中进行导航时。物体目标导航Object-Goal Navigation, OGN是机器人领域的一个核心研究方向其目标是让机器人在未知环境中自主寻找并到达指定的目标物体。近年来随着深度学习和计算机视觉技术的发展OGN系统在单楼层环境中已经取得了显著进展。然而当我们将视野扩展到多楼层建筑时现有系统普遍暴露出严重的局限性。这些局限性不仅限制了机器人的实际应用范围也阻碍了服务机器人在家庭、办公楼、商场等真实场景中的广泛部署。为了量化多楼层导航问题的重要性研究团队对两个广泛使用的OGN基准数据集进行了深入分析HM3DHabitat-Matterport 3D和MP3DMatterport3D。这两个数据集包含了大量真实世界的室内场景扫描数据被学术界和工业界广泛用于评估导航算法的性能。统计结果揭示了一个令人震惊的事实在HM3D和MP3D数据集的验证集中超过65%的场景涉及多楼层建筑结构。更重要的是约28%的导航任务明确要求机器人进行跨楼层移动才能到达目标物体。这意味着如果一个导航系统无法处理多楼层场景它将在超过四分之一的实际任务中直接失败。这些数据清晰地表明多楼层导航不是一个边缘化的特殊场景而是机器人在真实世界中必须面对的普遍挑战。然而现有的大多数OGN方法在设计时都隐含地假设机器人只在单一楼层活动这种假设与实际应用需求之间存在着巨大的鸿沟。针对上述挑战来自香港科技大学广州、香港科技大学、新加坡国立大学和清华大学的联合研究团队提出了ASCENTAutonomous Stair-aware Cross-floor Exploration and Navigation Technology框架。这是首个支持在线多楼层零样本物体导航的完整系统能够在未知的多楼层建筑中自主探索并找到目标物体无需预先构建地图或针对特定任务进行训练。相关代码已经在Github开源了。2.核心技术架构ASCENT采用模块化设计由两个相互协作的核心模块组成多楼层抽象模块Multi-Floor Abstraction和粗到精推理模块Coarse-to-Fine Reasoning。这种设计既保证了系统的灵活性又确保了各模块之间的高效协同。从系统输入输出的角度来看ASCENT接收RGB-D相机的视觉输入经过多楼层抽象模块构建分层的环境表示再通过粗到精推理模块进行决策最终输出导航动作指令。整个过程完全在线进行机器人在探索过程中逐步建立对环境的理解无需依赖预先构建的全局地图。2.1 问题形式化与优化目标在技术层面ASCENT将物体目标导航问题形式化为一个双目标优化问题。系统需要在探索成本和目标到达成本之间寻找最优平衡τ ∗ arg ⁡ min ⁡ ( λ expl ⋅ c expl ( τ ) λ goal ⋅ c goal ( τ ) ) \tau^* \arg\min(\lambda_{\text{expl}} \cdot c_{\text{expl}}(\tau) \lambda_{\text{goal}} \cdot c_{\text{goal}}(\tau))τ∗argmin(λexpl⋅cexpl(τ)λgoal⋅cgoal(τ))其中τ \tauτ表示导航轨迹c expl c_{\text{expl}}cexpl表示探索成本包括移动距离和时间c goal c_{\text{goal}}cgoal表示到达目标的成本λ expl \lambda_{\text{expl}}λexpl和λ goal \lambda_{\text{goal}}λgoal是权重系数。这个优化目标反映了导航任务的本质矛盾机器人需要充分探索环境以找到目标但又要避免无效的探索浪费时间和能量。多楼层抽象模块主要负责降低c goal c_{\text{goal}}cgoal通过构建准确的环境表示和楼层连接关系确保机器人能够高效地到达目标所在区域。粗到精推理模块则主要负责降低c expl c_{\text{expl}}cexpl通过智能的前沿点选择策略避免在低价值区域浪费探索资源。2.2 三大核心贡献ASCENT的技术贡献可以总结为三个方面第一提出了首个在线分层框架支持在未知多楼层建筑中进行探索和导航。与需要预先构建地图的方法不同ASCENT能够在探索过程中动态构建和更新环境表示适应各种未知的建筑结构。第二设计了粗到精的前沿点推理策略将LLM调用次数减少了90%以上。这一创新解决了基于LLM的规划方法的效率瓶颈使得实时导航成为可能。具体而言系统默认使用快速的VLM进行粗粒度评估仅在必要时才调用LLM进行深度推理。第三在标准基准测试中取得了最先进的性能。在HM3D数据集上ASCENT相比之前的最佳方法提升了7.1%的成功率SR和6.8%的路径长度加权成功率SPL在MP3D数据集上提升了3.4%的成功率。更重要的是在跨楼层导航任务中ASCENT的成功率达到33.3%大幅超越现有方法。3. 多楼层抽象模块构建分层环境表示多楼层抽象模块是ASCENT实现跨楼层导航的基础。该模块的核心思想是为每个楼层维护独立的鸟瞰图Bird’s Eye View, BEV表示同时建模楼层之间的连接关系。这种设计避免了将多楼层数据合并导致的空间重叠问题为后续的规划决策提供了清晰的环境认知。3.1 BEV地图表示双地图协同机制ASCENT采用两种互补的BEV地图表示来支持高效的探索和导航3.1.1 探索价值地图Exploration Value Map探索价值地图M val M_{\text{val}}Mval整合了语义相似度和空间可达性两个维度的信息。与之前的方法如VLFM仅考虑语义相似度不同ASCENT引入了基于距离的探索成本确保机器人优先探索既语义相关又空间可达的区域。对于第i ii个前沿点F i F_iFi其探索价值计算公式为defsort_waypoints(self,obstacle_map,value_map,frontiers:np.ndarray,env:int0,)-Tuple[np.ndarray,List[float]]:# 获取初始排序后的前沿点和值raw_sorted_pts,raw_sorted_valuesvalue_map[env].sort_waypoints(frontiers,0.5)# 过滤掉禁用的前沿点filtered_pairs[]forpt,valinzip(raw_sorted_pts,raw_sorted_values):iftuple(pt)notinobstacle_map[env]._disabled_frontiers:filtered_pairs.append((pt,val))returnnp.array([pair[0]forpairinfiltered_pairs]),[pair[1]forpairinfiltered_pairs]这个设计的直觉是当存在多个语义相关的前沿点时机器人应该优先探索距离较近的区域充分利用局部信息后再进行远距离探索。这种策略在实验中被证明能够显著提高探索效率。3.1.2 楼梯感知障碍地图Stair-Aware Obstacle Map楼梯感知障碍地图M obs M_{\text{obs}}Mobs是一个二值占用栅格记录环境中的可通行和不可通行区域。与传统方法的关键区别在于ASCENT不将楼梯视为障碍物而是通过语义分割和深度分析将其标记为可通行的特殊区域。该地图维护两个重要的持久化记录黑名单Blacklist记录已尝试但失败的楼梯位置避免重复尝试缓存Cache记录成功通过的楼梯的起点和终点坐标用于后续快速通行这种设计为跨楼层导航提供了拓扑基础使得机器人能够在多个楼层之间灵活切换。3.2 楼梯检测双模态识别机制楼梯检测是实现多楼层导航的关键技术。ASCENT采用双模态方法能够同时检测向上和向下的楼梯。3.2.1 向上楼梯检测向上楼梯的检测结合了物体检测和语义分割两种技术。系统首先使用物体检测器识别候选楼梯区域然后通过语义分割验证楼梯像素的占比。只有同时满足检测置信度和像素占比两个条件的候选区域才被认定为有效楼梯实际实现楼梯检测逻辑集成在ascent/mapping/obstacle_map.py中的ObstacleMap类。核心代码片段# ascent/mapping/obstacle_map.py:520-541 (向上楼梯检测)ifnp.any(stair_mask)0andnp.sum(seg_maskSTAIR_CLASS_ID)20:stair_map(seg_maskSTAIR_CLASS_ID)fusion_stair_maskstair_maskstair_mapifnp.any(fusion_stair_mask)0:stair_depthnp.full_like(depth,max_depth)scaled_depth_stairscaled_depth.copy()stair_depth[fusion_stair_mask]scaled_depth_stair[fusion_stair_mask]# 生成楼梯点云stair_cloud_camera_frameget_point_cloud(stair_depth,fusion_stair_mask,fx,fy)stair_cloud_episodic_frametransform_points(tf_camera_to_episodic,stair_cloud_camera_frame)stair_xy_pointsstair_cloud_episodic_frame[:,:2]stair_pixel_pointsself._xy_to_px(stair_xy_points)ifagent_pitch_angle0andclimb_stair_flag!2:forx,yinstair_pixel_points:if0xself._up_stair_map.shape[1]and0yself._up_stair_map.shape[0]:self._up_stair_map[y,x]13.2.2 向下楼梯检测主动探索策略向下楼梯的检测面临更大的挑战因为从当前视角往往无法直接看到下方的楼梯结构。ASCENT采用了一种创新的主动探索策略来解决这个问题。系统通过深度图识别深度值小于-0.2米的区域这些区域可能是地面的下沉部分暗示着向下楼梯的存在。当检测到这样的潜在区域时机器人会执行以下步骤执行LOOK_DOWN动作调整相机角度向下观察主动接近向潜在楼梯区域移动获得更好的观察视角验证确认使用物体检测和语义分割验证是否为真实的向下楼梯# ascent/mapping/obstacle_map.py:551-562 (向下楼梯检测)ifagent_pitch_angle0andreach_stairFalse:filled_depth_for_stairfill_small_holes(depth,self._hole_area_thresh)inverted_depth_for_stairmax_depth-filled_depth_for_stair*(max_depth-min_depth)inverted_maskinverted_depth_for_stair2# 检测深度下沉区域inverted_point_cloud_camera_frameget_point_cloud(inverted_depth_for_stair,inverted_mask,fx,fy)inverted_point_cloud_episodic_frametransform_points(tf_camera_to_episodic,inverted_point_cloud_camera_frame)below_ground_obstacle_cloud_0filter_points_by_height_below_ground_0(inverted_point_cloud_episodic_frame)below_ground_xy_pointsbelow_ground_obstacle_cloud_0[:,:2]below_ground_pixel_pointsself._xy_to_px(below_ground_xy_points)self._down_stair_map[below_ground_pixel_points[:,1],below_ground_pixel_points[:,0]]1这种主动探索策略使得ASCENT能够实现真正的双向楼层探索而不是像之前的方法那样只能单向通行。这是实现灵活多楼层导航的关键能力。3.3 跨楼层转换动态导航机制当系统决定进行楼层切换时跨楼层转换模块负责执行实际的上下楼操作。这个过程涉及多个精心设计的步骤。3.3.1 楼梯前沿点生成…详情请参照古月居

网盘直链下载助手终极指南：告别限速，三步搞定高速下载

网盘直链下载助手终极指南：告别限速，三步搞定高速下载【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ，支持百度网盘 / 阿里云盘 / 中国移动…

2026/6/16 12:52:45 阅读更多

从零构建企业级RAG系统：架构、优化与实战避坑指南

1. 项目概述：为什么RAG是当前AI应用的核心技术？如果你正在尝试构建一个基于大语言模型的智能问答、文档分析或客服系统，那么“幻觉”和“知识陈旧”这两个问题一定让你头疼不已。模型要么一本正经地胡说八道，要么对最新的公司政策…

2026/6/16 12:51:01 阅读更多

水果识别、智慧农业、采摘机器人、自动分拣系统、果园产量预估中利用AI YOLOv8训练评估检测数据集，检测识别果园苹果的识别

水果识别、智慧农业、采摘机器人、自动分拣系统、果园产量预估中利用AI YOLOv8训练评估检测数据集，检测识别果园苹果的识别文章目录 ✅ 一、系统环境搭建（CUDA Anaconda Python）1. 确认 CUDA 驱动（GPU 加速）2. 安装…

2026/6/16 12:51:01 阅读更多

如何快速优化旧电脑：终极Windows 11系统精简指南

如何快速优化旧电脑：终极Windows 11系统精简指南【免费下载链接】tiny11builder Scripts to build a trimmed-down Windows 11 image. 项目地址: https://gitcode.com/GitHub_Trending/ti/tiny11builder 还在为老旧电脑无法流畅运行Windows 11而烦恼吗&…

2026/6/16 14:28:24 阅读更多

如何快速部署B站成分检测器：3分钟掌握智能用户分析工具

如何快速部署B站成分检测器：3分钟掌握智能用户分析工具【免费下载链接】bilibili-comment-checker B站评论区自动标注成分，支持动态和关注识别以及手动输入 UID 识别项目地址: https://gitcode.com/gh_mirrors/bil/bilibili-comment-checker 你…

2026/6/16 14:28:24 阅读更多

免费音频编辑神器Audacity：6个简单步骤让你快速上手专业音频处理

免费音频编辑神器Audacity：6个简单步骤让你快速上手专业音频处理【免费下载链接】audacity Audio Editor 项目地址: https://gitcode.com/GitHub_Trending/au/audacity Audacity是一款功能强大的开源免费音频编辑软件，为播客制作者、音乐爱好者…

2026/6/16 14:27:22 阅读更多

Nemotron 3.5 ASR与NVIDIA NeMo框架集成：完整开发工作流终极指南

Nemotron 3.5 ASR与NVIDIA NeMo框架集成：完整开发工作流终极指南【免费下载链接】nemotron-3.5-asr-streaming-0.6b 项目地址: https://ai.gitcode.com/hf_mirrors/nvidia/nemotron-3.5-asr-streaming-0.6b Nemotron 3.5 ASR是NVIDIA开发的一款革命性的多语…

2026/6/16 14:27:22 阅读更多

iOS设备虚拟定位技术方案：基于iFakeLocation的安全位置模拟实现

iOS设备虚拟定位技术方案：基于iFakeLocation的安全位置模拟实现【免费下载链接】iFakeLocation Simulate locations on iOS devices on Windows, Mac and Ubuntu. 项目地址: https://gitcode.com/gh_mirrors/if/iFakeLocation 在移动应用开发与测试领域&…

2026/6/16 14:26:01 阅读更多

大麦抢票脚本终极指南：如何用Python自动化轻松抢到演唱会门票

大麦抢票脚本终极指南：如何用Python自动化轻松抢到演唱会门票【免费下载链接】DamaiHelper 大麦网演唱会演出抢票脚本。项目地址: https://gitcode.com/gh_mirrors/dama/DamaiHelper 还在为抢不到心仪演唱会门票而烦恼吗？DamaiHelper大麦抢票脚…

2026/6/16 14:25:00 阅读更多

《LangChain 系列》Human-in-the-loop：什么时候必须让人工介入？

前面几章我们已经把 Agent、Tool、LangGraph 都讲完了。现在要补上最关键的一环：人工介入。没有 HITL 的 Agent，很像没有刹车的自动驾驶。它能跑，也可能跑得很快，但真正上线会让人害怕。企业里最危险的不是模型回答错一句话&a…

2026/6/16 0:01:15 阅读更多

3步彻底移除Windows Defender：终极Windows Defender Remover使用指南

3步彻底移除Windows Defender：终极Windows Defender Remover使用指南【免费下载链接】windows-defender-remover A tool which is uses to remove Windows Defender in Windows 8.x, Windows 10 (every version) and Windows 11. 项目地址: https://gitcode.com/…

2026/6/16 0:01:15 阅读更多

永春堂商业模式积分系统介绍：从理念到实践的转变

永春堂商业模式系统小程序开发方案：合规化健康零售服务平台技术实现指南本方案依托永春堂品牌大健康产品（如营养补充剂、草本洗护、五谷杂粮等普通食品/日化品类） 找演示：看专栏⬆️ 一、系统定位：去层级化、重产品…

2026/6/16 0:02:16 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/16 0:26:20 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/16 0:26:19 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/16 0:26:18 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/16 10:45:34 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/16 10:18:11 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/16 10:18:16 阅读更多

相关文章