NuScenes 数据集合并工具

发布时间：2026/5/20 7:33:58

NuScenes 数据集合并工具一、背景介绍在自动驾驶感知算法的研发过程中数据集的规模和多样性直接影响模型的泛化能力。NuScenes作为自动驾驶领域最具影响力的公开数据集之一提供了丰富的多传感器数据和精细的标注信息。然而实际项目中常常需要整合多个来源的数据集以构建更大规模的训练数据。问题挑战合并 NuScenes 格式数据集并非简单的文件复制主要面临以下技术难题Token 冲突每个数据对象scene、sample、annotation 等都有唯一的 token 标识直接合并会导致重复跨数据集引用数据对象之间存在复杂的引用关系如 sample 引用 scene、annotation 引用 instance跨数据集时引用会失效类别映射不同数据集可能使用不同的 category token 标识同一类别文件冲突同名的数据文件需要重命名避免覆盖场景结构维护打乱样本后需要重新维护 scene-sample 的层级关系和样本间的 prev/next 链接。二、设计思路2.1 整体架构┌─────────────────┐ ┌─────────────────┐ │ Dataset 1 │ │ Dataset 2 │ └────────┬────────┘ └────────┬────────┘ │ │ ▼ ▼ ┌───────────────────────────────────────────┐ │ NuScenesMerger │ │ ┌─────────────────────────────────────┐ │ │ │ 1. Static Files Copy │ │ │ │ (attribute, category, sensor...) │ │ │ ├─────────────────────────────────────┤ │ │ │ 2. Token Mapping │ │ │ │ (category_token, calib_token) │ │ │ ├─────────────────────────────────────┤ │ │ │ 3. Dynamic Data Processing │ │ │ │ (scene, sample, annotation...) │ │ │ ├─────────────────────────────────────┤ │ │ │ 4. Sample Shuffling (Optional) │ │ │ ├─────────────────────────────────────┤ │ │ │ 5. File Copy Rename │ │ │ └─────────────────────────────────────┘ │ └──────────────────────┬───────────────────┘ │ ▼ ┌─────────────────┐ │ Merged Dataset │ └─────────────────┘2.2 核心设计原则原则说明Token 全局重映射使用 UUID 生成新 token建立 old_token → new_token 的映射表静态文件优先保留 dataset1 的静态元数据category、sensor 等确保类别体系一致动态数据合并对 scene、sample、annotation 等动态数据进行逐对象处理跨数据集引用修复建立 category_token 和 calibrated_sensor_token 的跨数据集映射文件唯一性保证通过在文件名后追加 UUID 后缀避免冲突三、功能介绍3.1 核心功能1.数据集合并支持两个 NuScenes 格式数据集的完整合并自动处理所有 JSON 元数据文件智能复制并重命名数据文件2.Token 管理自动生成新 token 避免冲突维护完整的 token 映射关系修复跨数据集的 token 引用3.样本打乱Shuffle跨场景打乱所有样本重新建立 scene-sample 层级关系修复样本间的 prev/next 链接支持随机种子保证可复现性4.完整性验证检查并修复无效的 token 引用自动处理孤立的 prev/next 链接3.2 命令行接口# 基础用法python merge_nuscenes_datasets.py dataset1/nuscenes dataset2/nuscenes# 启用样本打乱python merge_nuscenes_datasets.py dataset1/nuscenes dataset2/nuscenes--shuffle# 启用打乱并指定随机种子python merge_nuscenes_datasets.py dataset1/nuscenes dataset2/nuscenes--shuffle12345四、核心代码讲解4.1 Token 映射机制def_remap_token(self,old_token:str)-str:Remap a token to a new unique tokenifold_tokennotinself.token_map:self.token_map[old_token]self._generate_new_token()returnself.token_map[old_token]设计要点使用字典self.token_map维护 old_token → new_token 的映射相同的 old_token 始终映射到相同的 new_token保证引用一致性使用 UUID4 生成新 token确保全局唯一性4.2 类别跨数据集映射def_build_category_mapping(self):Build mapping from dataset2 category tokens to dataset1 category tokenscat1self._load_json(os.path.join(self.dataset1_path,v1.0-mini,category.json))cat2self._load_json(os.path.join(self.dataset2_path,v1.0-mini,category.json))name_to_token1{cat[name]:cat[token]forcatincat1}forname,token2inname_to_token2.items():ifnameinname_to_token1:self.category_token_map[token2]name_to_token1[name]解决的问题不同数据集可能为同一类别如car分配不同的 token通过类别名称建立映射关系确保合并后类别引用一致。4.3 递归 Token 重映射def_remap_tokens_in_data(self,data:Any,is_dataset2:boolFalse)-Any:Recursively remap all tokens in data structureifisinstance(data,dict):new_data{}forkey,valueindata.items():ifkeytoken:new_data[key]self._remap_token(value)elifkeycategory_tokenandis_dataset2:ifvalueinself.category_token_map:new_data[key]self.category_token_map[value]elifkeyin[scene_token,sample_token,ego_pose_token,...]:ifisinstance(value,str)andvalue:new_data[key]self._remap_token(value)......核心逻辑递归遍历嵌套数据结构根据字段名识别需要重映射的 token对 dataset2 的 category_token 进行特殊处理映射到 dataset1 的对应 token4.4 样本打乱算法def_shuffle_samples(self):Shuffle all samples across scenesrandom.seed(self.shuffle_seed)# Shuffle all samplesall_samplesself.all_samples random.shuffle(all_samples)# Distribute samples evenly across scenessamples_per_scenelen(all_samples)//len(self.all_scenes)remainderlen(all_samples)%len(self.all_scenes)# Reset and rebuild scene-sample relationshipsforsceneinself.all_scenes:scene[first_sample_token]scene[last_sample_token]sample_idx0forscene_idx,sceneinenumerate(self.all_scenes):scene_samplesall_samples[sample_idx:sample_idxsamples_per_scene(1ifscene_idxremainderelse0)]sample_idxlen(scene_samples)# Update scene referencesscene[first_sample_token]scene_samples[0][token]scene[last_sample_token]scene_samples[-1][token]# Update prev/next linksfori,sampleinenumerate(scene_samples):sample[scene_token]scene[token]sample[prev]scene_samples[i-1][token]ifi0elsesample[next]scene_samples[i1][token]ifilen(scene_samples)-1else算法流程打乱样本使用 Fisher-Yates 算法随机打乱所有样本均匀分配按场景数量均分样本余数均匀分配到前 N 个场景重建链接更新每个场景的 first/last_sample_token修复样本间的双向链表。4.5 无效引用修复# Check and fix prev referenceifsample[prev]:ifsample[prev]insample_tokens:sample[prev]self._remap_token(sample[prev])else:sample[prev]# Invalid reference, set to empty设计考虑dataset2 中的样本可能引用了 dataset1 中不存在的 token如 prev 指向 dataset1 的样本通过预收集当前数据集的所有 token过滤无效引用。五、典型应用场景5.1 数据集扩充场景将两个采集批次的数据合并为一个更大的训练集。python merge_nuscenes_datasets.py batch1/nuscenes batch2/nuscenes价值扩大训练数据规模提升模型泛化能力。5.2 数据增强场景通过打乱样本顺序破坏原有场景的时间连续性增强模型对随机时序数据的鲁棒性。python merge_nuscenes_datasets.py train_set1/nuscenes train_set2/nuscenes--shuffle42价值防止模型学习到数据集的时序偏差提升实际部署效果。5.3 跨域数据融合场景合并不同城市、不同天气条件下采集的数据。python merge_nuscenes_datasets.py beijing/nuscenes shanghai/nuscenes--shuffle价值构建多样化数据集增强模型对不同环境的适应性。5.4 数据集版本管理场景合并同一项目的不同版本数据集保持数据格式一致性。python merge_nuscenes_datasets.py v1.0/nuscenes v2.0/nuscenes价值简化数据版本管理确保实验可复现性。六、技术亮点6.1 安全性设计特性实现方式文件覆盖保护复制前检查目标文件是否存在输出警告信息原始数据保护使用.copy()创建副本避免修改原始数据异常处理对缺失文件进行容错处理输出警告而非中断6.2 可扩展性模块化设计每个功能独立为方法便于后续扩展配置化传感器传感器列表通过配置定义支持自定义传感器类型可复现性支持设置随机种子确保打乱结果可重复。6.3 性能优化单次遍历对每个数据集仅进行一次完整遍历内存效率按需加载 JSON 文件避免一次性加载全部数据批量操作使用列表扩展extend而非逐元素添加。七、总结merge_nuscenes_datasets.py是一个专业的 NuScenes 数据集合并工具解决了多数据集合并中的核心技术难题Token 冲突问题通过全局重映射机制保证唯一性跨数据集引用建立 category 和 calibrated_sensor 的映射关系样本打乱实现跨场景打乱并维护数据结构一致性数据完整性自动检测和修复无效引用。该工具已通过visualize_nuscenes.py验证生成的合并数据集完全符合 NuScenes 规范可直接用于模型训练和评估。

基于Linux CentOS7.9部署MySQL服务以及简单MySQL数据库操作

环境规划 cat /etc/redhat-release ip -4 acat /etc/sysconfig/network-scripts/ifcfg-ens33安装MySQL 基本环境清理停止服务 systemctl stop mariadb查找mariadb 软件包rpm -qa |grep mariadb卸载mariadb 软件包yum -y remove MariaDB *查找MariaDB 相关文件find /-name mysq…

2026/5/20 7:33:38 阅读更多

渲染天空、日落与行星：给前端初学者的实时大气可视化入门指南

渲染天空、日落与行星：给前端初学者的实时大气可视化入门指南你有没有想过，为什么浏览器里的一片蓝天看起来那么“假”？为什么游戏中的夕阳总像打了层柔光滤镜，却少了那种空气里浮动的微粒感？又或者，当你拖…

2026/5/20 7:32:58 阅读更多

Keil C251中NCONST数据丢失问题与HEX-386解决方案

1. 问题现象与背景解析最近在Keil C251开发环境中遇到一个棘手问题：项目中使用了NCONST空间，虽然MAP文件显示所有NCONST段都已正确放置，但生成的HEX文件中却找不到对应的数据内容。这种情况在嵌入式开发中并不罕见，特别是当项目需…

2026/5/20 7:32:17 阅读更多

IAP升级

通常实现 IAP 功能时，即用户程序运行中作自身的更新操作，需要在设计固件程序时编写两个项目代码，第一个项目程序不执行正常的功能操作，而只是通过某种通信方式(如 USB、USART)接收程序或数据， 执行对第二部分代码的更…

2026/5/20 21:22:57 阅读更多

避坑指南：在CentOS 7上为HugeGraph-Server配置MySQL后端存储（附完整配置文件）

CentOS 7环境下HugeGraph-Server与MySQL深度集成实战当图数据库遇上关系型存储，会碰撞出怎样的火花？HugeGraph作为Apache旗下的分布式图数据库，其灵活的后端存储设计允许开发者根据业务场景选择不同存储引擎。本文将聚焦MySQL这一经典关系型…

2026/5/20 21:22:57 阅读更多

STM32结构体对齐：原理、设置与内存优化实战

1. 项目概述：为什么STM32开发者必须关注结构体对齐？在嵌入式开发，尤其是基于ARM Cortex-M内核的STM32项目中，结构体对齐（Structure Alignment）绝不是一个可以忽略的“编译器细节”。它直接关系到内存使用效…

2026/5/20 21:22:57 阅读更多

OriginPro 2023 相关性热图插件 CorrelationPlot 保姆级安装与配置指南（附资源下载）

OriginPro 2023 CorrelationPlot插件全流程配置指南：从零基础到高效科研可视化科研数据处理中，相关性热图（Correlation Plot）是揭示变量间关联强度的利器。对于非编程背景的研究者而言，OriginPro的CorrelationPlot插件…

2026/5/20 21:21:30 阅读更多

别再一个个点了！Mathtype 7.4.8最全快捷键清单，让你写论文效率翻倍

Mathtype 7.4.8效率革命：用快捷键重构你的学术写作流程在深夜的实验室里，屏幕荧光映照着一张疲惫的面孔——这可能是每个科研工作者都熟悉的场景。当论文 deadline 迫在眉睫，而文档中还有几十个复杂公式等待输入时，频繁在键盘和鼠…

2026/5/20 21:20:25 阅读更多

华硕笔记本性能管家G-Helper：告别臃肿控制中心，重获系统掌控权

华硕笔记本性能管家G-Helper：告别臃肿控制中心，重获系统掌控权【免费下载链接】g-helper Lightweight Armoury Crate alternative for Asus laptops with nearly the same functionality. Works with ROG Zephyrus, Flow, TUF, Strix, Scar, ProArt, Vi…

2026/5/20 21:19:22 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/20 16:14:50 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章

基于Linux CentOS7.9部署MySQL服务以及简单MySQL数据库操作

渲染天空、日落与行星：给前端初学者的实时大气可视化入门指南

Keil C251中NCONST数据丢失问题与HEX-386解决方案

IAP升级

避坑指南：在CentOS 7上为HugeGraph-Server配置MySQL后端存储（附完整配置文件）

STM32结构体对齐：原理、设置与内存优化实战

OriginPro 2023 相关性热图插件 CorrelationPlot 保姆级安装与配置指南（附资源下载）

别再一个个点了！Mathtype 7.4.8最全快捷键清单，让你写论文效率翻倍

华硕笔记本性能管家G-Helper：告别臃肿控制中心，重获系统掌控权

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

百考通：AI赋能期刊论文写作，智能生成优质内容

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)