TT100K数据集类别不平衡？手把手教你用Python筛选并重划分（保留45类实战）

发布时间：2026/5/25 2:28:11

TT100K数据集类别不平衡解决方案Python实战指南当你第一次打开TT100K数据集时可能会被其庞大的图片数量震撼——train文件夹6105张test文件夹3071张other文件夹更是多达7641张。但兴奋过后细看类别分布问题就来了某些交通标志类别只有寥寥几张图片而其他类别却堆积如山。这种极端不平衡的数据分布直接训练模型效果往往惨不忍睹。1. 理解TT100K数据集的核心问题TT100K数据集全称Tsinghua-Tencent 100K是清华大学与腾讯联合发布的交通标志识别数据集。它包含上百种不同类型的交通标志但分布极不均匀数量差异悬殊部分常见标志有上千张图片而稀有标志可能只有个位数样本原始划分不合理train/test/other的划分方式不符合实际训练需求标注格式复杂原始标注信息需要额外处理才能用于主流框架我在处理这个数据集时发现直接使用原始划分训练出的模型在小样本类别上准确率几乎为零。经过多次实验总结出以下关键数据清洗原则数据清洗黄金法则删除样本量不足的类别往往比保留它们更能提升整体模型性能2. 环境准备与数据统计首先确保你的Python环境已安装以下必要库pip install numpy pandas pillow matplotlib opencv-python数据集目录结构通常如下tt100k_2021/ ├── annotations/ ├── other/ ├── test/ └── train/2.1 统计类别分布创建analyze_tt100k.py脚本统计每个类别的图片数量import os import json from collections import defaultdict def count_categories(data_dir): with open(os.path.join(data_dir, annotations.json)) as f: anno json.load(f) cat_count defaultdict(int) for img_id, img_info in anno[imgs].items(): for obj in img_info[objects]: cat_count[obj[category]] 1 return sorted(cat_count.items(), keylambda x: x[1], reverseTrue) if __name__ __main__: data_root tt100k_2021 counts count_categories(data_root) print(Top 10 categories by count:) for cat, cnt in counts[:10]: print(f{cat}: {cnt}) print(\nCategories with 100 samples:) under_100 [(cat, cnt) for cat, cnt in counts if cnt 100] for cat, cnt in under_100: print(f{cat}: {cnt})执行后会输出类似这样的结果Top 10 categories by count: pl100: 1243 pl120: 987 pl80: 876 [...] Categories with 100 samples: pm20: 23 ph4: 15 [...]2.2 可视化分析添加可视化代码更直观理解数据分布import matplotlib.pyplot as plt def plot_category_distribution(counts, threshold100): categories [x[0] for x in counts] counts [x[1] for x in counts] plt.figure(figsize(12, 6)) plt.bar(range(len(categories)), counts) plt.axhline(ythreshold, colorr, linestyle--) plt.xticks(range(len(categories)), categories, rotation90) plt.xlabel(Category) plt.ylabel(Count) plt.title(TT100K Category Distribution) plt.tight_layout() plt.savefig(category_distribution.png) plt.show()3. 数据清洗与类别筛选基于统计结果我们决定只保留样本量≥100的类别。以下是具体实现步骤3.1 创建类别过滤函数def filter_categories(data_dir, min_samples100): with open(os.path.join(data_dir, annotations.json)) as f: anno json.load(f) # 统计有效类别 valid_cats set() cat_count defaultdict(int) for img_id, img_info in anno[imgs].items(): for obj in img_info[objects]: cat_count[obj[category]] 1 valid_cats {cat for cat, cnt in cat_count.items() if cnt min_samples} print(fKeeping {len(valid_cats)} categories with ≥{min_samples} samples) # 过滤标注 new_anno {imgs: {}, types: anno[types]} kept_imgs 0 for img_id, img_info in anno[imgs].items(): valid_objs [obj for obj in img_info[objects] if obj[category] in valid_cats] if valid_objs: new_img_info img_info.copy() new_img_info[objects] valid_objs new_anno[imgs][img_id] new_img_info kept_imgs 1 print(fKept {kept_imgs} images with valid categories) return new_anno, valid_cats3.2 保存过滤后的标注def save_filtered_annotations(annotations, output_path): with open(output_path, w) as f: json.dump(annotations, f, indent2) print(fFiltered annotations saved to {output_path}) # 使用示例 filtered_anno, valid_cats filter_categories(tt100k_2021) save_filtered_annotations(filtered_anno, tt100k_2021/filtered_annotations.json)4. 数据集重新划分策略经过过滤后我们需要将数据重新划分为train/val/test三部分。推荐以下比例数据集比例图片数量示例Train70%~6800Val20%~1900Test10%~10004.1 划分实现代码import random import shutil def split_dataset(data_dir, output_dir, valid_cats, ratios(0.7, 0.2, 0.1)): # 确保输出目录存在 os.makedirs(output_dir, exist_okTrue) for subset in [train, val, test]: os.makedirs(os.path.join(output_dir, subset), exist_okTrue) # 收集所有有效图片路径 img_paths [] for subset in [train, test, other]: subset_dir os.path.join(data_dir, subset) for img_file in os.listdir(subset_dir): if img_file.endswith(.jpg): img_id os.path.splitext(img_file)[0] if img_id in filtered_anno[imgs]: img_paths.append((img_id, os.path.join(subset_dir, img_file))) # 随机打乱并划分 random.shuffle(img_paths) total len(img_paths) train_end int(total * ratios[0]) val_end train_end int(total * ratios[1]) # 复制文件 for i, (img_id, src_path) in enumerate(img_paths): if i train_end: dst train elif i val_end: dst val else: dst test shutil.copy(src_path, os.path.join(output_dir, dst, f{img_id}.jpg)) print(fDataset split complete: {total} images) print(fTrain: {train_end}, Val: {val_end-train_end}, Test: {total-val_end})4.2 划分后验证为确保划分质量建议检查每个子集的类别分布是否均衡是否有图片损坏标注文件是否正确对应def verify_split(output_dir, filtered_anno): # 检查图片完整性 for subset in [train, val, test]: subset_dir os.path.join(output_dir, subset) print(f\nVerifying {subset}:) img_files [f for f in os.listdir(subset_dir) if f.endswith(.jpg)] print(fTotal images: {len(img_files)}) # 检查随机样本 sample random.sample(img_files, min(5, len(img_files))) for img_file in sample: img_id os.path.splitext(img_file)[0] try: img Image.open(os.path.join(subset_dir, img_file)) img.verify() print(f{img_file}: OK, {len(filtered_anno[imgs][img_id][objects])} objects) except Exception as e: print(f{img_file}: Error - {str(e)})5. 高级技巧与优化建议5.1 处理剩余类别的策略对于被过滤掉的小样本类别可以考虑数据增强对剩余样本应用旋转、色彩变换等迁移学习先在大类上预训练再微调小类分层采样确保每个batch包含所有类别样本5.2 性能优化技巧处理大规模数据集时这些技巧可以节省时间# 使用多进程加速文件复制 from multiprocessing import Pool def copy_file(args): src, dst args shutil.copy(src, dst) def parallel_copy(file_pairs, workers4): with Pool(workers) as p: p.map(copy_file, file_pairs)5.3 常见问题排查问题现象可能原因解决方案标注文件缺失路径错误检查annotations.json路径图片数量不符过滤条件太严格调整min_samples阈值内存不足一次加载所有图片改用生成器分批处理6. 完整流程整合将所有步骤整合为可执行脚本process_tt100k.py#!/usr/bin/env python3 Complete TT100K dataset processing pipeline import os import json import random import shutil from collections import defaultdict from PIL import Image from multiprocessing import Pool # [之前定义的所有函数...] def main(): data_dir tt100k_2021 output_dir tt100k_processed min_samples 100 print(Step 1: Analyzing category distribution...) filtered_anno, valid_cats filter_categories(data_dir, min_samples) print(\nStep 2: Saving filtered annotations...) save_filtered_annotations(filtered_anno, os.path.join(output_dir, annotations.json)) print(\nStep 3: Splitting dataset...) split_dataset(data_dir, output_dir, valid_cats) print(\nStep 4: Verifying results...) verify_split(output_dir, filtered_anno) print(\nProcessing complete!) if __name__ __main__: main()执行这个脚本后你将获得一个结构清晰、类别平衡的数据集可直接用于模型训练。在我的实际项目中经过这样的处理后模型在测试集上的mAP提升了约15-20%特别是小样本类别的识别准确率有了显著改善。

Unity热更新稳定性的底层保障：SharpZipLib深度实践指南

1. 这个压缩库不是“又一个ZIP工具”，而是Unity项目里被低估的资源调度中枢在Unity游戏开发中，ICSharpCode.SharpZipLib这个名字常被误读为“老掉牙的.NET ZIP库”——很多人第一反应是：“Unity不是自带System.IO.Compression吗？还…

2026/5/25 2:27:51 阅读更多

PVE8.0虚拟机莫名宕机无日志？别急着降级，先检查这几个容易被忽略的配置

PVE8.0虚拟机宕机无日志排查指南：从硬件配置到系统优化的深度解决方案当PVE8.0节点突然宕机且日志中断时，多数用户的第一反应是降级系统版本。但根据我们处理超过200企业级PVE集群的经验，80%的类似问题根源往往隐藏在硬件配置与系统调优的细…

2026/5/25 2:27:30 阅读更多

张正友标定法到底在干啥？用大白话和Python代码带你理解相机畸变与内参矩阵

张正友标定法到底在干啥？用大白话和Python代码带你理解相机畸变与内参矩阵想象你拿着手机拍一张棋盘格照片，却发现格子的直线变成了波浪线——这就是镜头畸变在作怪。张正友标定法的神奇之处在于，它只需要你对着棋盘格拍几张照片，…

2026/5/25 2:26:09 阅读更多

LeetCode 280：摆动排序 | 原地调整算法

LeetCode 280：摆动排序 | 原地调整算法引言摆动排序（Wiggle Sort）是 LeetCode 第 280 题，难度为 Medium。题目要求原地调整数组，使数组满足 nums[0] < nums[1] > nums[2] < nums[3] ...。与摆动排序 II 不…

2026/5/25 3:24:46 阅读更多

澜起科技股东上海融迎拟减持：可套现超30亿公司刚港股募资80亿港元

雷递网乐天 5月23日澜起科技股份有限公司（证券代码：688008 证券简称：澜起科技）日前发布公告，宣布公司股东上海融迎企业管理合伙企业（有限合伙）拟转让 A 股股份总数为12,228,000 股，…

2026/5/25 3:23:44 阅读更多

Meteor-Files高级技巧：利用钩子和事件定制文件上传流程的完整指南

Meteor-Files高级技巧：利用钩子和事件定制文件上传流程的完整指南【免费下载链接】Meteor-Files 🚀 Upload files via DDP or HTTP to ☄️ Meteor server FS, AWS, GridFS, DropBox or Google Drive. Fast, secure and robust. 项目地址: https://gi…

2026/5/25 3:23:03 阅读更多

AArch64 Watchpoint调试机制原理与实践指南

1. AArch64 Watchpoint调试机制深度解析在嵌入式系统和底层软件开发中，调试硬件级别的内存访问行为是一项关键需求。AArch64架构提供的Watchpoint机制，为开发者提供了监控特定内存地址访问行为的强大工具。与传统的断点调试不同，Watchpoint专…

2026/5/25 3:21:43 阅读更多

黑洞扰动理论与引力波波形建模技术解析

1. 黑洞扰动理论与引力波天文学基础在引力波天文学领域，极端质量比旋进系统（Extreme Mass Ratio Inspiral, EMRI）的研究为我们理解强引力场动力学提供了独特窗口。这类系统通常由一个百万太阳质量量级的超大质量黑洞和一个恒星质量级别的致密…

2026/5/25 3:21:43 阅读更多

ViVeTool-GUI专业指南：解锁Windows隐藏功能的智能方案

ViVeTool-GUI专业指南：解锁Windows隐藏功能的智能方案【免费下载链接】ViVeTool-GUI Windows Feature Control GUI based on ViVe / ViVeTool 项目地址: https://gitcode.com/gh_mirrors/vi/ViVeTool-GUI 当Windows Insider版本中隐藏了众多未公开功能时&am…

2026/5/25 3:21:22 阅读更多

Go语言SQLite轻量级数据库应用

Go语言SQLite轻量级数据库应用引言 SQLite是一款轻量级的嵌入式数据库，无需独立服务进程，非常适合单机应用、移动端应用和开发测试环境。Go语言通过database/sql包配合go-sqlite3驱动可以方便地操作SQLite数据库。本文将深入探讨Go语言中SQLite的使用技…

2026/5/25 0:01:30 阅读更多

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验

【前端无障碍】屏幕阅读器兼容性：确保视障用户的良好体验前言大家好，我是cannonmonster01！今天咱们来聊聊屏幕阅读器兼容性这个话题。想象一下，一个视障用户打开你的网站，通过屏幕阅读器来浏览内容。如果你的网站没有…

2026/5/25 0:02:31 阅读更多

2026年横评10款降AI率软件:只选真正管用的那一款！

随着AI写作工具的广泛应用，论文写作和内容创作效率得到了显著提升，许多学生和职场人士都开始依赖这些工具来完成繁重的文字任务。然而，随着各大高校、期刊平台对AIGC内容检测技术的不断升级，AI生成内容的痕迹越来越容易被识别。不…

2026/5/25 0:04:13 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/25 1:05:07 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/25 1:05:13 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/25 1:05:14 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/24 15:30:50 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/24 15:03:26 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章