PubLayNet数据格式详解：COCO格式标注与自定义数据集转换

发布时间：2026/5/26 23:38:21

PubLayNet数据格式详解COCO格式标注与自定义数据集转换【免费下载链接】PubLayNet项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNetPubLayNet是一个专注于学术文献页面布局分析的数据集采用COCO格式进行标注包含文本、标题、列表、表格和图表等5类常见元素。本文将详细解析其数据结构并提供自定义数据集转换的实用指南。核心数据结构解析COCO格式标注文件PubLayNet的标注数据遵循COCOCommon Objects in Context标准格式主要包含以下几个部分images存储图像基本信息包括文件名、高度、宽度和唯一IDannotations标注信息数组每个标注包含以下关键字段segmentation多边形坐标数组描述区域轮廓area区域面积iscrowd是否为群体标注0表示单个对象image_id关联图像IDbbox边界框坐标 [x, y, width, height]category_id类别ID1-5分别对应text、title、list、table、figureid标注唯一IDcategories类别定义包含类别ID和名称示例标注文件可参考examples/samples.json类别定义说明PubLayNet定义了5个核心类别在标注文件中通过category_id字段标识类别ID类别名称描述1text正文文本内容2title标题文本3list列表项4table表格5figure图表及图片标注可视化展示下图展示了PubLayNet数据集中典型的页面布局标注示例不同颜色的边界框代表不同类型的页面元素图PubLayNet数据集中学术论文页面的布局标注可视化展示了文本、标题、列表、表格和图表的标注效果自定义数据集转换步骤1. 准备自定义数据集确保你的数据集包含图像文件如JPG格式标注文件可采用JSON格式2. 格式转换工具使用PubLayNet提供了模型转换脚本可将预训练模型适配到自定义数据集python pre-trained-models/convert_PubLayNet_model.py \ --PubLayNet_model path/to/pretrained/model \ --lookup_table [-1,0,1,2,3,4] \ --output path/to/output/model3. 转换脚本核心功能convert_PubLayNet_model.py主要完成以下工作加载预训练模型权重根据类别映射表lookup_table调整输出层初始化新类别的权重参数保存转换后的模型4. 类别映射表配置lookup_table参数是一个JSON数组定义目标数据集类别与PubLayNet类别的映射关系正数表示使用对应ID的PubLayNet类别权重-1表示随机初始化该类别权重示例[-1,0,1,2,3,4]表示目标数据集有6个类别其中第1-5类分别对应PubLayNet的text到figure类别。数据应用场景预训练模型使用PubLayNet提供Faster-RCNN和Mask-RCNN两种预训练模型配置Faster-RCNN:pre-trained-models/Faster-RCNN/e2e_faster_rcnn_X-101-64x4d-FPN_1x.yamlMask-RCNN:pre-trained-models/Mask-RCNN/e2e_mask_rcnn_X-101-64x4d-FPN_1x.yaml学术论文解析通过PubLayNet模型可以实现自动提取论文标题、摘要和正文识别表格和图表位置结构化学术文献内容总结PubLayNet采用COCO格式标注为学术文档布局分析提供了高质量的训练数据。通过本文介绍的转换方法你可以轻松将其预训练模型应用到自定义数据集快速构建文档分析系统。无论是学术研究还是商业应用PubLayNet都能为文档理解任务提供强大支持。如果你需要进一步探索数据集可以参考exploring_PubLayNet_dataset.ipynb交互式分析 notebook或查看ICDAR竞赛相关数据ICDAR_SLR_competition/test.json。【免费下载链接】PubLayNet项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNet创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

基于Siamese网络与ELMO的语义相似度计算：从原理到Quora重复问题检测实践

1. 项目概述：从社区问答的“顽疾”到技术解法在任何一个蓬勃发展的在线社区，尤其是像Quora、知乎这样的问答平台，内容质量与用户体验的平衡始终是核心挑战。想象一下，你是一个热心的知识分享者，精心撰写了一篇关于“如…

2026/5/26 23:38:21 阅读更多

GitLabJenkins部署02：配置 Jenkins Agent （实际运行构建任务的节点）并让 GitLab 流水线运行在 Agent 上完整教程

下面这份可以直接作为第二部分 CSDN 正文使用。它会和你现有文章形成完整上下两篇：第一篇负责 GitLab + Jenkins Controller，第二篇负责 Jenkins Agent 接入和流水线改造。 Ubuntu 配置 Jenkins Agent 并让 GitLab 流水线运行在 Agent 上完整教程上一篇文章已经完成了：…

2026/5/26 23:38:01 阅读更多

哔咔漫画下载器终极指南：三步打造你的个人漫画图书馆

哔咔漫画下载器终极指南：三步打造你的个人漫画图书馆【免费下载链接】picacomic-downloader 哔咔漫画 picacomic pica漫画 bika漫画 PicACG 多线程下载器，带图形界面带收藏夹，已打包exe 下载速度飞快项目地址: https://gitcode.com/gh_m…

2026/5/26 23:37:40 阅读更多

2026年教程：视频号视频如何保存到手机相册？苹果安卓通用方法

如今微信视频号内容丰富，不少用户遇到心仪的视频，都想保存到手机相册随时观看。但很多视频关闭了原生下载权限，直接保存行不通。2026 年整理了全套实用方案，分别讲解安卓手机下载视频号视频到相册、苹果手机下载视频号视频到相册的…

2026/5/27 0:24:44 阅读更多

昇腾NPU与GPU天才计划——异构计算的融合艺术

昇腾910系列 NVIDIA GPU混部集群的调度与优化。一、异构集群架构 """ 昇腾 NVIDIA 混部集群┌─────────────────────────────────────────────┐ │ 统一调度层（Kubernetes） …

2026/5/27 0:23:43 阅读更多

终极Android ROM解包工具链：10+格式支持与跨平台ROM工具实战解析

终极Android ROM解包工具链：10格式支持与跨平台ROM工具实战解析【免费下载链接】unpackandroidrom 爬虫解包 Android ROM 项目地址: https://gitcode.com/gh_mirrors/un/unpackandroidrom 在Android系统定制与逆向工程领域，ROM解包是每个开发者必…

2026/5/27 0:21:20 阅读更多

从零构建MATLAB GUI手写板：集成CNN模型实现实时数字识别

1. 从零开始搭建MATLAB手写板GUI 第一次用MATLAB做图形界面时，我被它强大的GUI设计能力惊艳到了。相比其他编程语言动辄几十行的界面代码，MATLAB的GUIDE工具让拖拽式设计变得异常简单。我们先从最基础的界面搭建说起。打开MATLAB后，在命令窗…

2026/5/27 0:20:19 阅读更多

基于深度嵌入聚类与序列自编码的无监督日志异常检测方案LogDEC

1. 项目概述在复杂的IT系统里，日志就像是系统的“黑匣子”和“心电图”，它忠实地记录着每一次心跳、每一次呼吸，也记录着每一次“心律失常”。想象一下，一个大型金融机构的核心交易系统，每天产生TB级的日志&#xff0c…

2026/5/27 0:20:19 阅读更多

Go语言安全编程入门指南

Go语言安全编程入门指南引言在当今数字化时代，软件安全变得越来越重要。Go语言作为一门现代编程语言，提供了丰富的安全相关工具和标准库。本文将介绍Go语言安全编程的基础知识，包括常见的安全威胁、Go语言的安全特性以及最佳实践。一、Go语…

2026/5/27 0:18:37 阅读更多

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？

LVGL绘制平滑曲线避坑指南：为什么你的贝塞尔函数有毛刺？ 在嵌入式GUI开发中，贝塞尔曲线是实现流畅动画和优雅界面的核心工具。但许多开发者在使用LVGL绘制曲线时，总会遇到令人头疼的锯齿和毛刺问题。这背后隐藏着嵌入式设备特有的…

2026/5/27 0:00:16 阅读更多

告别手动输入！用Burpsuite插件captcha-killer-modified+ddddocr，5分钟搞定登录爆破验证码

自动化验证码识别实战：Burpsuite与ddddocr的高效联动方案验证码机制作为现代Web应用的基础安全防线，其对抗自动化攻击的能力直接影响系统安全性。但在安全测试领域，验证码往往成为效率瓶颈——传统手工识别方式让渗透测试人员每天浪费数小时在…

2026/5/27 0:00:36 阅读更多

中国AI岗位暴涨12倍，13种你没听过的AI岗位

2026年，中国AI岗位数量同比增长12倍，AI科学家月薪高达13.7万，高性能计算工程师出现“7个岗位抢1个人”的荒诞场面。与此同时，数据录入、基础财务分析、一线客服等岗位大幅下降。全球范围内，AI/ML岗位招聘量同比增长88%…

2026/5/27 0:03:59 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章