PubLayNet数据格式详解COCO格式标注与自定义数据集转换【免费下载链接】PubLayNet项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNetPubLayNet是一个专注于学术文献页面布局分析的数据集采用COCO格式进行标注包含文本、标题、列表、表格和图表等5类常见元素。本文将详细解析其数据结构并提供自定义数据集转换的实用指南。核心数据结构解析COCO格式标注文件PubLayNet的标注数据遵循COCOCommon Objects in Context标准格式主要包含以下几个部分images存储图像基本信息包括文件名、高度、宽度和唯一IDannotations标注信息数组每个标注包含以下关键字段segmentation多边形坐标数组描述区域轮廓area区域面积iscrowd是否为群体标注0表示单个对象image_id关联图像IDbbox边界框坐标 [x, y, width, height]category_id类别ID1-5分别对应text、title、list、table、figureid标注唯一IDcategories类别定义包含类别ID和名称示例标注文件可参考examples/samples.json类别定义说明PubLayNet定义了5个核心类别在标注文件中通过category_id字段标识类别ID类别名称描述1text正文文本内容2title标题文本3list列表项4table表格5figure图表及图片标注可视化展示下图展示了PubLayNet数据集中典型的页面布局标注示例不同颜色的边界框代表不同类型的页面元素图PubLayNet数据集中学术论文页面的布局标注可视化展示了文本、标题、列表、表格和图表的标注效果自定义数据集转换步骤1. 准备自定义数据集确保你的数据集包含图像文件如JPG格式标注文件可采用JSON格式2. 格式转换工具使用PubLayNet提供了模型转换脚本可将预训练模型适配到自定义数据集python pre-trained-models/convert_PubLayNet_model.py \ --PubLayNet_model path/to/pretrained/model \ --lookup_table [-1,0,1,2,3,4] \ --output path/to/output/model3. 转换脚本核心功能convert_PubLayNet_model.py主要完成以下工作加载预训练模型权重根据类别映射表lookup_table调整输出层初始化新类别的权重参数保存转换后的模型4. 类别映射表配置lookup_table参数是一个JSON数组定义目标数据集类别与PubLayNet类别的映射关系正数表示使用对应ID的PubLayNet类别权重-1表示随机初始化该类别权重示例[-1,0,1,2,3,4]表示目标数据集有6个类别其中第1-5类分别对应PubLayNet的text到figure类别。数据应用场景预训练模型使用PubLayNet提供Faster-RCNN和Mask-RCNN两种预训练模型配置Faster-RCNN:pre-trained-models/Faster-RCNN/e2e_faster_rcnn_X-101-64x4d-FPN_1x.yamlMask-RCNN:pre-trained-models/Mask-RCNN/e2e_mask_rcnn_X-101-64x4d-FPN_1x.yaml学术论文解析通过PubLayNet模型可以实现自动提取论文标题、摘要和正文识别表格和图表位置结构化学术文献内容总结PubLayNet采用COCO格式标注为学术文档布局分析提供了高质量的训练数据。通过本文介绍的转换方法你可以轻松将其预训练模型应用到自定义数据集快速构建文档分析系统。无论是学术研究还是商业应用PubLayNet都能为文档理解任务提供强大支持。如果你需要进一步探索数据集可以参考exploring_PubLayNet_dataset.ipynb交互式分析 notebook或查看ICDAR竞赛相关数据ICDAR_SLR_competition/test.json。【免费下载链接】PubLayNet项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNet创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
PubLayNet数据格式详解:COCO格式标注与自定义数据集转换
发布时间:2026/5/26 23:38:21
PubLayNet数据格式详解COCO格式标注与自定义数据集转换【免费下载链接】PubLayNet项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNetPubLayNet是一个专注于学术文献页面布局分析的数据集采用COCO格式进行标注包含文本、标题、列表、表格和图表等5类常见元素。本文将详细解析其数据结构并提供自定义数据集转换的实用指南。核心数据结构解析COCO格式标注文件PubLayNet的标注数据遵循COCOCommon Objects in Context标准格式主要包含以下几个部分images存储图像基本信息包括文件名、高度、宽度和唯一IDannotations标注信息数组每个标注包含以下关键字段segmentation多边形坐标数组描述区域轮廓area区域面积iscrowd是否为群体标注0表示单个对象image_id关联图像IDbbox边界框坐标 [x, y, width, height]category_id类别ID1-5分别对应text、title、list、table、figureid标注唯一IDcategories类别定义包含类别ID和名称示例标注文件可参考examples/samples.json类别定义说明PubLayNet定义了5个核心类别在标注文件中通过category_id字段标识类别ID类别名称描述1text正文文本内容2title标题文本3list列表项4table表格5figure图表及图片标注可视化展示下图展示了PubLayNet数据集中典型的页面布局标注示例不同颜色的边界框代表不同类型的页面元素图PubLayNet数据集中学术论文页面的布局标注可视化展示了文本、标题、列表、表格和图表的标注效果自定义数据集转换步骤1. 准备自定义数据集确保你的数据集包含图像文件如JPG格式标注文件可采用JSON格式2. 格式转换工具使用PubLayNet提供了模型转换脚本可将预训练模型适配到自定义数据集python pre-trained-models/convert_PubLayNet_model.py \ --PubLayNet_model path/to/pretrained/model \ --lookup_table [-1,0,1,2,3,4] \ --output path/to/output/model3. 转换脚本核心功能convert_PubLayNet_model.py主要完成以下工作加载预训练模型权重根据类别映射表lookup_table调整输出层初始化新类别的权重参数保存转换后的模型4. 类别映射表配置lookup_table参数是一个JSON数组定义目标数据集类别与PubLayNet类别的映射关系正数表示使用对应ID的PubLayNet类别权重-1表示随机初始化该类别权重示例[-1,0,1,2,3,4]表示目标数据集有6个类别其中第1-5类分别对应PubLayNet的text到figure类别。数据应用场景预训练模型使用PubLayNet提供Faster-RCNN和Mask-RCNN两种预训练模型配置Faster-RCNN:pre-trained-models/Faster-RCNN/e2e_faster_rcnn_X-101-64x4d-FPN_1x.yamlMask-RCNN:pre-trained-models/Mask-RCNN/e2e_mask_rcnn_X-101-64x4d-FPN_1x.yaml学术论文解析通过PubLayNet模型可以实现自动提取论文标题、摘要和正文识别表格和图表位置结构化学术文献内容总结PubLayNet采用COCO格式标注为学术文档布局分析提供了高质量的训练数据。通过本文介绍的转换方法你可以轻松将其预训练模型应用到自定义数据集快速构建文档分析系统。无论是学术研究还是商业应用PubLayNet都能为文档理解任务提供强大支持。如果你需要进一步探索数据集可以参考exploring_PubLayNet_dataset.ipynb交互式分析 notebook或查看ICDAR竞赛相关数据ICDAR_SLR_competition/test.json。【免费下载链接】PubLayNet项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNet创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考