浙大团队提出PowerGPT：面向电力巡检的多模态基础模型，构建20万张图像数据集与专用评估基准

发布时间：2026/5/23 17:13:49

导读———————————————————————————————————————————电力巡检是保障电网安全运行的关键环节但当前智能化巡检面临一个尴尬局面绝缘子缺陷检测需要一个模型、安全帽识别需要另一个模型、红外过热分析又是一个模型——每个任务各自训练、各自部署成本不断膨胀。能否用一个多模态基础模型统一处理所有电力巡检任务浙江大学团队给出了他们的方案PowerGPT。这项工作的价值不仅在于模型本身更在于它为电力巡检领域构建了一套完整的基础设施——包含约20万张图像、80万条指令-回答对的PSID数据集覆盖70个真实安全场景的PowerBENCH评估基准以及融合自适应视觉提示、知识检索增强的PowerGPT模型。在PowerBENCH上PowerGPT在5项任务中均取得最高分—Grounded Caption得分9.6LLaVA为5.0计数任务得分9.2LLaVA为5.9全面领先同等规模的通用模型。消融实验显示仅PSID数据集微调就带来了平均13.82分的提升验证了领域数据的核心价值。论文信息———————————————————————————————————————————标题:PowerGPT: A multimodal foundation model for power inspection作者:Yangyang Zhong, Pengxin Luo, Yunfeng Yan, Tong Jia, Donglian Qi机构:浙江大学海洋学院 / 浙江大学电气工程学院 / 浙江大学海南研究院 / 东北大学信息科学与工程学院期刊:Applied Soft Computing Journal 186 (2026) 113939DOI:https://doi.org/10.1016/j.asoc.2025.113939一、电力巡检智能化的三重瓶颈———————————————————————————————————————————电力巡检场景的智能化面临三个层面的挑战。数据稀缺电力设备图像的获取和标注门槛较高公开可用的标注数据集十分有限导致模型难以获得足够的领域知识来实现泛化。任务碎片化电力巡检涵盖多种视觉任务——绝缘子缺陷检测、人员安全行为识别、设备过热分析、施工设施监测等。传统做法是为每个任务训练独立模型训练和部署成本随任务数量线性增长。领域推理能力不足通用多模态大语言模型MLLM虽然具备一定的视觉理解能力但在电力领域的专业术语和安全规范方面缺乏知识储备容易产生幻觉hallucination难以直接用于生产环境。PowerGPT的设计思路是先用大规模领域数据集解决数据稀缺问题再用统一的多模态模型架构覆盖多种巡检任务最后通过知识检索增强机制补充领域专业知识。二、PSID数据集与PowerBENCH评估基准PSID数据集PSIDPower Safety Instruction Dataset是这项工作构建的电力巡检领域指令微调数据集包含约200,000张图像和800,000条指令-回答对。数据来源于全国各地变电站和输电站的运维摄像头覆盖四大类场景场景类别内容描述设备状态与环境异常绝缘子缺陷、线路断股、鸟巢等人员与动物行为异常安全帽佩戴、违规操作、动物入侵等设备过热红外热像图中的温度异常大型施工设施无人机航拍视角下的施工现场监测数据生成流程分三步元数据准备人工标注原始图像的目标类别和位置信息种子指令生成通过New Bing API为每张图像生成多样化的指令模板标准化转换使用GPT-3.5 Turbo将种子数据转换为标准化的指令-回答格式质量控制方面10位电力专业人员对生成数据进行抽样质检**错误率低于1%**。PowerBENCH评估基准PowerBENCH是面向电力巡检的标准化评估基准覆盖70个真实电力安全场景包含5项视觉任务任务缩写评估能力Grounded CaptionGC图像描述目标定位Referential Expression ComprehensionREC给文字描述定位目标Referential Expression GenerationREG给目标生成文字描述CountingCount目标计数Knowledge QAKNO电力领域知识问答评估方式采用GPT-4作为评估器对模型输出进行0-10分打分。GPT-4评分与人类专家评分的Pearson相关系数达到0.85以上验证了这一评估方式的可靠性。三、PowerGPT模型架构四个模块如何协同工作———————————————————————————————————————————PowerGPT基于LLaVA架构扩展由四个核心模块构成语言模型底座为Vicuna-v1.1-7B。1. 自适应视觉提示Adaptive Visual Prompt, AVP电力巡检图像中目标的空间分布差异很大——变电站内设备排列规整适合笛卡尔坐标系描述而输电线路沿弧线分布极坐标可能更合适有些场景则不需要额外坐标提示。AVP模块使用一个ResNet-18分类器根据输入图像自动选择最优的坐标提示类型极坐标、笛卡尔坐标或无提示并将选定的坐标轴叠加到原图上增强模型的空间感知能力。2. 图像编码器Image Encoder, IE为了在保留细节的同时控制计算开销图像编码器采用分块处理策略将输入图像固定分割为9块每块resize到448x448通过CLIP-ViT-L/14编码使用Perceiver Resampler将每块的视觉token压缩为固定长度每块64个token维度4096这种设计使模型能够处理高分辨率图像中的小目标如绝缘子裂纹同时将视觉token总数控制在可接受范围内。3. 知识检索增强Knowledge Retrieval Enhancement, KRE通用MLLM在电力领域专业知识上的不足通过外部知识库补偿。KRE模块基于LangChain QDRANT向量数据库存储约200万token的电力领域知识包括设备规范、安全标准等。检索时使用MultiQueryRetriever从多个角度对用户查询进行改写提高检索召回率。检索到的相关知识作为上下文拼接到LLM输入中。4. 迭代优化AgentIterative Optimization Agent, IOIO模块用于提升模型输出中坐标和类别的准确性。其工作流程为基于GPT-3.5 Turbo从初始输出中提取坐标和类别信息构造REGReferential Expression Generation验证任务将验证任务送入Base PowerGPT获取置信度根据置信度合并和优化最终输出训练配置4块 NVIDIA A100 GPU视觉编码器CLIP-ViT-L/14参数冻结压缩层和LLM进行微调训练1个epochbatch size 32学习率2e-5优化器AdamW【插图建议Fig. 4 — PowerGPT模型架构图插入本节开头】四、消融实验领域数据微调贡献最大各模块逐步叠加———————————————————————————————————————————PowerBENCH主实验在PowerBENCH基准上PowerGPT与4个对比模型的结果如下GPT-4评分0-10分任务ShikraLLaVAMiniCPM-V2.6InternVL2.5PowerGPTGC2.95.03.96.79.6REC3.13.85.84.47.0REG2.73.13.83.56.4Count3.25.98.27.09.2KNO1.34.44.74.76.2PowerGPT在所有5项任务上均取得最高分。与同为7B参数量级的LLaVA相比各项绝对分差为GC: 4.6分REC: 3.2分REG: 3.3分Count: 3.3分KNO: 1.8分与InternVL2.5相比PowerGPT在GC上高出2.9分在KNO上高出1.5分。统计显著性检验配对双尾t检验显示所有任务的差异均达到统计显著水平p0.05GC p0.0004, REC p0.0008, Count p0.028, REG p0.038。各模块贡献的消融实验在500样本子集上0-100分制逐步叠加各模块的效果如下配置GCRECREGCountKNO平均LLaVA (基线)38.5844.3431.9170.2843.6846.56FT (PSID微调)61.0163.8139.7183.2954.0860.38FTIE65.2166.8140.9589.5954.0862.98FTIEAVP66.0168.6737.0494.5454.0863.67FTIEAVPIO67.8970.8038.8396.8354.0865.69FTIEAVPIOKRE67.8970.8038.8396.8362.5067.37几个关键发现PSID微调是最大的单一贡献因素仅数据集微调就将平均分从46.56提升到60.3813.82分GC提升22.43分REC提升19.47分。这说明在垂直领域高质量标注数据的价值大于模型架构的精巧设计。图像编码器IE在计数任务上提升明显IE模块在Count上带来6.3分提升分块高分辨率处理对识别和计数密集排列的电力设备较为有效。自适应视觉提示AVP在REG上出现性能下降AVP使REG从40.95降至37.04-3.91分。论文解释为坐标轴叠加可能遮挡小目标缺陷如绝缘子裂缝影响对细小目标的描述生成。不过AVP在Count上带来了4.95分的提升整体平均仍有增益。KRE对知识问答的提升是独立于微调的KRE仅对KNO有影响8.42分从54.08到62.50这符合预期——KRE通过外部知识库在推理时注入领域知识不改变模型已有的视觉理解能力。论文还报告即使不做PSID微调仅加入KRE也能将KNO从43.9提升到59.115.2分说明知识检索增强本身就是一条有效路径。自适应提示 vs 固定提示策略GCRECREGCount无提示66.0166.8140.9589.59固定极坐标65.9666.0335.2889.23固定笛卡尔坐标65.7766.8935.0189.85AVP自适应66.0168.6737.0494.54固定使用某种坐标提示的效果并不稳定——极坐标和笛卡尔坐标在不同任务上互有优劣且都在REG上造成明显下降。自适应策略通过学习为不同图像选择最合适的提示类型在REC和Count上取得了最优结果整体表现最为稳健。五、总结与思考———————————————————————————————————————————PowerGPT这项工作的核心贡献在于为电力巡检领域构建了一套从数据、评估到模型的完整基础设施PSID数据集约20万张图像、80万条指令-回答对填补了电力巡检领域大规模指令微调数据的空白PowerBENCH70个场景、5项任务为领域内模型对比提供了统一的评估标准PowerGPT模型用单一模型覆盖了多种巡检任务避免了任务碎片化带来的部署成本膨胀从实验结果看几个值得关注的点领域数据的价值再次得到验证。消融实验中PSID微调带来的平均13.82分提升远超任何单个模块的贡献这与许多垂直领域工作的结论一致——在数据稀缺的专业领域构建高质量数据集往往比设计新架构更能带来实质性的性能提升。知识检索增强是一种低成本的领域适配手段。KRE模块无需额外微调仅通过推理时注入外部知识就能将KNO提升15.2分。对于需要快速适配新领域但缺乏微调资源的场景这是一条值得考虑的路径。自适应视觉提示的设计思路有参考价值但也暴露了局限性。不同场景下最优的坐标提示类型确实不同自适应选择优于固定策略。但AVP在REG任务上的性能下降-3.91分提示坐标轴叠加对小目标场景可能产生负面影响后续工作可能需要更精细的遮挡规避策略。对比实验的局限性。PowerGPT在PowerBENCH上全面领先通用模型但这一优势很大程度上来自PSID领域数据微调。如果将InternVL2.5或MiniCPM-V2.6也在PSID上微调差距可能会缩小——消融实验中PSID微调贡献了平均13.82分远超各架构模块的增量。此外论文未公开PSID数据集和模型权重对后续工作的复现和扩展构成一定限制。

做 Claude Code 和长上下文任务时，为什么要尽早研究 Prompt 缓存

很多开发者第一次接触 Claude Prompt 缓存时，都会把它当成一个“可选优化项”。但如果你的项目已经进入下面这些阶段之一： 高频调用长上下文处理Claude Code 场景固定工作流那缓存就不该再被当成“以后有空再看”的东西了。因为它解决的不是体验问题…

2026/5/22 15:09:50 阅读更多

机器学习/深度学习通用数据划分比例：训练集70%、验证集20%、测试集10%。。我们验证和测试：3,7

机器学习/深度学习通用数据划分比例：训练集70%、验证集20%、测试集10%。。我们验证和测试：3,7 目录机器学习/深度学习通用数据划分比例：训练集70%、验证集20%、测试集10%。。我们验证和测试：3,7 一、核心基础概念二、通用经典划分比例（中小数据集，万级~十万级样本）…

2026/5/22 18:51:54 阅读更多

低空作业任务完成后，低空大师平台能否回溯查看全过程？

可以。低空大师平台支持对作业全过程进行完整回溯查看。在数据成果飞行轨迹板块，可按计划、设备、执行日期等条件，快速检索所有历史飞行任务。在任务回访界面，可查看：无人机飞行状态、航线与轨迹、任务拍摄的媒体素材、AI识别到的…

2026/5/22 11:00:18 阅读更多

Hap QuickTime编码器技术解析：基于GPU硬件加速的专业视频压缩解决方案

Hap QuickTime编码器技术解析：基于GPU硬件加速的专业视频压缩解决方案【免费下载链接】hap-qt-codec A QuickTime codec for Hap video 项目地址: https://gitcode.com/gh_mirrors/ha/hap-qt-codec Hap QuickTime编码器是一款专为现代图形硬件设计的开源视频…

2026/5/23 17:13:13 阅读更多

学术赋能国际交流实干彰显时代担当——刘庆武受聘泰国清迈西北大学国际金融类博士生导师

（泰国讯）近日，第二届文化出海・泰国高校学术访问活动在泰国南邦国际科技学院多媒体会议室隆重举行。本次中泰跨境学术文化交流活动规格高、覆盖面广，汇聚两国学界、商界、侨界优质资源。南邦国际科技学院代理校长普・西素、副校长…

2026/5/23 17:12:02 阅读更多

Hotkey Detective：3分钟找出Windows热键冲突的终极指南

Hotkey Detective：3分钟找出Windows热键冲突的终极指南【免费下载链接】hotkey-detective A small program for investigating stolen key combinations under Windows 7 and later. 项目地址: https://gitcode.com/gh_mirrors/ho/hotkey-detective 你是否遇…

2026/5/23 17:12:02 阅读更多

如何5分钟快速安装Open Generative AI：跨平台桌面应用完整指南

如何5分钟快速安装Open Generative AI：跨平台桌面应用完整指南【免费下载链接】Open-Generative-AI Open-source alternative to AI video platforms — Free AI image & video generation studio with 200 models (Flux, Midjourney, Kling, Sora, Veo). No c…

2026/5/23 17:11:02 阅读更多

GEO工具红黑榜：有的在“监测“，有的在“收智商税“

2026年，AI搜索已承接超过40%的传统搜索查询量，品牌面临的不再是"百度一下"的竞价排名，而是AI助手直接给出的"默认答案"。当用户问ChatGPT"推荐一款面霜"或向豆包询问"哪个在线教育平台更好"时&#…

2026/5/23 17:10:21 阅读更多

Open Generative AI Workflow Studio深度解析：可视化AI工作流构建教程

Open Generative AI Workflow Studio深度解析：可视化AI工作流构建教程【免费下载链接】Open-Generative-AI Open-source alternative to AI video platforms — Free AI image & video generation studio with 200 models (Flux, Midjourney, Kling, Sora, Veo…

2026/5/23 17:10:21 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/23 4:55:00 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…