导读———————————————————————————————————————————电力巡检是保障电网安全运行的关键环节但当前智能化巡检面临一个尴尬局面绝缘子缺陷检测需要一个模型、安全帽识别需要另一个模型、红外过热分析又是一个模型——每个任务各自训练、各自部署成本不断膨胀。能否用一个多模态基础模型统一处理所有电力巡检任务浙江大学团队给出了他们的方案PowerGPT。这项工作的价值不仅在于模型本身更在于它为电力巡检领域构建了一套完整的基础设施——包含约20万张图像、80万条指令-回答对的PSID数据集覆盖70个真实安全场景的PowerBENCH评估基准以及融合自适应视觉提示、知识检索增强的PowerGPT模型。在PowerBENCH上PowerGPT在5项任务中均取得最高分—Grounded Caption得分9.6LLaVA为5.0计数任务得分9.2LLaVA为5.9全面领先同等规模的通用模型。消融实验显示仅PSID数据集微调就带来了平均13.82分的提升验证了领域数据的核心价值。论文信息———————————————————————————————————————————标题:PowerGPT: A multimodal foundation model for power inspection作者:Yangyang Zhong, Pengxin Luo, Yunfeng Yan, Tong Jia, Donglian Qi机构:浙江大学海洋学院 / 浙江大学电气工程学院 / 浙江大学海南研究院 / 东北大学信息科学与工程学院期刊:Applied Soft Computing Journal 186 (2026) 113939DOI:https://doi.org/10.1016/j.asoc.2025.113939一、电力巡检智能化的三重瓶颈———————————————————————————————————————————电力巡检场景的智能化面临三个层面的挑战。数据稀缺电力设备图像的获取和标注门槛较高公开可用的标注数据集十分有限导致模型难以获得足够的领域知识来实现泛化。任务碎片化电力巡检涵盖多种视觉任务——绝缘子缺陷检测、人员安全行为识别、设备过热分析、施工设施监测等。传统做法是为每个任务训练独立模型训练和部署成本随任务数量线性增长。领域推理能力不足通用多模态大语言模型MLLM虽然具备一定的视觉理解能力但在电力领域的专业术语和安全规范方面缺乏知识储备容易产生幻觉hallucination难以直接用于生产环境。PowerGPT的设计思路是先用大规模领域数据集解决数据稀缺问题再用统一的多模态模型架构覆盖多种巡检任务最后通过知识检索增强机制补充领域专业知识。二、PSID数据集与PowerBENCH评估基准PSID数据集PSIDPower Safety Instruction Dataset是这项工作构建的电力巡检领域指令微调数据集包含约200,000张图像和800,000条指令-回答对。数据来源于全国各地变电站和输电站的运维摄像头覆盖四大类场景场景类别内容描述设备状态与环境异常绝缘子缺陷、线路断股、鸟巢等人员与动物行为异常安全帽佩戴、违规操作、动物入侵等设备过热红外热像图中的温度异常大型施工设施无人机航拍视角下的施工现场监测数据生成流程分三步元数据准备人工标注原始图像的目标类别和位置信息种子指令生成通过New Bing API为每张图像生成多样化的指令模板标准化转换使用GPT-3.5 Turbo将种子数据转换为标准化的指令-回答格式质量控制方面10位电力专业人员对生成数据进行抽样质检**错误率低于1%**。PowerBENCH评估基准PowerBENCH是面向电力巡检的标准化评估基准覆盖70个真实电力安全场景包含5项视觉任务任务缩写评估能力Grounded CaptionGC图像描述目标定位Referential Expression ComprehensionREC给文字描述定位目标Referential Expression GenerationREG给目标生成文字描述CountingCount目标计数Knowledge QAKNO电力领域知识问答评估方式采用GPT-4作为评估器对模型输出进行0-10分打分。GPT-4评分与人类专家评分的Pearson相关系数达到0.85以上验证了这一评估方式的可靠性。三、PowerGPT模型架构四个模块如何协同工作———————————————————————————————————————————PowerGPT基于LLaVA架构扩展由四个核心模块构成语言模型底座为Vicuna-v1.1-7B。1. 自适应视觉提示Adaptive Visual Prompt, AVP电力巡检图像中目标的空间分布差异很大——变电站内设备排列规整适合笛卡尔坐标系描述而输电线路沿弧线分布极坐标可能更合适有些场景则不需要额外坐标提示。AVP模块使用一个ResNet-18分类器根据输入图像自动选择最优的坐标提示类型极坐标、笛卡尔坐标或无提示并将选定的坐标轴叠加到原图上增强模型的空间感知能力。2. 图像编码器Image Encoder, IE为了在保留细节的同时控制计算开销图像编码器采用分块处理策略将输入图像固定分割为9块每块resize到448x448通过CLIP-ViT-L/14编码使用Perceiver Resampler将每块的视觉token压缩为固定长度每块64个token维度4096这种设计使模型能够处理高分辨率图像中的小目标如绝缘子裂纹同时将视觉token总数控制在可接受范围内。3. 知识检索增强Knowledge Retrieval Enhancement, KRE通用MLLM在电力领域专业知识上的不足通过外部知识库补偿。KRE模块基于LangChain QDRANT向量数据库存储约200万token的电力领域知识包括设备规范、安全标准等。检索时使用MultiQueryRetriever从多个角度对用户查询进行改写提高检索召回率。检索到的相关知识作为上下文拼接到LLM输入中。4. 迭代优化AgentIterative Optimization Agent, IOIO模块用于提升模型输出中坐标和类别的准确性。其工作流程为基于GPT-3.5 Turbo从初始输出中提取坐标和类别信息构造REGReferential Expression Generation验证任务将验证任务送入Base PowerGPT获取置信度根据置信度合并和优化最终输出训练配置4块 NVIDIA A100 GPU视觉编码器CLIP-ViT-L/14参数冻结压缩层和LLM进行微调训练1个epochbatch size 32学习率2e-5优化器AdamW【插图建议Fig. 4 — PowerGPT模型架构图插入本节开头】四、消融实验领域数据微调贡献最大各模块逐步叠加———————————————————————————————————————————PowerBENCH主实验在PowerBENCH基准上PowerGPT与4个对比模型的结果如下GPT-4评分0-10分任务ShikraLLaVAMiniCPM-V2.6InternVL2.5PowerGPTGC2.95.03.96.79.6REC3.13.85.84.47.0REG2.73.13.83.56.4Count3.25.98.27.09.2KNO1.34.44.74.76.2PowerGPT在所有5项任务上均取得最高分。与同为7B参数量级的LLaVA相比各项绝对分差为GC: 4.6分REC: 3.2分REG: 3.3分Count: 3.3分KNO: 1.8分与InternVL2.5相比PowerGPT在GC上高出2.9分在KNO上高出1.5分。统计显著性检验配对双尾t检验显示所有任务的差异均达到统计显著水平p0.05GC p0.0004, REC p0.0008, Count p0.028, REG p0.038。各模块贡献的消融实验在500样本子集上0-100分制逐步叠加各模块的效果如下配置GCRECREGCountKNO平均LLaVA (基线)38.5844.3431.9170.2843.6846.56FT (PSID微调)61.0163.8139.7183.2954.0860.38FTIE65.2166.8140.9589.5954.0862.98FTIEAVP66.0168.6737.0494.5454.0863.67FTIEAVPIO67.8970.8038.8396.8354.0865.69FTIEAVPIOKRE67.8970.8038.8396.8362.5067.37几个关键发现PSID微调是最大的单一贡献因素仅数据集微调就将平均分从46.56提升到60.3813.82分GC提升22.43分REC提升19.47分。这说明在垂直领域高质量标注数据的价值大于模型架构的精巧设计。图像编码器IE在计数任务上提升明显IE模块在Count上带来6.3分提升分块高分辨率处理对识别和计数密集排列的电力设备较为有效。自适应视觉提示AVP在REG上出现性能下降AVP使REG从40.95降至37.04-3.91分。论文解释为坐标轴叠加可能遮挡小目标缺陷如绝缘子裂缝影响对细小目标的描述生成。不过AVP在Count上带来了4.95分的提升整体平均仍有增益。KRE对知识问答的提升是独立于微调的KRE仅对KNO有影响8.42分从54.08到62.50这符合预期——KRE通过外部知识库在推理时注入领域知识不改变模型已有的视觉理解能力。论文还报告即使不做PSID微调仅加入KRE也能将KNO从43.9提升到59.115.2分说明知识检索增强本身就是一条有效路径。自适应提示 vs 固定提示策略GCRECREGCount无提示66.0166.8140.9589.59固定极坐标65.9666.0335.2889.23固定笛卡尔坐标65.7766.8935.0189.85AVP自适应66.0168.6737.0494.54固定使用某种坐标提示的效果并不稳定——极坐标和笛卡尔坐标在不同任务上互有优劣且都在REG上造成明显下降。自适应策略通过学习为不同图像选择最合适的提示类型在REC和Count上取得了最优结果整体表现最为稳健。五、总结与思考———————————————————————————————————————————PowerGPT这项工作的核心贡献在于为电力巡检领域构建了一套从数据、评估到模型的完整基础设施PSID数据集约20万张图像、80万条指令-回答对填补了电力巡检领域大规模指令微调数据的空白PowerBENCH70个场景、5项任务为领域内模型对比提供了统一的评估标准PowerGPT模型用单一模型覆盖了多种巡检任务避免了任务碎片化带来的部署成本膨胀从实验结果看几个值得关注的点领域数据的价值再次得到验证。消融实验中PSID微调带来的平均13.82分提升远超任何单个模块的贡献这与许多垂直领域工作的结论一致——在数据稀缺的专业领域构建高质量数据集往往比设计新架构更能带来实质性的性能提升。知识检索增强是一种低成本的领域适配手段。KRE模块无需额外微调仅通过推理时注入外部知识就能将KNO提升15.2分。对于需要快速适配新领域但缺乏微调资源的场景这是一条值得考虑的路径。自适应视觉提示的设计思路有参考价值但也暴露了局限性。不同场景下最优的坐标提示类型确实不同自适应选择优于固定策略。但AVP在REG任务上的性能下降-3.91分提示坐标轴叠加对小目标场景可能产生负面影响后续工作可能需要更精细的遮挡规避策略。对比实验的局限性。PowerGPT在PowerBENCH上全面领先通用模型但这一优势很大程度上来自PSID领域数据微调。如果将InternVL2.5或MiniCPM-V2.6也在PSID上微调差距可能会缩小——消融实验中PSID微调贡献了平均13.82分远超各架构模块的增量。此外论文未公开PSID数据集和模型权重对后续工作的复现和扩展构成一定限制。
浙大团队提出PowerGPT:面向电力巡检的多模态基础模型,构建20万张图像数据集与专用评估基准
发布时间:2026/5/23 17:13:49
导读———————————————————————————————————————————电力巡检是保障电网安全运行的关键环节但当前智能化巡检面临一个尴尬局面绝缘子缺陷检测需要一个模型、安全帽识别需要另一个模型、红外过热分析又是一个模型——每个任务各自训练、各自部署成本不断膨胀。能否用一个多模态基础模型统一处理所有电力巡检任务浙江大学团队给出了他们的方案PowerGPT。这项工作的价值不仅在于模型本身更在于它为电力巡检领域构建了一套完整的基础设施——包含约20万张图像、80万条指令-回答对的PSID数据集覆盖70个真实安全场景的PowerBENCH评估基准以及融合自适应视觉提示、知识检索增强的PowerGPT模型。在PowerBENCH上PowerGPT在5项任务中均取得最高分—Grounded Caption得分9.6LLaVA为5.0计数任务得分9.2LLaVA为5.9全面领先同等规模的通用模型。消融实验显示仅PSID数据集微调就带来了平均13.82分的提升验证了领域数据的核心价值。论文信息———————————————————————————————————————————标题:PowerGPT: A multimodal foundation model for power inspection作者:Yangyang Zhong, Pengxin Luo, Yunfeng Yan, Tong Jia, Donglian Qi机构:浙江大学海洋学院 / 浙江大学电气工程学院 / 浙江大学海南研究院 / 东北大学信息科学与工程学院期刊:Applied Soft Computing Journal 186 (2026) 113939DOI:https://doi.org/10.1016/j.asoc.2025.113939一、电力巡检智能化的三重瓶颈———————————————————————————————————————————电力巡检场景的智能化面临三个层面的挑战。数据稀缺电力设备图像的获取和标注门槛较高公开可用的标注数据集十分有限导致模型难以获得足够的领域知识来实现泛化。任务碎片化电力巡检涵盖多种视觉任务——绝缘子缺陷检测、人员安全行为识别、设备过热分析、施工设施监测等。传统做法是为每个任务训练独立模型训练和部署成本随任务数量线性增长。领域推理能力不足通用多模态大语言模型MLLM虽然具备一定的视觉理解能力但在电力领域的专业术语和安全规范方面缺乏知识储备容易产生幻觉hallucination难以直接用于生产环境。PowerGPT的设计思路是先用大规模领域数据集解决数据稀缺问题再用统一的多模态模型架构覆盖多种巡检任务最后通过知识检索增强机制补充领域专业知识。二、PSID数据集与PowerBENCH评估基准PSID数据集PSIDPower Safety Instruction Dataset是这项工作构建的电力巡检领域指令微调数据集包含约200,000张图像和800,000条指令-回答对。数据来源于全国各地变电站和输电站的运维摄像头覆盖四大类场景场景类别内容描述设备状态与环境异常绝缘子缺陷、线路断股、鸟巢等人员与动物行为异常安全帽佩戴、违规操作、动物入侵等设备过热红外热像图中的温度异常大型施工设施无人机航拍视角下的施工现场监测数据生成流程分三步元数据准备人工标注原始图像的目标类别和位置信息种子指令生成通过New Bing API为每张图像生成多样化的指令模板标准化转换使用GPT-3.5 Turbo将种子数据转换为标准化的指令-回答格式质量控制方面10位电力专业人员对生成数据进行抽样质检**错误率低于1%**。PowerBENCH评估基准PowerBENCH是面向电力巡检的标准化评估基准覆盖70个真实电力安全场景包含5项视觉任务任务缩写评估能力Grounded CaptionGC图像描述目标定位Referential Expression ComprehensionREC给文字描述定位目标Referential Expression GenerationREG给目标生成文字描述CountingCount目标计数Knowledge QAKNO电力领域知识问答评估方式采用GPT-4作为评估器对模型输出进行0-10分打分。GPT-4评分与人类专家评分的Pearson相关系数达到0.85以上验证了这一评估方式的可靠性。三、PowerGPT模型架构四个模块如何协同工作———————————————————————————————————————————PowerGPT基于LLaVA架构扩展由四个核心模块构成语言模型底座为Vicuna-v1.1-7B。1. 自适应视觉提示Adaptive Visual Prompt, AVP电力巡检图像中目标的空间分布差异很大——变电站内设备排列规整适合笛卡尔坐标系描述而输电线路沿弧线分布极坐标可能更合适有些场景则不需要额外坐标提示。AVP模块使用一个ResNet-18分类器根据输入图像自动选择最优的坐标提示类型极坐标、笛卡尔坐标或无提示并将选定的坐标轴叠加到原图上增强模型的空间感知能力。2. 图像编码器Image Encoder, IE为了在保留细节的同时控制计算开销图像编码器采用分块处理策略将输入图像固定分割为9块每块resize到448x448通过CLIP-ViT-L/14编码使用Perceiver Resampler将每块的视觉token压缩为固定长度每块64个token维度4096这种设计使模型能够处理高分辨率图像中的小目标如绝缘子裂纹同时将视觉token总数控制在可接受范围内。3. 知识检索增强Knowledge Retrieval Enhancement, KRE通用MLLM在电力领域专业知识上的不足通过外部知识库补偿。KRE模块基于LangChain QDRANT向量数据库存储约200万token的电力领域知识包括设备规范、安全标准等。检索时使用MultiQueryRetriever从多个角度对用户查询进行改写提高检索召回率。检索到的相关知识作为上下文拼接到LLM输入中。4. 迭代优化AgentIterative Optimization Agent, IOIO模块用于提升模型输出中坐标和类别的准确性。其工作流程为基于GPT-3.5 Turbo从初始输出中提取坐标和类别信息构造REGReferential Expression Generation验证任务将验证任务送入Base PowerGPT获取置信度根据置信度合并和优化最终输出训练配置4块 NVIDIA A100 GPU视觉编码器CLIP-ViT-L/14参数冻结压缩层和LLM进行微调训练1个epochbatch size 32学习率2e-5优化器AdamW【插图建议Fig. 4 — PowerGPT模型架构图插入本节开头】四、消融实验领域数据微调贡献最大各模块逐步叠加———————————————————————————————————————————PowerBENCH主实验在PowerBENCH基准上PowerGPT与4个对比模型的结果如下GPT-4评分0-10分任务ShikraLLaVAMiniCPM-V2.6InternVL2.5PowerGPTGC2.95.03.96.79.6REC3.13.85.84.47.0REG2.73.13.83.56.4Count3.25.98.27.09.2KNO1.34.44.74.76.2PowerGPT在所有5项任务上均取得最高分。与同为7B参数量级的LLaVA相比各项绝对分差为GC: 4.6分REC: 3.2分REG: 3.3分Count: 3.3分KNO: 1.8分与InternVL2.5相比PowerGPT在GC上高出2.9分在KNO上高出1.5分。统计显著性检验配对双尾t检验显示所有任务的差异均达到统计显著水平p0.05GC p0.0004, REC p0.0008, Count p0.028, REG p0.038。各模块贡献的消融实验在500样本子集上0-100分制逐步叠加各模块的效果如下配置GCRECREGCountKNO平均LLaVA (基线)38.5844.3431.9170.2843.6846.56FT (PSID微调)61.0163.8139.7183.2954.0860.38FTIE65.2166.8140.9589.5954.0862.98FTIEAVP66.0168.6737.0494.5454.0863.67FTIEAVPIO67.8970.8038.8396.8354.0865.69FTIEAVPIOKRE67.8970.8038.8396.8362.5067.37几个关键发现PSID微调是最大的单一贡献因素仅数据集微调就将平均分从46.56提升到60.3813.82分GC提升22.43分REC提升19.47分。这说明在垂直领域高质量标注数据的价值大于模型架构的精巧设计。图像编码器IE在计数任务上提升明显IE模块在Count上带来6.3分提升分块高分辨率处理对识别和计数密集排列的电力设备较为有效。自适应视觉提示AVP在REG上出现性能下降AVP使REG从40.95降至37.04-3.91分。论文解释为坐标轴叠加可能遮挡小目标缺陷如绝缘子裂缝影响对细小目标的描述生成。不过AVP在Count上带来了4.95分的提升整体平均仍有增益。KRE对知识问答的提升是独立于微调的KRE仅对KNO有影响8.42分从54.08到62.50这符合预期——KRE通过外部知识库在推理时注入领域知识不改变模型已有的视觉理解能力。论文还报告即使不做PSID微调仅加入KRE也能将KNO从43.9提升到59.115.2分说明知识检索增强本身就是一条有效路径。自适应提示 vs 固定提示策略GCRECREGCount无提示66.0166.8140.9589.59固定极坐标65.9666.0335.2889.23固定笛卡尔坐标65.7766.8935.0189.85AVP自适应66.0168.6737.0494.54固定使用某种坐标提示的效果并不稳定——极坐标和笛卡尔坐标在不同任务上互有优劣且都在REG上造成明显下降。自适应策略通过学习为不同图像选择最合适的提示类型在REC和Count上取得了最优结果整体表现最为稳健。五、总结与思考———————————————————————————————————————————PowerGPT这项工作的核心贡献在于为电力巡检领域构建了一套从数据、评估到模型的完整基础设施PSID数据集约20万张图像、80万条指令-回答对填补了电力巡检领域大规模指令微调数据的空白PowerBENCH70个场景、5项任务为领域内模型对比提供了统一的评估标准PowerGPT模型用单一模型覆盖了多种巡检任务避免了任务碎片化带来的部署成本膨胀从实验结果看几个值得关注的点领域数据的价值再次得到验证。消融实验中PSID微调带来的平均13.82分提升远超任何单个模块的贡献这与许多垂直领域工作的结论一致——在数据稀缺的专业领域构建高质量数据集往往比设计新架构更能带来实质性的性能提升。知识检索增强是一种低成本的领域适配手段。KRE模块无需额外微调仅通过推理时注入外部知识就能将KNO提升15.2分。对于需要快速适配新领域但缺乏微调资源的场景这是一条值得考虑的路径。自适应视觉提示的设计思路有参考价值但也暴露了局限性。不同场景下最优的坐标提示类型确实不同自适应选择优于固定策略。但AVP在REG任务上的性能下降-3.91分提示坐标轴叠加对小目标场景可能产生负面影响后续工作可能需要更精细的遮挡规避策略。对比实验的局限性。PowerGPT在PowerBENCH上全面领先通用模型但这一优势很大程度上来自PSID领域数据微调。如果将InternVL2.5或MiniCPM-V2.6也在PSID上微调差距可能会缩小——消融实验中PSID微调贡献了平均13.82分远超各架构模块的增量。此外论文未公开PSID数据集和模型权重对后续工作的复现和扩展构成一定限制。