065、YOLO 训练看板搭建:TensorBoard/ClearML/WandB 实时监控所有指标 065、YOLO 训练看板搭建:TensorBoard/ClearML/WandB 实时监控所有指标一、从一次“盲训”翻车说起上个月调YOLOv8的C2f模块,改了个注意力机制,跑了一夜,第二天一看loss曲线——训练loss降得漂亮,验证loss直接起飞。没有实时监控,白白浪费12小时。更气人的是,当时如果看一眼学习率曲线,会发现warmup阶段结束后学习率跳变异常,导致梯度震荡。从那以后,我养成了“训练必开看板”的习惯,不管本地调试还是远程集群,至少挂一个监控工具。二、TensorBoard:最轻量的“保底方案”TensorBoard是PyTorch生态的亲儿子,YOLO官方代码里其实已经内置了部分支持,但很多人不知道它还能监控自定义指标。2.1 在YOLO训练循环中嵌入别用官方那个SummaryWriter的默认写法,我踩过坑——它会把所有标量塞到同一个tag下,导致曲线重叠。正确做法是按层级命名:fromtorch.utils.