别再死记硬背NLL公式了！用PyTorch手把手带你复现一个分类任务（附完整代码）

发布时间：2026/5/23 17:14:03

从零实现NLL损失函数PyTorch实战图像分类任务刚接触机器学习的同学一定对负对数似然损失这个术语不陌生但真正理解它如何在实际代码中发挥作用的人却不多。今天我们不谈复杂的数学推导而是直接动手用PyTorch实现一个完整的分类任务让你亲眼看到NLLLoss是如何工作的。很多教程一上来就抛出NLL的数学公式让人望而生畏。其实理解一个概念最好的方式就是亲手实现它。我们将从数据加载开始一步步构建模型、定义损失函数直到完成训练循环。在这个过程中你会遇到几个常见的坑比如忘记添加LogSoftmax层或者混淆了NLLLoss和CrossEntropyLoss的区别——别担心我都会带你一一解决。1. 环境准备与数据加载首先确保你已经安装了最新版的PyTorch。如果你使用conda环境可以通过以下命令安装conda install pytorch torchvision -c pytorch我们将使用经典的MNIST手写数字数据集作为示例。这个数据集包含60,000张28x28像素的手写数字图像非常适合用来理解分类任务的基本原理。import torch from torchvision import datasets, transforms # 定义数据转换 transform transforms.Compose([ transforms.ToTensor(), transforms.Normalize((0.1307,), (0.3081,)) ]) # 加载训练集和测试集 train_dataset datasets.MNIST(./data, trainTrue, downloadTrue, transformtransform) test_dataset datasets.MNIST(./data, trainFalse, transformtransform) # 创建数据加载器 train_loader torch.utils.data.DataLoader(train_dataset, batch_size64, shuffleTrue) test_loader torch.utils.data.DataLoader(test_dataset, batch_size1000, shuffleTrue)提示MNIST数据集中的图像已经被标准化到0-1范围我们进一步使用均值0.1307和标准差0.3081进行归一化这有助于模型更快收敛。2. 构建神经网络模型接下来我们定义一个简单的卷积神经网络(CNN)来处理MNIST图像。虽然模型结构不是本文的重点但理解各层的作用对调试NLLLoss很有帮助。import torch.nn as nn import torch.nn.functional as F class SimpleCNN(nn.Module): def __init__(self): super(SimpleCNN, self).__init__() self.conv1 nn.Conv2d(1, 10, kernel_size5) self.conv2 nn.Conv2d(10, 20, kernel_size5) self.fc1 nn.Linear(320, 50) self.fc2 nn.Linear(50, 10) def forward(self, x): x F.relu(F.max_pool2d(self.conv1(x), 2)) x F.relu(F.max_pool2d(self.conv2(x), 2)) x x.view(-1, 320) x F.relu(self.fc1(x)) x self.fc2(x) return F.log_softmax(x, dim1)注意模型最后一层的输出我们使用了F.log_softmax而不是普通的softmax。这是使用NLLLoss的关键前提——NLLLoss期望接收的是对数概率(log probabilities)而不是原始概率。3. 理解NLLLoss的工作原理现在来到核心部分负对数似然损失函数。在PyTorch中它由nn.NLLLoss类实现。让我们先看看它的数学本质假设我们的模型对某个样本的输出概率分布为[0.1, 0.8, 0.1]真实标签是1第二类。那么取正确类别的概率0.8计算其对数log(0.8) ≈ -0.2231取负值0.2231这就是NLLLoss的计算过程。当正确类别的预测概率越高损失值就越小。在代码中实现这一点非常简单model SimpleCNN() criterion nn.NLLLoss() optimizer torch.optim.SGD(model.parameters(), lr0.01, momentum0.5)注意常见的错误是忘记在模型最后添加LogSoftmax层或者错误地使用了普通的softmax。NLLLoss必须与LogSoftmax配合使用如果使用普通softmax会导致计算错误。4. 训练循环与结果分析让我们把前面准备好的组件组合起来实现完整的训练过程def train(epoch): model.train() for batch_idx, (data, target) in enumerate(train_loader): optimizer.zero_grad() output model(data) loss criterion(output, target) loss.backward() optimizer.step() if batch_idx % 100 0: print(fTrain Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)} f({100. * batch_idx / len(train_loader):.0f}%)]\tLoss: {loss.item():.6f}) def test(): model.eval() test_loss 0 correct 0 with torch.no_grad(): for data, target in test_loader: output model(data) test_loss criterion(output, target).item() pred output.argmax(dim1, keepdimTrue) correct pred.eq(target.view_as(pred)).sum().item() test_loss / len(test_loader.dataset) print(f\nTest set: Average loss: {test_loss:.4f}, fAccuracy: {correct}/{len(test_loader.dataset)} f({100. * correct / len(test_loader.dataset):.0f}%)\n) for epoch in range(1, 10): train(epoch) test()运行这段代码你会看到类似下面的输出Train Epoch: 1 [0/60000 (0%)] Loss: 2.312423 Train Epoch: 1 [6400/60000 (11%)] Loss: 0.876543 ... Test set: Average loss: 0.0023, Accuracy: 9234/10000 (92%)5. NLLLoss与CrossEntropyLoss的关系很多初学者会困惑为什么PyTorch同时提供了NLLLoss和CrossEntropyLoss它们之间有什么区别实际上CrossEntropyLoss LogSoftmax NLLLoss。也就是说# 这两种方式是等价的 loss1 nn.CrossEntropyLoss()(model_output, target) # 等价于 log_probs F.log_softmax(model_output, dim1) loss2 nn.NLLLoss()(log_probs, target)那么为什么PyTorch要提供两种实现呢主要有两个原因灵活性有时你可能需要在LogSoftmax和NLLLoss之间插入其他操作历史原因这两个概念在数学上是分开的分开实现更符合理论定义在实际应用中如果你只是需要一个标准的分类损失函数直接使用CrossEntropyLoss更为方便。但理解NLLLoss的工作原理对于调试模型和实现自定义损失函数非常有帮助。6. 常见问题与调试技巧在使用NLLLoss时你可能会遇到以下几个典型问题问题1损失值出现负数这通常意味着你的模型输出没有经过LogSoftmax处理。NLLLoss期望输入是对数概率如果直接传入原始分数可能会计算出无意义的结果。问题2损失值下降但准确率不提高检查你的LogSoftmax是否应用在了正确的维度上。对于分类任务通常应该在最后一个维度(dim1)上应用。问题3损失值突然变成NaN这可能是由于数值不稳定导致的。尝试减小学习率添加梯度裁剪检查数据中是否有异常值# 梯度裁剪示例 torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm1.0)7. 扩展应用自定义NLLLoss理解了基本原理后我们可以尝试实现自己的NLLLoss。这不仅能加深理解还能根据需要添加特殊功能class MyNLLLoss(nn.Module): def __init__(self): super(MyNLLLoss, self).__init__() def forward(self, input, target): # input是log probabilities # target是类别索引 loss -input[range(target.shape[0]), target].mean() return loss这个自定义实现与PyTorch内置的NLLLoss功能相同但代码更加透明。你可以在此基础上添加权重、忽略特定类别等功能。8. 实际项目中的最佳实践在真实项目中使用NLLLoss时有几个经验值得分享始终验证输入形状确保你的log probabilities和targets的形状匹配# log_probs形状应为[N, C]targets形状应为[N] assert log_probs.shape[0] targets.shape[0] assert log_probs.shape[1] num_classes考虑类别不平衡如果某些类别样本很少可以使用weight参数# 假设类别0的样本是类别1的2倍 weight torch.tensor([1.0, 2.0]) criterion nn.NLLLoss(weightweight)与LogSoftmax的配合确保只在训练时使用LogSoftmax推理时直接取argmax即可学习率调整NLLLoss对学习率比较敏感建议使用学习率调度器scheduler torch.optim.lr_scheduler.StepLR(optimizer, step_size5, gamma0.1)在图像分类任务中经过适当调参使用NLLLoss的简单CNN模型在MNIST上可以达到98%以上的准确率。这证明了即使不依赖复杂的数学推导通过实践也能很好地理解和应用这一重要概念。

保姆级教程：手把手教你用Vue 3 + TypeScript封装一个媲美Element UI的Slider滑块组件

工程化实践：用Vue 3 TypeScript构建企业级Slider组件库在当今前端开发领域，组件化开发已成为提升效率的关键。本文将深入探讨如何运用Vue 3和TypeScript构建一个高可用、强类型的Slider滑块组件，不仅满足基础功能需求，更注重工程…

2026/5/24 13:48:31 阅读更多

油猴脚本进阶：如何精准拦截B站、知乎等特定网站的Fetch请求而不‘误伤’？

油猴脚本进阶：如何精准拦截B站、知乎等特定网站的Fetch请求而不‘误伤’？ 在浏览器自动化工具中，油猴脚本（Tampermonkey）因其轻量级和灵活性备受开发者青睐。特别是对于需要拦截和修改网页请求的中高级用户来说&#…

2026/5/23 12:45:59 阅读更多

3步实现高效管理：Kanboard开源看板工具全攻略

3步实现高效管理：Kanboard开源看板工具全攻略【免费下载链接】kanboard Kanban project management software 项目地址: https://gitcode.com/gh_mirrors/ka/kanboard 在当今快节奏的工作环境中，团队协作效率直接决定项目成败。Kanboard作为一款…

2026/5/23 6:33:31 阅读更多

如何专业解锁联想刃7000K BIOS隐藏选项：3步开启完整高级设置权限

如何专业解锁联想刃7000K BIOS隐藏选项：3步开启完整高级设置权限【免费下载链接】Lenovo-7000k-Unlock-BIOS Lenovo联想刃7000k2021-3060版解锁BIOS隐藏选项并提升为Admin权限项目地址: https://gitcode.com/gh_mirrors/le/Lenovo-7000k-Unlock-BIOS 想要充…

2026/5/24 13:47:35 阅读更多

终极指南：免费解锁Wand高级功能，告别付费限制的烦恼

终极指南：免费解锁Wand高级功能，告别付费限制的烦恼【免费下载链接】Wand-Enhancer Advanced UX and interoperability extension for Wand (WeMod) app 项目地址: https://gitcode.com/gh_mirrors/we/Wand-Enhancer 你是否曾经在使用Wand&#…

2026/5/24 13:46:54 阅读更多

3大框架融合技术：CatServer高性能Minecraft服务端深度解析

3大框架融合技术：CatServer高性能Minecraft服务端深度解析【免费下载链接】CatServer 高性能和高兼容性的1.12.2/1.16.5/1.18.2版本ForgeBukkitSpigot服务端 (A high performance and high compatibility 1.12.2/1.16.5/1.18.2 version ForgeBukkitSpigot server) …

2026/5/24 13:45:33 阅读更多

ChatGPT无法直接绘图？错！掌握这5种结构化数据预处理技巧，让LLM原生输出SVG-ready JSON

更多请点击： https://codechina.net 第一章：ChatGPT数据可视化建议在利用ChatGPT辅助数据分析与可视化时，关键在于将模型生成的结构化洞察高效映射到可交互、可解释的视觉表达中。以下实践建议聚焦于提升可视化质量、可复现性与协作效率。 …

2026/5/24 13:45:13 阅读更多

LSLib终极指南：如何快速掌握《神界原罪》与《博德之门3》游戏资源处理

LSLib终极指南：如何快速掌握《神界原罪》与《博德之门3》游戏资源处理【免费下载链接】lslib Tools for manipulating Divinity Original Sin and Baldurs Gate 3 files 项目地址: https://gitcode.com/gh_mirrors/ls/lslib 你是否曾梦想修改《神界原罪》或…

2026/5/24 13:44:11 阅读更多

Unity Android构建报错：compileSdk 35兼容性五层定位法

1. 这个报错不是Gradle版本问题，而是Android构建链条的“代际错配” 你刚在Unity里点下Build，几秒后控制台炸出一行红字： using a newer Android Gradle plugin to use compileSdk 35 。很多人第一反应是去搜“如何升级Gradle”&#xff0…

2026/5/24 13:43:51 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/24 9:50:45 阅读更多

相关文章

保姆级教程：手把手教你用Vue 3 + TypeScript封装一个媲美Element UI的Slider滑块组件

油猴脚本进阶：如何精准拦截B站、知乎等特定网站的Fetch请求而不‘误伤’？

3步实现高效管理：Kanboard开源看板工具全攻略

如何专业解锁联想刃7000K BIOS隐藏选项：3步开启完整高级设置权限

终极指南：免费解锁Wand高级功能，告别付费限制的烦恼

3大框架融合技术：CatServer高性能Minecraft服务端深度解析

ChatGPT无法直接绘图？错！掌握这5种结构化数据预处理技巧，让LLM原生输出SVG-ready JSON

LSLib终极指南：如何快速掌握《神界原罪》与《博德之门3》游戏资源处理

Unity Android构建报错：compileSdk 35兼容性五层定位法

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥