200_深度学习的地基：PyTorch 数据操作与 Pandas 预处理实战

发布时间：2026/5/17 1:42:01

在机器学习中N 维数组Tensor是最核心的数据结构。无论是图像、语音还是文本最终都会转化为数组进行计算。本篇将从 Tensor 的基本操作出发带你走进数据预处理的真实世界。1. N 维数组神经网络的语言N 维数组在 PyTorch 中称为 Tensor是存储和变换数据的核心工具。0维标量Scalar如一个数字。1维向量Vector如特征列表。2维矩阵Matrix如一张灰度图或一个表格。3维及以上张量Tensor如彩色图片宽、高、通道。2. 核心代码张量的创建与计算文件展示了 PyTorch 中最常用的几种 Tensor 操作方法Pythonimport torch # 1. 创建 Tensor x torch.arange(12) # 创建 0-11 的一维张量 print(x.shape) # 查看形状torch.Size([12]) print(x.numel()) # 查看元素总数12 # 2. 改变形状 (Reshape) X x.reshape(3, 4) # 变为 3 行 4 列的矩阵 # 3. 特殊张量 torch.zeros((2, 3, 4)) # 全 0 张量 torch.ones((2, 3, 4)) # 全 1 张量 torch.randn(3, 4) # 标准正态分布随机张量 # 4. 张量连接 (Cat) Y torch.tensor([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]]) # 按行连接 (dim0) 或按列连接 (dim1) torch.cat((X, Y), dim0)3. 数据预处理从 CSV 到 Tensor在现实任务中数据通常存储在 CSV 文件中且往往存在缺失值NaN。文件演示了如何利用pandas库进行数据清洗。实战处理房屋数据假设我们有一个简单的房屋数据集其中包含缺失值Pythonimport os import pandas as pd # 1. 创建虚拟数据集 os.makedirs(os.path.join(., 01_Data), exist_okTrue) data_file os.path.join(., 01_Data, 01_house_tiny.csv) with open(data_file, w) as f: f.write(NumRooms,Alley,Price\n) f.write(NA,Pave,127500\n) f.write(2,NA,106000\n) f.write(4,NA,178100\n) f.write(NA,NA,140000\n) # 2. 读取数据 data pd.read_csv(data_file) # 3. 处理缺失值对数值型列用均值填充 inputs, outputs data.iloc[:, 0:2], data.iloc[:, 2] inputs inputs.fillna(inputs.mean()) # 4. 处理类别型缺失值独热编码 (One-Hot Encoding) # dummy_naTrue 会将 NaN 也作为一个类别处理 inputs pd.get_dummies(inputs, dummy_naTrue) print(inputs) # 5. 转换为 PyTorch Tensor X, y torch.tensor(inputs.values), torch.tensor(outputs.values) print(X)4. 关键技巧解析广播机制 (Broadcasting Mechanism)当两个形状不同的 Tensor 进行按元素运算时PyTorch 会触发广播机制自动复制行或列使两个 Tensor 形状一致后再相加。条件至少有一个维度是 1且其他维度兼容。内存节省在进行大规模运算时频繁的赋值如Y X Y会开辟新内存。建议使用原地操作In-place operation如Y X或Y[:] X Y以减少内存开销。5. 总结数据处理的闭环通过对该文件的分析我们可以梳理出进入模型前的标准步骤读取用 Pandas 加载原始数据。清洗填充数值型缺失值转换类别型数据。转换将 Pandas 的 DataFrame 转换为 Torch Tensor。计算利用 Tensor 的高效算子进行前向计算。学习小结“Garbage in, Garbage out.” 预处理的好坏直接决定了模型的上限。熟练掌握torch操作和pandas转换是每一位算法工程师的必修课。

告别macOS原生切换烦恼：alt-tab-macos让窗口管理效率提升300%的终极指南

告别macOS原生切换烦恼：alt-tab-macos让窗口管理效率提升300%的终极指南【免费下载链接】alt-tab-macos Windows alt-tab on macOS 项目地址: https://gitcode.com/gh_mirrors/al/alt-tab-macos 作为macOS用户，你是否也曾对系统自带的窗口切换功…

2026/5/16 15:18:31 阅读更多

Open Images数据集完全指南：从零开始构建计算机视觉应用

Open Images数据集完全指南：从零开始构建计算机视觉应用【免费下载链接】dataset The Open Images dataset 项目地址: https://gitcode.com/gh_mirrors/dat/dataset Open Images数据集是谷歌推出的一个大规模计算机视觉数据集，包含约900万张图像…

2026/5/16 15:18:33 阅读更多

5分钟搞定黑苹果音频驱动：AppleALC新手配置指南

5分钟搞定黑苹果音频驱动：AppleALC新手配置指南【免费下载链接】AppleALC Native macOS HD audio for not officially supported codecs 项目地址: https://gitcode.com/gh_mirrors/ap/AppleALC AppleALC是一款强大的开源内核扩展工具，能让非官方…

2026/5/16 15:18:34 阅读更多

AI对话记忆管理实战：memory-organizer库解决长上下文难题

1. 项目概述：一个为AI记忆体“瘦身”与“归档”的利器最近在折腾一些本地大语言模型（LLM）的应用，比如搭建个人知识库助手或者长期对话机器人，一个绕不开的痛点就是“记忆”的管理。模型本身没有持久记忆，每…

2026/5/17 1:41:33 阅读更多

FeFET时间域内存计算宏：突破AI边缘计算能效瓶颈

1. 项目概述：FeFET时间域内存计算宏的创新实现在人工智能和边缘计算蓬勃发展的当下，传统冯诺依曼架构面临着一个根本性挑战：数据在处理器和存储器之间的频繁搬运导致的高能耗和延迟瓶颈。这个问题在需要大量并行乘累加(MAC)运算的神经网络应用…

2026/5/17 1:41:33 阅读更多

时光会把你雕刻成，你应有的样子

2026/5/17 1:41:33 阅读更多

2026年，高性价比400电话源头厂家揭秘

在当今竞争激烈的商业环境中，400电话作为企业与客户沟通的重要桥梁，其重要性不言而喻。它不仅能提升企业形象，还能增强客户信任，提高客户咨询响应效率。然而，市场上400电话厂家众多，如何选择一家高性价比的…

2026/5/17 1:40:53 阅读更多

3个技巧让你成为zsh语法高亮高手：从安装到深度定制完全指南

3个技巧让你成为zsh语法高亮高手：从安装到深度定制完全指南【免费下载链接】zsh-syntax-highlighting Fish shell like syntax highlighting for Zsh. 项目地址: https://gitcode.com/gh_mirrors/zs/zsh-syntax-highlighting zsh-syntax-highlighting是一款…

2026/5/17 1:40:32 阅读更多

Arm Neoverse CMN-700 QoS机制详解与配置实战

1. Arm Neoverse CMN-700 QoS控制机制解析在现代SoC设计中，服务质量(QoS)控制是确保关键任务数据流获得优先处理的核心机制。Arm Neoverse CMN-700作为新一代相干性网状网络，通过硬件寄存器提供了精细化的QoS调节能力。其核心原理是通过动态调整传输延迟…

2026/5/17 1:40:32 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/17 0:01:09 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/17 0:01:09 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/17 0:02:11 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

2026/5/17 0:01:09 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/17 0:01:09 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

2026/5/17 0:02:11 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/16 21:19:19 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/16 19:35:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/16 17:57:38 阅读更多

相关文章

告别macOS原生切换烦恼：alt-tab-macos让窗口管理效率提升300%的终极指南

Open Images数据集完全指南：从零开始构建计算机视觉应用

5分钟搞定黑苹果音频驱动：AppleALC新手配置指南

AI对话记忆管理实战：memory-organizer库解决长上下文难题

FeFET时间域内存计算宏：突破AI边缘计算能效瓶颈

时光会把你雕刻成，你应有的样子

2026年，高性价比400电话源头厂家揭秘

3个技巧让你成为zsh语法高亮高手：从安装到深度定制完全指南

Arm Neoverse CMN-700 QoS机制详解与配置实战

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

py每日spider案例之某website之xin东方选课搜索接口(难度一般 扣取代码即可)

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)