10分钟掌握《机器学习》第十章-降维与度量学习

发布时间：2026/6/13 0:40:57

《机器学习》第10章·通俗解读 | 降维与度量学习给数据“瘦身”并学会“量距离”前面我们处理的数据特征通常不多比如西瓜的色泽、根蒂、敲声等。但现实中数据可能成百上千维比如一张图片有上万个像素。维度太高会带来麻烦数据变得非常稀疏计算距离超级慢甚至模型失效——这叫“维度灾难”。本章讲的就是怎么给数据“瘦身”降维以及如何学会“量距离”的方法度量学习。1. k近邻学习最简单的“懒人”模型k近邻kNN的思想简单到令人发指给你一个新瓜你去找训练集里离它最近的 k 个瓜看它们大多数是好瓜还是坏瓜少数服从多数。k1只看最近的那个邻居1NNk3看最近的三个投票决定就像你到一个新城市问路时找最近的三个路人问采纳多数人的答案。kNN 几乎没有训练过程只是把数据存起来所以叫懒惰学习。但预测时需要计算新样本到所有训练样本的距离如果数据量大、维度高计算会很慢。重要性质当训练数据足够密每个点附近都能找到邻居时1NN 的错误率最多是贝叶斯最优分类器错误率的 2 倍。这给了懒惰学习一个理论保证。2. 低维嵌入高维里的“真实形状”可能在低维很多时候高维数据是“虚胖”的。比如一个三维空间里的卷曲曲面像一张纸卷成筒其实它是二维的你把它展开就是张平面。降维就是找到那个“展开后的低维空间”让数据既保留原始结构又变得好处理。多维缩放MDS是一种经典方法它只要求降维后样本之间的距离尽量与原始空间保持一致不管具体坐标怎么变。MDS 通过特征值分解可以算出低维坐标。就像你有一张地图高维上面标了各个城市间的实际距离。MDS 就是要找一张新地图低维让上面的距离与实际距离尽量吻合。你甚至不需要知道地图的原坐标只要距离对了就行。3. 主成分分析PCA最常用的降维方法PCA 的想法非常直观找到数据“最分散”的几个方向把数据投影到这些方向上丢掉其他方向。第一个主成分数据方差最大的方向最能区分样本的方向第二个主成分与第一个正交且方差次大的方向依此类推举个例子你有一堆瓜特征有“密度”和“含糖率”。这两个特征高度相关密度高的瓜往往含糖率也高。PCA 会找出一个斜的方向比如“0.7×密度 0.7×含糖率”这个方向上的方差最大。你只保留这个方向就把二维降成了一维信息损失很少。就像你拍一个长方形的桌子从正上方拍二维你看到的是完整的桌面但如果从侧面拍一维你可能只看到一条线丢失了很多信息。PCA 要找到那个“最值得保留的角度”让你丢失的信息最少。PCA 的步骤理解即可对数据做中心化每个特征减去均值计算协方差矩阵对协方差矩阵做特征值分解取最大几个特征值对应的特征向量作为投影方向优点降维后数据相关性最小能有效去噪。缺点它是线性方法对非线性结构比如卷曲的S形效果不好。4. 核化线性降维KPCA让 PCA 也能“弯”当数据不是线性的比如 S 形曲面线性降维会失效。核主成分分析KPCA用核技巧类似 SVM 的核函数先把数据映射到高维空间在那个高维空间做 PCA然后再映射回来隐式完成。就像你把一团拧巴的绳子先拉直高维变换再量它的主要方向PCA最后放回原来的空间但取主要方向时已经不受弯曲影响了。KPCA 计算量较大但对非线性数据效果好。5. 流形学习发现卷曲的低维结构流形就是“局部像欧氏空间整体弯曲”的形状比如地球表面局部是平的整体是球面。流形学习就是想找到高维数据里的这种“弯曲的低维本质”。等度量映射IsomapIsomap 的思想是在高维空间里直接用直线距离不好因为沿着曲面走才是真实路径。所以先构建一个近邻图只连接距离很近的点然后用图上的最短路径距离如 Dijkstra 算法来近似曲面上的测地线距离。最后用 MDS 把这种距离保持降维。就像你要计算从北京到纽约的“真实距离”不能用直线穿地心而要用航线的弧长。Isomap 先找出“允许走的路线”近邻图再算最短路径最后用这些距离来还原低维地图。局部线性嵌入LLELLE 换了个思路每个点可以用它的 k 个邻居线性组合来表示比如 0.5×邻居A 0.3×邻居B 0.2×邻居C。降维后这种线性表示关系要保持不变。LLE 先为每个点找邻居计算线性系数再在低维空间里让这些系数重构误差最小。就像一个网络中的节点局部关系由邻居的权重决定降维后邻居之间的这种“加权和”关系要尽量保留。Isomap 和 LLE 都能发现卷曲的低维结构如 S 形常用于可视化降到 2D 或 3D 画出来。6. 度量学习学会“量距离”降维是找到一个新的低维空间隐式地改变距离。但为什么不直接学习一个更适合当前任务的距离度量呢马氏距离是基础形式带权重的欧氏距离权重矩阵 M 可以学习半正定矩阵。近邻成分分析NCA是一种度量学习方法目标让 KNN 在留一法上的正确率最大。它给每个样本分配一个“影响力”影响力随距离的减小而增大然后最大化同类样本的影响力之和。就像你调整一个“距离卷尺”希望量出来的距离让同类更近、异类更远。如果学到的 M 是低秩的马氏距离就等价于先做线性投影再算欧氏距离于是度量学习也能降维。第十章总结背下这5句就够了kNN懒惰学习找最近的 k 个邻居投票简单但计算量大降维目的缓解维度灾难找到数据的低维“真实结构”PCA找方差最大的方向投影最常用的线性降维方法流形学习Isomap、LLE处理弯曲的非线性结构保持局部或测地距离度量学习直接学习一个适合任务的距离函数马氏距离、NCA能提升 kNN 等算法性能下章预告第十一章讲特征选择与稀疏学习。降维是“变换”特征生成新特征而特征选择是“挑”出一部分原始特征。你会学到怎么自动挑出最重要的特征比如西瓜的“根蒂”远比“色泽”重要以及 LASSO 这种能让模型自动变稀疏的魔法。

终极解决方案：如何用ncmdump一键解密网易云音乐NCM格式

终极解决方案：如何用ncmdump一键解密网易云音乐NCM格式【免费下载链接】ncmdump 项目地址: https://gitcode.com/gh_mirrors/ncmd/ncmdump 你是否曾在网易云音乐下载了心爱的歌曲，却发现只能在特定平台播放，无法在其他设备上享受&am…

2026/6/12 16:27:54 阅读更多

js-执行上下文

一、执行上下文的本质定义执行上下文（Execution Context, EC） 是 ECMAScript 规范中定义的抽象概念，代表一段可执行代码被评估和执行时的完整环境状态。从实现角度看，它是引擎在内存中维护的一个结构化数据对象，包含执…

2026/6/12 23:34:08 阅读更多

别再手动切图了！Tauri 1.1+ 一条命令搞定全平台App图标（附PNG尺寸要求详解）

告别手工切图时代：Tauri 1.1 全平台图标自动化生成实战指南每次启动新项目时，最让我头疼的环节之一就是为不同平台准备应用图标。Windows需要.ico，macOS要求.icns，Linux则偏好.png，更别提各种尺寸规格——32x32、128x1…

2026/6/11 22:14:35 阅读更多

DRG Save Editor：如何轻松管理你的深岩银河游戏存档？

DRG Save Editor：如何轻松管理你的深岩银河游戏存档？ 【免费下载链接】DRG-Save-Editor Rock and stone! 项目地址: https://gitcode.com/gh_mirrors/dr/DRG-Save-Editor 你是否曾经在深岩银河（Deep Rock Galactic）中为了收…

2026/6/13 0:40:31 阅读更多

深度实践CANN HCCL集合通信库：多卡并行训练中的通信优化与问题排查

前言单张昇腾NPU的算力已经够用了——910B的单卡算力是256 TFLOPS（FP16）,足以跑多数模型的单卡推理。但训练就不一样了。训练大模型时单卡显存放不下整个模型,单卡算力也不够在一个合理的时间内跑完训练。分布式训练成了必须的选择,而分布式训练的核心是…

2026/6/13 0:40:31 阅读更多

手把手实战CANN ascend-transformer-boost：Transformer推理在昇腾NPU上的极致优化

前言大模型推理的性能优化是一个系统工程,尤其是昇腾NPU上的Transformer推理更需要系统性思考。算子库提供了单个算子的加速,图引擎做了子图融合,运行时管理了指令调度。但这些还不够——在大模型场景中,还有大量的跨层次优化机会需要考虑：如何管理KV Cache、如何处…

2026/6/13 0:40:31 阅读更多

ST7789S液晶屏驱动代码+三份关键文档（芯片手册/模组规格书/初始化指南）

本文还有配套的精品资源，点击获取简介：直接可用的ST7789S显示屏驱动源码，含st7789s.c核心驱动文件和lcm_drv.h头文件，支持STM32、ESP32、GD32等主流MCU；适配135240分辨率、RGB565色彩格式，兼容8位并行&…

2026/6/13 0:40:11 阅读更多

GitHub加速插件终极指南：如何轻松提升10倍下载速度

GitHub加速插件终极指南：如何轻松提升10倍下载速度【免费下载链接】Fast-GitHub 国内Github下载很慢，用上了这个插件后，下载速度嗖嗖嗖的~！ 项目地址: https://gitcode.com/gh_mirrors/fa/Fast-GitHub 还在为GitHub的缓慢…

2026/6/13 0:39:09 阅读更多

公租房安居房智能化升级：NB-IoT智能锁落地方案与项目实践

公租房&安居房智能化升级：NB-IoT智能锁落地方案与项目实践 **摘要：**公租房、安居房属于政策性保障性民生住房，具有体量大、房源分散、人员流动频繁、监管合规要求高、老旧户型改造难等典型特征。传统机械钥匙管理模式存在转租难管控、钥…

2026/6/13 0:38:09 阅读更多

【课程设计/毕业设计】基于 SpringBoot 的患者就诊信息管理系统的设计与实现基于 SpringBoot 的医生接诊与处方管理系统的设计与实现【附源码、数据库、万字文档】

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

2026/6/13 0:00:11 阅读更多

numb.nvim 常见问题解答：从安装到使用的 10 个实用技巧

numb.nvim 常见问题解答：从安装到使用的 10 个实用技巧【免费下载链接】numb.nvim Peek lines just when you intend 项目地址: https://gitcode.com/gh_mirrors/nu/numb.nvim numb.nvim 是 Neovim 编辑器中最实用的预览插件之一，它能在你输入 :…

2026/6/13 0:00:11 阅读更多

从MOS管到变压器：手把手教你用LTspice仿真分析功率器件中的寄生电容效应

从MOS管到变压器：用LTspice深度解析功率器件寄生电容效应当你在调试一个Buck变换器时，是否遇到过开关波形出现异常振铃？或者发现效率比理论计算低了5%却找不到原因？这些问题的罪魁祸首往往就藏在那些看不见的寄生电容里。作为硬件…

2026/6/13 0:02:12 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/12 1:13:40 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/12 1:13:42 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/12 1:13:40 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/12 10:26:09 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/12 10:00:48 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/12 10:00:17 阅读更多

相关文章

终极解决方案：如何用ncmdump一键解密网易云音乐NCM格式

js-执行上下文

别再手动切图了！Tauri 1.1+ 一条命令搞定全平台App图标（附PNG尺寸要求详解）

DRG Save Editor：如何轻松管理你的深岩银河游戏存档？

深度实践CANN HCCL集合通信库：多卡并行训练中的通信优化与问题排查

手把手实战CANN ascend-transformer-boost：Transformer推理在昇腾NPU上的极致优化

ST7789S液晶屏驱动代码+三份关键文档（芯片手册/模组规格书/初始化指南）

GitHub加速插件终极指南：如何轻松提升10倍下载速度

公租房安居房智能化升级：NB-IoT智能锁落地方案与项目实践

【课程设计/毕业设计】基于 SpringBoot 的患者就诊信息管理系统的设计与实现 基于 SpringBoot 的医生接诊与处方管理系统的设计与实现【附源码、数据库、万字文档】

numb.nvim 常见问题解答：从安装到使用的 10 个实用技巧

从MOS管到变压器：手把手教你用LTspice仿真分析功率器件中的寄生电容效应

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

【课程设计/毕业设计】基于 SpringBoot 的患者就诊信息管理系统的设计与实现基于 SpringBoot 的医生接诊与处方管理系统的设计与实现【附源码、数据库、万字文档】