从零啃透机器学习:用“挑西瓜”讲透机器学习第三章

发布时间：2026/5/23 4:07:10

《机器学习》第3章·通俗解读 | 线性模型简单又强大的“直线思维”这一章的主角是线性模型。别被名字吓到它的核心思想非常朴素用一条直线或一个平面来预测结果。它简单、好懂、有解释性而且很多复杂模型都是它的“升级版”。1. 线性模型长什么样回忆一下初中的一元一次方程y kx bx是输入比如西瓜的色泽y是输出比如好瓜的程度k是斜率权重b是截距偏置如果西瓜有多个特征色泽、根蒂、敲声就变成y w1×色泽 w2×根蒂 w3×敲声 bw1, w2, w3叫权重表示每个特征的重要性。权重越大说明这个特征对结果影响越大。一个例子学到的模型可能是好瓜分数 0.2×色泽 0.5×根蒂 0.3×敲声 1 根蒂最重要敲声次之色泽影响最小。2. 线性回归预测一个数值最简单的任务给你一个西瓜的特征预测它的含糖量一个具体的数字。输入密度、色泽、根蒂……输出0.3、0.5、0.7 这样的数值怎么做找一条直线或超平面让所有训练样本到这条直线的距离之和最短。这种方法叫最小二乘法。通俗理解你画一条线然后把每个真实数据点垂直拉到线上把所有拉线的长度平方加起来让这个总和最小。3. 对数几率回归虽然叫“回归”其实是分类如果你要判断“是不是好瓜”是/否就不能直接输出数值了。这时候需要一个“开关函数”把任意实数映射成 0 或 1。理想的开关阶跃函数小于0就是坏瓜大于0就是好瓜。但它不光滑不好训练。于是用一个平滑的S形曲线代替这就是Sigmoid函数。这个函数的输出介于 0 和 1 之间可以理解为“是好瓜的概率”。比如模型输出 0.9意思是“90%可能是好瓜”。最后定一个阈值通常是0.5大于0.5判为好瓜否则坏瓜。为什么叫“对数几率回归”“几率” 好瓜概率 / 坏瓜概率取对数后正好是线性模型的结果。所以它本质是用线性模型来逼近概率的对数。4. 线性判别分析LDA找一条线把两类分开LDA 的思路非常直观把数据点投影到一条直线上希望同一类点尽可能靠近类内方差小不同类的中心点尽可能远离类间距离大就像你把红色豆子和绿色豆子往一条线上扔希望红的一堆、绿的一堆而且两堆离得远远的。LDA 不仅能分类还能降维如果原来有100个特征投影后可能只需几个维度的组合。5. 多分类学习一次分多个类别现实任务往往不止“好瓜/坏瓜”可能还有“合格瓜”“优秀瓜”等等。怎么用二分类器解决多分类主要有三种策略方法做法例子一对一每两个类别之间训练一个分类器好瓜 vs 坏瓜、好瓜 vs 合格、坏瓜 vs 合格一对其余每次把一个类当正例其余当反例好瓜 vs 其他、坏瓜 vs 其他、合格 vs 其他纠错输出码用一组“编码”来表示每个类别每个分类器负责一位编码的预测类似用多个判断题来定位正确答案一对一训练的分类器多N(N-1)/2个但每个只用两类数据训练快一对其余只训练 N 个但每个分类器要用全部数据训练慢。实际中两者效果差不多。6. 类别不平衡正例太少怎么办假如训练集里 998 个坏瓜只有 2 个好瓜。模型随便猜“全是坏瓜”准确率也有 99.8%但它根本学不会找好瓜。怎么解决过采样把好瓜复制几份或者“插值”生成新样本欠采样从坏瓜里随机丢弃一些让两类数量接近阈值移动不改变数据而是调整判断阈值比如原来0.5现在改成0.1插值在两个真实样本中间“猜”一个新样本让少数类的样本更丰富、更多样模型学得更好。一个技巧训练集里好瓜:坏瓜 1:10那么你判断时只有模型觉得“是好瓜的概率 1/(110) ≈ 0.09”就判为好瓜而不是 0.5。第三章总结背下这5句就够了线性模型给每个特征配一个权重加权求和加偏置线性回归预测数值如含糖量用最小二乘法找最佳直线对数几率回归逻辑回归是分类模型输出概率用S形曲线把任意值映射到0~1线性判别分析LDA找一条线让同类近、异类远还能降维类别不均衡时可以通过过采样、欠采样、调阈值来补救下章预告第四章讲决策树——一种像“流程图”一样的模型每一步都在问一个问题如“根蒂蜷缩吗”一路走到叶子节点得出答案。非常直观、非常好懂用“挑西瓜”讲透《机器学习》-- 决策树-CSDN博客

[特殊字符]通用漏洞挖掘（黑盒篇）| 从一个登录框SQL注入，到拿下CNVD证书

🎯 0x00 这篇文章能给你什么？ 黑盒测试中如何发现 SQL 注入（手工思路） 万能密码 ≠ 全部，但有了它一定有问题如何从“事件型漏洞”升级为“通用型漏洞” 利用 JS 指纹在 FOFA 上批量找同款系统 CNVD 证书的获…

2026/5/23 4:06:29 阅读更多

用 shell 命令做 AI Agent 的插件系统：为什么 Hook 不是函数调用

用 shell 命令做 AI Agent 的插件系统：为什么 Hook 不是函数调用这是《写完一个 AI 编程助手之后，我才确定 prompt 工程不是重点》系列的第七篇（最后一篇）。前六篇讲了进程模型、权限、并发调度、上下文压缩、记忆系统。这一篇…

2026/5/23 4:06:29 阅读更多

Golang技术周刊 2026年第16周

阅读原文: https://mp.weixin.qq.com/s/LQQc-r1GLEhz7wXF6XVw6g 本周Go生态亮点：深入编译器内部机制的硬核探索、GitHub用eBPF提升部署安全、TinyGo将支持Go 1.26、GitHub官方MCP Server 1.0发布，以及多个实用工具更新。 🔥 头条给Go添加条…

2026/5/23 4:05:08 阅读更多

戴森球计划工厂蓝图库：3000+专业设计解决太空建造难题

戴森球计划工厂蓝图库：3000专业设计解决太空建造难题【免费下载链接】FactoryBluePrints 游戏戴森球计划的**工厂**蓝图仓库项目地址: https://gitcode.com/GitHub_Trending/fa/FactoryBluePrints FactoryBluePrints是戴森球计划游戏中规模最大的工厂蓝图开…

2026/5/23 5:07:21 阅读更多

Java读取Word图片坐标位置的方法

Word文档中图片坐标怎么获取于实际开发期间，我们时常得去处理Word文档里的图片，像是把图片提取出来，对排版予以调整，亦或是进行自动化校验。然而，好多人在获取图片的坐标位置之际卡住了，这事是由于Word的图…

2026/5/23 5:07:21 阅读更多

5大智能功能解密：如何用自动化系统彻底告别茅台手动抢购

5大智能功能解密：如何用自动化系统彻底告别茅台手动抢购【免费下载链接】campus-imaotai i茅台app自动预约，每日自动预约，支持docker一键部署（本项目不提供成品，使用的是已淘汰的算法） 项目地址: https:…

2026/5/23 5:06:20 阅读更多

3个简单步骤：OpenSIPS与MySQL/PostgreSQL数据库集成完整指南

3个简单步骤：OpenSIPS与MySQL/PostgreSQL数据库集成完整指南【免费下载链接】opensips OpenSIPS is a GPL implementation of a multi-functionality SIP Server that targets to deliver a high-level technical solution (performance, security and quality) to…

2026/5/23 5:06:20 阅读更多

为什么很多企业，做大后反而开始放弃 SaaS？——真正限制企业长期发展的，很多时候不是“功能”，而是“系统控制权”

很多企业第一次做商城系统时。通常都会特别关注： 上线快不快成本低不低功能全不全能不能快速开展业务所以： 很多企业前期都会优先选择： SaaS商城系统。因为： SaaS 最大的优势确实很明显： 快速上线不需要运维…

2026/5/23 5:05:39 阅读更多

我用了半年只留下这一个！2026做讲座视频总结的神器我真心安利给大家

作为天天测各种AI工具的内容博主，我一半的工作时间都在处理音视频素材——整理讲座录音、剪知识总结视频、整理访谈素材，前前后后踩了快十个转写工具的坑，今天直接给结论：听脑AI是目前同类工具里最值得内容创作者尝试的方案&#…

2026/5/23 5:05:39 阅读更多

红黑树完全指南：从五条性质到完整插入删除实现

引言在前面的树系列中，我们学习了二叉搜索树（BST）和 AVL 树。AVL 树通过严格的平衡条件（|BF| ≤ 1）保证 O(log n) 的性能，但代价是删除操作可能触发 O(log n) 次旋转。红黑树（Red-Black Tree&am…

2026/5/23 0:01:37 阅读更多

黎曼猜想：哲学 × 数学思维范式全链条

黎曼猜想：哲学数学思维范式全链条华夏之光永存｜七大数学猜想思维范式全链条第二篇开篇黎曼猜想被公认为数学史上最伟大的未解难题。希尔伯特曾说：“如果我沉睡百年后醒来，第一个问题就是：黎曼猜想证明了吗&…

2026/5/23 0:02:38 阅读更多

在Nodejs后端服务中集成稳定可靠的大模型能力

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Nodejs后端服务中集成稳定可靠的大模型能力应用场景类，针对需要构建智能对话或内容生成功能的后端工程师&#xff0…

2026/5/23 0:03:18 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/22 17:05:13 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/22 16:54:23 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/23 4:55:00 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/22 14:41:35 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/22 11:03:47 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…