阶段二机器学习第1课机器学习是什么核心思想传统编程 → 人写规则电脑执行 机器学习 → 电脑自己从数据中学习规则生活中的机器学习垃圾邮件过滤抖音/小红书推荐算法语音助手Siri、小爱同学人脸识别机器学习的三种类型类型说明例子监督学习有标准答案预测房价、识别猫狗无监督学习没有标准答案自己找规律用户分群、图片聚类强化学习通过奖励/惩罚学习AlphaGo、游戏 AI监督学习的两个主要任务分类预测类别这封邮件是垃圾邮件吗回归预测数值这套房子能卖多少钱 核心比喻机器学习 拟合函数你有一堆散点机器学习帮你画一条最贴合这些点的曲线。 以后来一个新的 x就能用这条曲线预测 y。测验答案B — 用历史房价数据训练模型预测新房价有标准答案 监督学习第2课第一个机器学习项目用 sklearn 训练一个判断鸢尾花品种的模型。完整代码python# 1. 导入工具 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # 2. 加载数据 iris load_iris() X iris.data # 特征花的大小数据 y iris.target # 标签品种编号0,1,2 # 3. 拆分训练集和测试集 X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.3, random_state42 ) # test_size0.3 → 70%训练30%测试 # 4. 选择模型并训练 model KNeighborsClassifier(n_neighbors3) model.fit(X_train, y_train) # 训练 # 5. 预测并评估 y_pred model.predict(X_test) accuracy accuracy_score(y_test, y_pred) print(f模型准确率: {accuracy * 100:.1f}%) # 6. 用自己的数据试试 new_flower [[5.1, 3.5, 1.4, 0.2]] prediction model.predict(new_flower) print(f预测品种: {iris.target_names[prediction[0]]})代码解读train_test_split不能把所有数据都用来训练要留一部分来闭卷考试KNeighborsClassifier看新数据周围最近的 3 个邻居是什么品种少数服从多数accuracy_score模型说对了百分之多少如何在 Google Colab 运行打开 colab.research.google.com新建笔记本粘贴代码按Shift Enter运行测验题目train_test_split的作用是什么A. 把数据按行拆成训练和测试两部分 ✅B. 把数据按列拆成特征和标签C. 用来训练模型的主体函数D. 用来评估模型准确率的函数第3课过拟合与泛化 ⚠️这是机器学习最重要的概念理解了它你就超越了 80% 的初学者。什么是过拟合生活比喻小明背下了所有练习题的答案考试遇到新题就不会了 →过拟合小红理解了解题思路遇到新题也能做对 →泛化能力强✅三种状态对比状态训练集表现测试集表现说明欠拟合差差模型太简单没学会刚好好好理想状态 ✅过拟合极好100%差背下了训练数据 ⚠️防止过拟合的 4 种方法更多数据— 数据越多模型越难背答案正则化Regularization— 给模型加约束不让它太复杂交叉验证— 多次拆分训练/测试集确保模型稳定早停Early Stopping— 测试集误差开始上升时立即停止训练判断口诀训练集误差 ↓ 测试集误差 ↓ → 泛化能力强 ✅ 训练集误差 ↓ 测试集误差 ↑ → 过拟合⚠️ 训练集误差 ↑ 测试集误差 ↑ → 欠拟合 ⚠️代码示例绘制学习曲线pythonfrom sklearn.model_selection import learning_curve import matplotlib.pyplot as plt train_sizes, train_scores, val_scores learning_curve( model, X, y, cv5 ) # 两条曲线差距很大 → 过拟合 # 两条曲线都很高误差大 → 欠拟合测验答案B — 训练集准确率高但测试集准确率低说明可能过拟合了
AI 学习之旅 · 阶段二:机器学习
发布时间:2026/6/25 12:03:19
阶段二机器学习第1课机器学习是什么核心思想传统编程 → 人写规则电脑执行 机器学习 → 电脑自己从数据中学习规则生活中的机器学习垃圾邮件过滤抖音/小红书推荐算法语音助手Siri、小爱同学人脸识别机器学习的三种类型类型说明例子监督学习有标准答案预测房价、识别猫狗无监督学习没有标准答案自己找规律用户分群、图片聚类强化学习通过奖励/惩罚学习AlphaGo、游戏 AI监督学习的两个主要任务分类预测类别这封邮件是垃圾邮件吗回归预测数值这套房子能卖多少钱 核心比喻机器学习 拟合函数你有一堆散点机器学习帮你画一条最贴合这些点的曲线。 以后来一个新的 x就能用这条曲线预测 y。测验答案B — 用历史房价数据训练模型预测新房价有标准答案 监督学习第2课第一个机器学习项目用 sklearn 训练一个判断鸢尾花品种的模型。完整代码python# 1. 导入工具 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import accuracy_score # 2. 加载数据 iris load_iris() X iris.data # 特征花的大小数据 y iris.target # 标签品种编号0,1,2 # 3. 拆分训练集和测试集 X_train, X_test, y_train, y_test train_test_split( X, y, test_size0.3, random_state42 ) # test_size0.3 → 70%训练30%测试 # 4. 选择模型并训练 model KNeighborsClassifier(n_neighbors3) model.fit(X_train, y_train) # 训练 # 5. 预测并评估 y_pred model.predict(X_test) accuracy accuracy_score(y_test, y_pred) print(f模型准确率: {accuracy * 100:.1f}%) # 6. 用自己的数据试试 new_flower [[5.1, 3.5, 1.4, 0.2]] prediction model.predict(new_flower) print(f预测品种: {iris.target_names[prediction[0]]})代码解读train_test_split不能把所有数据都用来训练要留一部分来闭卷考试KNeighborsClassifier看新数据周围最近的 3 个邻居是什么品种少数服从多数accuracy_score模型说对了百分之多少如何在 Google Colab 运行打开 colab.research.google.com新建笔记本粘贴代码按Shift Enter运行测验题目train_test_split的作用是什么A. 把数据按行拆成训练和测试两部分 ✅B. 把数据按列拆成特征和标签C. 用来训练模型的主体函数D. 用来评估模型准确率的函数第3课过拟合与泛化 ⚠️这是机器学习最重要的概念理解了它你就超越了 80% 的初学者。什么是过拟合生活比喻小明背下了所有练习题的答案考试遇到新题就不会了 →过拟合小红理解了解题思路遇到新题也能做对 →泛化能力强✅三种状态对比状态训练集表现测试集表现说明欠拟合差差模型太简单没学会刚好好好理想状态 ✅过拟合极好100%差背下了训练数据 ⚠️防止过拟合的 4 种方法更多数据— 数据越多模型越难背答案正则化Regularization— 给模型加约束不让它太复杂交叉验证— 多次拆分训练/测试集确保模型稳定早停Early Stopping— 测试集误差开始上升时立即停止训练判断口诀训练集误差 ↓ 测试集误差 ↓ → 泛化能力强 ✅ 训练集误差 ↓ 测试集误差 ↑ → 过拟合⚠️ 训练集误差 ↑ 测试集误差 ↑ → 欠拟合 ⚠️代码示例绘制学习曲线pythonfrom sklearn.model_selection import learning_curve import matplotlib.pyplot as plt train_sizes, train_scores, val_scores learning_curve( model, X, y, cv5 ) # 两条曲线差距很大 → 过拟合 # 两条曲线都很高误差大 → 欠拟合测验答案B — 训练集准确率高但测试集准确率低说明可能过拟合了