机器学习——基于XGB的红酒品质分类

发布时间：2026/5/22 3:36:09

一.算法简介Bagging思想并行由多个弱学习器预测结果最红综合所有结果给出最终结果代表算法为随机森林。Boosting思想串行下一个学习器纠正上一个学习器的错误从而提高学习器的性能代表算法为Adaboost提高错误样本的权重减小正确样本的权重、GBDT借鉴残差的思想梯度下降提高树的性能、XGBXBG极端梯度提升树是GBDT的改进版在除了损失外还增加了正则化项减小模型复杂度从而防止过拟合的发生。二.案例简介三.代码详解1.数据读取以及分割def dm01_data_split(): #1.加载数据集 df pd.read_csv(./data/红酒品质分类.csv) #2.查看数据集 df.info() #3.抽取特征数据和标签数据 x df.iloc[:, :-1] y df.iloc[:, -1] - 3 #最后一列是标签,默认标签是[3-8],-3后转换为[0,5] #4.查看数据 print(x[:5]) print(y[:5]) print(f查看标签数据是否均衡{Counter(y)}) #5.切分训练集和测试集参5参考数据集的标签分布 x_train, x_test, y_train, y_test train_test_split(x, y, test_size0.2, random_state23, stratifyy) #6.将上述的训练及特征和标签数据拼接到一起测试集特征和标签数据拼接到一起最后写到文件中 #print(pd.concat([x_train, y_train], axis1)) #axis 1 表示横向拼接 pd.concat([x_train, y_train], axis1).to_csv(./data/红酒品质分类.csv_train, indexFalse) #忽略索引 pd.concat([x_test, y_test], axis1).to_csv(./data/红酒品质分类.csv_test, indexFalse) # 忽略索引由标签可以看出存在数据分布不均的问题解决方法是权重均衡2.模型训练、保存#2.训练模型并保存 def dm02_train_model(): #1.读取训练集和测试集 train_data pd.read_csv(./data/红酒品质分类.csv_train) test_data pd.read_csv(./data/红酒品质分类.csv_test) #2.提取特征数据和标签数据 x_train train_data.iloc[:, :-1] #所有行除了最后一列 y_train train_data.iloc[:, -1] #所有行最后一列 x_test test_data.iloc[:, :-1] # 所有行除了最后一列 y_test test_data.iloc[:, -1] # 所有行最后一列 #3.创建模型 estimator xgb.XGBClassifier( max_depth 5, n_estimators 100, learning_rate 0.1, random_state 23, #随机种子 objective multi:softmax ) #加入平衡权重应为数据是不均衡的快速导入ALT回车 # 参1平衡权重参2标签数据即参考标签数据分布平衡权重 class_weight.compute_sample_weight(balanced, y_train) #4.模型训练 estimator.fit(x_train, y_train) #5.模型评估 print(f准确率{estimator.score(x_test, y_test)}) #6.保存模型 joblib.dump(estimator, ./model/红酒品质分类.pkl) #后缀名也可以写.pth都是pickle文件格式 print(模型保持成功)3.模型预测#3.测试模型 def dm03_ues_model(): # 1.读取训练集和测试集 train_data pd.read_csv(./data/红酒品质分类.csv_train) test_data pd.read_csv(./data/红酒品质分类.csv_test) # 2.提取特征数据和标签数据 x_train train_data.iloc[:, :-1] # 所有行除了最后一列 y_train train_data.iloc[:, -1] # 所有行最后一列 x_test test_data.iloc[:, :-1] # 所有行除了最后一列 y_test test_data.iloc[:, -1] # 所有行最后一列 #3.加载模型 estimator joblib.load(./model/红酒品质分类.pkl) #4.创建网格搜索交叉验证结合分层采样数据训练模型 #4.1定义变量记录参数组合 param_dict { max_depth:[2, 3, 5, 6], n_estimators:[50, 100, 150], learning_rate:[0.2, 0.3, 1.0] } #4.2创建分层采样对象 # 参1折数参2是否打乱数据参3随机种子 skf StratifiedKFold(n_splits5, shuffleTrue, random_state23) #4.3创建网格搜索交叉验证结合分层采用数据对象 gs_estimator GridSearchCV(estimator, param_gridparam_dict, cvskf) #5.模型训练 gs_estimator.fit(x_train, y_train) #6.模型预测 y_pred gs_estimator.predict(x_test) print(f预测值为{y_pred}) #7.打印模型评估系数 print(f最优参数组合{gs_estimator.best_params_}) print(f最优模型对象{gs_estimator.best_estimator_}) print(f最优评分{gs_estimator.best_score_}) print(f准确率{accuracy_score(y_test, y_pred)})4.完整代码新学数据预处理 1.标签重置 2.不均衡数据提取 3.特征和标签拼接 4.处理保存训练集和测试集 5.权重平衡 import joblib #保存模型 import numpy as np #数据运算 import pandas as pd #读数据 import xgboost as xgb #极限提升树 from collections import Counter #统计数据 from sklearn.model_selection import train_test_split,GridSearchCV from sklearn.metrics import classification_report, accuracy_score # 模型评估报告 from sklearn.model_selection import StratifiedKFold #分层K折叠交叉验证类似于网格搜索时cv 折数 from sklearn.utils import class_weight #平衡权重 #1.对红酒品质分类源数据-》拆分成训练集和测试集并保存导csv文件中 def dm01_data_split(): #1.加载数据集 df pd.read_csv(./data/红酒品质分类.csv) #2.查看数据集 df.info() #3.抽取特征数据和标签数据 x df.iloc[:, :-1] y df.iloc[:, -1] - 3 #最后一列是标签,默认标签是[3-8],-3后转换为[0,5] #4.查看数据 print(x[:5]) print(y[:5]) print(f查看标签数据是否均衡{Counter(y)}) #5.切分训练集和测试集参5参考数据集的标签分布 x_train, x_test, y_train, y_test train_test_split(x, y, test_size0.2, random_state23, stratifyy) #6.将上述的训练及特征和标签数据拼接到一起测试集特征和标签数据拼接到一起最后写到文件中 #print(pd.concat([x_train, y_train], axis1)) #axis 1 表示横向拼接 pd.concat([x_train, y_train], axis1).to_csv(./data/红酒品质分类.csv_train, indexFalse) #忽略索引 pd.concat([x_test, y_test], axis1).to_csv(./data/红酒品质分类.csv_test, indexFalse) # 忽略索引 #2.训练模型并保存 def dm02_train_model(): #1.读取训练集和测试集 train_data pd.read_csv(./data/红酒品质分类.csv_train) test_data pd.read_csv(./data/红酒品质分类.csv_test) #2.提取特征数据和标签数据 x_train train_data.iloc[:, :-1] #所有行除了最后一列 y_train train_data.iloc[:, -1] #所有行最后一列 x_test test_data.iloc[:, :-1] # 所有行除了最后一列 y_test test_data.iloc[:, -1] # 所有行最后一列 #3.创建模型 estimator xgb.XGBClassifier( max_depth 5, n_estimators 100, learning_rate 0.1, random_state 23, #随机种子 objective multi:softmax ) #加入平衡权重应为数据是不均衡的快速导入ALT回车 # 参1平衡权重参2标签数据即参考标签数据分布平衡权重 class_weight.compute_sample_weight(balanced, y_train) #4.模型训练 estimator.fit(x_train, y_train) #5.模型评估 print(f准确率{estimator.score(x_test, y_test)}) #6.保存模型 joblib.dump(estimator, ./model/红酒品质分类.pkl) #后缀名也可以写.pth都是pickle文件格式 print(模型保持成功) #3.测试模型 def dm03_ues_model(): # 1.读取训练集和测试集 train_data pd.read_csv(./data/红酒品质分类.csv_train) test_data pd.read_csv(./data/红酒品质分类.csv_test) # 2.提取特征数据和标签数据 x_train train_data.iloc[:, :-1] # 所有行除了最后一列 y_train train_data.iloc[:, -1] # 所有行最后一列 x_test test_data.iloc[:, :-1] # 所有行除了最后一列 y_test test_data.iloc[:, -1] # 所有行最后一列 #3.加载模型 estimator joblib.load(./model/红酒品质分类.pkl) #4.创建网格搜索交叉验证结合分层采样数据训练模型 #4.1定义变量记录参数组合 param_dict { max_depth:[2, 3, 5, 6], n_estimators:[50, 100, 150], learning_rate:[0.2, 0.3, 1.0] } #4.2创建分层采样对象 # 参1折数参2是否打乱数据参3随机种子 skf StratifiedKFold(n_splits5, shuffleTrue, random_state23) #4.3创建网格搜索交叉验证结合分层采用数据对象 gs_estimator GridSearchCV(estimator, param_gridparam_dict, cvskf) #5.模型训练 gs_estimator.fit(x_train, y_train) #6.模型预测 y_pred gs_estimator.predict(x_test) print(f预测值为{y_pred}) #7.打印模型评估系数 print(f最优参数组合{gs_estimator.best_params_}) print(f最优模型对象{gs_estimator.best_estimator_}) print(f最优评分{gs_estimator.best_score_}) print(f准确率{accuracy_score(y_test, y_pred)}) #4.测试 if __name__ __main__: #dm01_data_split() #dm02_train_model() dm03_ues_model()四.总结通过此案例主要学习了数据的处理方法例如标签重置、处理数据部分不均问题并且加强了对XGB的认识

用 Profiler 追踪 ops-transformer 算子：GE 融合与 Runtime 调度的实战调试

用 Profiler 追踪 ops-transformer 算子：GE 融合与 Runtime 调度的实战调试大模型训练跑不动，大多数人第一反应是"算力不够"。但我见过的实际情况里，80% 以上的性能问题出在算子调度和数据搬运上，不是算力本身。解决这…

2026/5/22 3:35:49 阅读更多

AI犯了错没人追责，工程师犯了错丢饭碗？

芯片公司开始大量引入AI辅助设计工具，生成RTL代码、跑仿真、做时序分析。与此同时，公司对工程师的容错空间越来越小，考核越来越严，出了bug第一反应是找人背锅。这两件事放在一起，细想一下，其实挺荒诞的。AI…

2026/5/22 3:34:49 阅读更多

重磅！AI 大神 Karpathy 加盟 + 算力工具链垄断，Anthropic 凭啥围剿 OpenAI？

在敬畏中冲刺，重写 AI 权力的游戏。整理 | 王启隆出品丨AI 科技大本营（ID：rgznai100）今早，一条简短的推文让整个硅谷的目光从各大厂商的产品发布会上移开。全球人工智能领域的标志性人物、OpenAI 联合创始人、前特斯拉…

2026/5/22 3:33:48 阅读更多

用Python玩点‘看不见’的：手把手教你用Stegano库把文件藏进图片里

用Python玩点‘看不见’的：手把手教你用Stegano库把文件藏进图片里在数字时代，隐私保护和趣味编程正成为技术爱好者们热衷探索的领域。想象一下，你可以在普通的风景照中隐藏一首诗，或是在生日聚会的合影里悄悄嵌入一段祝福语&…

2026/5/22 5:13:13 阅读更多

历年各批次“重点小巨人”企业全面分析报告

国家级重点专精特新“小巨人”企业是专注于细分市场、创新能力强、市场占有率高、掌握关键核心技术、质量效益优的“排头兵”企业。自政策实施以来，重点“小巨人”已逐步成为我国培育新质生产力、推进新型工业化、提升产业链供应链韧性与安全水平的核心抓手。从工业…

2026/5/22 5:10:12 阅读更多

保姆级教程：用UltraISO给U盘刻录Ubuntu 22.04启动盘，一次成功不踩坑

零基础实战：用UltraISO打造Ubuntu 22.04启动盘的终极指南第一次接触Linux系统安装的新手，往往会在制作启动盘这一步遇到各种意想不到的问题。U盘明明已经刻录完成，却在启动时出现黑屏、报错甚至根本无法识别——这些困扰过无数初学者的坑&am…

2026/5/22 5:10:12 阅读更多

CLIP实战手记：零样本多模态工程的提示设计与特征重用

1. 这不是一篇论文导读，而是一份CLIP实战手记“Notes on CLIP: Connecting Text and Images”这个标题乍看像学术笔记，但在我过去三年用CLIP落地过7个真实项目（从工业零件缺陷图文检索、非遗纹样跨模态匹配，到小红书风格迁移标签生…

2026/5/22 5:08:51 阅读更多

Contextual Bandits 实时决策工程实践：从 LinUCB 到生产级部署

1. 这不是另一个“强化学习入门”，而是一套能立刻跑通的实时决策流水线“Contextual Bandits”这个词，最近两年在推荐系统、广告投放、智能客服甚至A/B测试团队的周会上出现频率越来越高。但很多人一听到“Bandits”，下意识就想到多臂老虎机—…

2026/5/22 5:07:10 阅读更多

Agent Runtime 正在 commoditize：从 session-as-event-log 看 AI 基础设施分层

1. 这不是新赛道，而是 runtime 层的“操作系统时刻”正在重演你打开手机看到新闻标题《Anthropic Just Shipped the Layer That’s Already Going to Zero》，第一反应可能是：又一个大模型公司搞出了什么黑科技？但如果你真花十分钟…

2026/5/22 5:04:07 阅读更多

单日大涨4.52%！华泰柏瑞中韩半导体ETF（513310.SH）上演“高热度”行情，溢价率风险引关注

5月21日，华泰柏瑞中韩半导体ETF（513310.SH）延续强势表现，当日收盘价报5.625元，涨幅达4.52%，盘中交投异常活跃，换手率109.80%，量比为1.32，市场资金交易热情高涨。然而&…

2026/5/22 0:00:46 阅读更多

11. 架构：前端工程化与状态管理实战

写在前面：如果说后端 MVT 引擎是 GIS 系统的“心脏”，那么前端就是它的“大脑”和“面孔”。在现代 WebGIS 开发中，如何优雅地管理复杂的图层状态、如何处理海量瓦片的渲染逻辑，是决定项目成败的关键。今天，我们将深入 light-mvt-server 的前端核心，看看如何利用 Vite …

2026/5/22 0:01:27 阅读更多

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟【免费下载链接】taojinbi 淘宝淘金币自动执行脚本，包含蚂蚁森林收取能量，芭芭农场全任务，解放你的双手项目地址: https://gitcode.com/gh_mi…

2026/5/22 0:02:07 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…