学习时序预测-day 01 XGboost进行时序预测

发布时间：2026/5/26 22:41:54

最近学习负荷时序预测相关模型了解的一些知识点相关的知识可见w-yes6/load-forecasting-learnXGboost就是通过滞后特征或者统计特征等学习时序模型通过树来学习残差然后进行预测的。1. “通过滞后特征或者统计特征等” —— 解决数据重塑因为树模型天生“没有时间概念”你通过滞后特征如shift(24)和滚动统计特征如过去 24 小时均值把原本“前后连贯”的时间线重塑成了一张标准的、包含历史线索的二维监督学习表格。这就是模型的输入。2. “通过树来学习残差” —— 解决核心算法在训练阶段XGBoost 内部的成百上千棵决策树开始接力跑。第一棵树粗糙地预测一个值后面的树则死死盯着前面留下的残差不正确的部分进行针对性纠错。树越建越多残差越来越小历史规律就被这些树的 If-Else 路标牢牢锁定了。3. “然后进行预测的” —— 解决未来推导到了未来虽然我们没有标准答案真实的负荷值但通过shift错位平移我们已经把明天的“特征问卷”准备好了。把明天的特征输入进固定的树群里让数据去“走迷宫”把所有树吐出来的数字加在一起未来的预测值就诞生了。代码示例import warnings import matplotlib.pyplot as plt import numpy as np import pandas as pd import xgboost as xgb # 忽略不必要的警告信息 warnings.filterwarnings(ignore) # # 1. 模拟生成一份电力负荷数据 (以小时为单位) # np.random.seed(42) # 生成 200 个小时的时间序列索引 time_index pd.date_range(start2026-05-01, periods200, freqH) # 模拟带有每日周期波动的负荷数据并加入随机噪声 base_load 100 simulated_load [] for i, t in enumerate(time_index): # 用正弦函数模拟每天 24 小时的周期性波动中午高凌晨低 daily_pattern 30 * np.sin(2 * np.pi * t.hour / 24) noise np.random.normal(0, 5) simulated_load.append(base_load daily_pattern noise) # 组装成 DataFrame df pd.DataFrame(data{load: simulated_load}, indextime_index) # # 2. 特征工程重塑数据赋予模型“历史眼光” # def create_features(data): 把纯时序数据转换成包含时间戳特征和滞后特征的表格数据 df_feat data.copy() # --- 兵团一时间戳特征 (从日期中提取If-Else判断的依据) --- df_feat[hour] df_feat.index.hour # 提取小时 (0-23) df_feat[dayofweek] df_feat.index.dayofweek # 提取星期几 (0-6) # --- 兵团二滞后特征 (直接把过去的历史写在明天的行里) --- # 假设我们只做“单步预测”预测未来1小时所以最小可以从 lag_1 起步 df_feat[lag_1] df_feat[load].shift(1) # 1小时前的负荷 df_feat[lag_2] df_feat[load].shift(2) # 2小时前的负荷 df_feat[lag_24] df_feat[load].shift(24) # 昨天同一时刻的负荷 # --- 兵团三滚动统计特征 (捕捉近期大环境的基线) --- # 基于 lag_1 滚动计算过去 6 小时的平均值防止数据泄露 df_feat[rolling_mean_6h] df_feat[lag_1].rolling(6).mean() return df_feat # 执行特征工程 df_with_features create_features(df) # 注意因为使用了 shift 和 rolling前 24 行数据会产生空值 (NaN)必须剔除 df_with_features df_with_features.dropna() # # 3. 严格按时间先后划分特征 (X) 和标签 (Y) # # 规定哪些是丢给模型走迷宫的“答卷特征” FEATURES [hour, dayofweek, lag_1, lag_2, lag_24, rolling_mean_6h] # 规定哪一个是标准的“未来答案” TARGET load # 划分训练集前 150 个小时的历史 train_df df_with_features.iloc[:150] # 划分测试集最后 26 个小时的未来真相 test_df df_with_features.iloc[150:] X_train, y_train train_df[FEATURES], train_df[TARGET] X_test, y_test test_df[FEATURES], test_df[TARGET] # # 4. 初始化并训练 XGBoost 模型 # # 创建一个 XGBoost 回归树模型 # n_estimators100: 一共建 100 棵树去串行接力纠正残差 # max_depth3: 每棵树的最大深度是 3防止路标太多导致死记硬背过拟合 # learning_rate0.1: 学习率控制每棵树修正残差的步伐大小 model xgb.XGBRegressor(n_estimators100, max_depth3, learning_rate0.1, random_state42) # 让模型开始看历史数据X_train和答案y_train一棵树接一棵树地拟合残差 model.fit(X_train, y_train) # # 5. 带着未来的特征“走迷宫”进行单步预测 # # 此时我们把测试集的特征X_test喂给建好的树模型会顺着路标相加直接吐出预测值 predictions model.predict(X_test) # 将预测结果转化为带有时间索引的 Series方便后面画图对齐 predictions_series pd.Series(predictions, indextest_df.index) # # 6. 结果可视化比对 # plt.figure(figsize(12, 5)) # 画出最后一段已知的训练集历史 plt.plot(train_df.index[-48:], train_df[load][-48:], labelHistory (Last 48h), colorblue) # 画出测试集的真实未来绿色线 plt.plot(test_df.index, y_test, labelActual Future (Truth), colorgreen, linewidth2) # 画出 XGBoost 预测出来的未来红色虚线 plt.plot(test_df.index, predictions_series, labelXGBoost Forecast, colorred, linestyle--, linewidth2) plt.title(Electricity Load Forecasting using XGBoost) plt.xlabel(Time) plt.ylabel(Load (MW)) plt.legend() plt.grid(True) plt.show()

2026AI写作辅助平台实测排行榜！这几款才是真神器

综合评分 TOP4 为千笔AI(99/100)、毕业之家 (96/100)、DeepSeek Scholar(89/100)、豆包学术版 (88/100)。千笔AI是全流程全能王，毕业之家专注学术合规，DeepSeek 是理工科免费神器，豆包擅长多模态与文献分析。一、测评标准说明（202…

2026/5/26 22:41:33 阅读更多

MPNet-GRUs情感分析模型：融合Transformer与RNN的序列建模实践

1. 项目概述与核心价值情感分析，或者说观点挖掘，是自然语言处理领域里一个既经典又充满挑战的任务。简单来说，它的目标就是让机器读懂文字背后的情绪和态度。无论是电商平台上海量的商品评论，还是社交媒体上瞬息万变的公众舆论&am…

2026/5/26 22:40:10 阅读更多

OpenAI 大重组与 IPO 冲刺：全面解析

OpenAI 大重组与 IPO 冲刺：全面解析整理时间：2026年5月24日 | 信息来源：WIRED、The Verge、The Information、华尔街日报、36氪、新智元等多家媒体交叉验证一、事件概览2026年5月15-16日，OpenAI 宣布了公司历史上IPO前夕最大规模的…

2026/5/26 22:38:24 阅读更多

PubLayNet数据格式详解：COCO格式标注与自定义数据集转换

PubLayNet数据格式详解：COCO格式标注与自定义数据集转换【免费下载链接】PubLayNet 项目地址: https://gitcode.com/gh_mirrors/pu/PubLayNet PubLayNet是一个专注于学术文献页面布局分析的数据集，采用COCO格式进行标注，包含文本、标…

2026/5/26 23:38:21 阅读更多

基于Siamese网络与ELMO的语义相似度计算：从原理到Quora重复问题检测实践

1. 项目概述：从社区问答的“顽疾”到技术解法在任何一个蓬勃发展的在线社区，尤其是像Quora、知乎这样的问答平台，内容质量与用户体验的平衡始终是核心挑战。想象一下，你是一个热心的知识分享者，精心撰写了一篇关于“如…

2026/5/26 23:38:21 阅读更多

GitLabJenkins部署02：配置 Jenkins Agent （实际运行构建任务的节点）并让 GitLab 流水线运行在 Agent 上完整教程

下面这份可以直接作为第二部分 CSDN 正文使用。它会和你现有文章形成完整上下两篇：第一篇负责 GitLab + Jenkins Controller，第二篇负责 Jenkins Agent 接入和流水线改造。 Ubuntu 配置 Jenkins Agent 并让 GitLab 流水线运行在 Agent 上完整教程上一篇文章已经完成了：…

2026/5/26 23:38:01 阅读更多

哔咔漫画下载器终极指南：三步打造你的个人漫画图书馆

哔咔漫画下载器终极指南：三步打造你的个人漫画图书馆【免费下载链接】picacomic-downloader 哔咔漫画 picacomic pica漫画 bika漫画 PicACG 多线程下载器，带图形界面带收藏夹，已打包exe 下载速度飞快项目地址: https://gitcode.com/gh_m…

2026/5/26 23:37:40 阅读更多

36.开源完整版高通 EDL 刷机 Python 脚本！支持分区备份、精准刷写、校验

摘要本文面向具备基础电子电路知识和命令行操作能力的维修工程师，系统阐述主流品牌手机刷机与维修的底层原理与实操流程。内容涵盖高通、联发科、苹果A系列芯片的刷机协议差异，Bootloader解锁策略，分区表修复逻辑，以及基于Python和ADB/Fastboot的自动化刷机工具链。所有步…

2026/5/26 23:37:40 阅读更多

独立开发者如何借助Taotoken快速迭代AI应用原型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度独立开发者如何借助Taotoken快速迭代AI应用原型对于独立开发者或小型工作室而言，验证一个AI应用创意的核心在于快速试…

2026/5/26 23:36:19 阅读更多

Claude Code Skill动态发现机制全解析：为什么你的AI会自动执行代码

文章目录前言一、那个让我怀疑AI成精的自动commit事件二、静态注入：Claude偷偷给模型塞的小纸条三、Skill工具：模型自己给自己发指令的自导自演四、动态注入：Skill集合变了怎么办？五、语义匹配注入：当Skill多到烧不起t…

2026/5/26 0:00:17 阅读更多

ssm高校普法系统（10101）

有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码SQL脚本）配套文档（LWPPT开题报告/任务书）远程调试控屏包运行一键启动项目&…

2026/5/26 0:01:18 阅读更多

强化学习策略参数调节方法及值迭代算法实现 CS188 Proj3 学习笔记

强烈推荐的更好的阅读体验 Q1.Value Iteration 第一个问题是最基础的值迭代实现，这个问题没有什么难度，主要就是一边看着公式一遍敲代码复现。可以先回顾一下Note8中的Value Iteration框架.唯一唯一需要注意的就是需要使用的是batch版本，而…

2026/5/26 0:01:39 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/26 2:55:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/26 2:55:26 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/26 1:30:55 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/26 19:57:06 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/26 15:11:34 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/26 11:18:30 阅读更多

相关文章