CIC-IDS-2017数据集预处理实战：从原始流量到机器学习就绪数据

发布时间：2026/5/27 18:39:57

1. CIC-IDS-2017数据集简介与下载CIC-IDS-2017是加拿大网络安全研究所发布的一个经典网络入侵检测数据集它模拟了真实企业网络环境中的正常流量和多种攻击行为。这个数据集最大的特点是包含了完整的网络流量包PCAP格式和已经提取好的特征文件CSV格式特别适合用来训练机器学习模型进行异常流量检测。数据集采集于2017年7月3日到7月7日的工作日期间每天模拟不同的网络场景周一仅包含正常流量周二暴力破解FTP/SSH攻击周三DoS攻击和端口扫描周四Web攻击和渗透测试周五DDoS攻击和僵尸网络活动下载数据集时你会看到8个主要的CSV文件每个对应不同时段的网络活动。我建议直接从加拿大网络安全研究所官网下载完整压缩包约3GB解压后会得到这些关键文件Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv Friday-WorkingHours-Afternoon-PortScan.pcap_ISCX.csv Friday-WorkingHours-Morning.pcap_ISCX.csv Monday-WorkingHours.pcap_ISCX.csv Thursday-WorkingHours-Afternoon-Infilteration.pcap_ISCX.csv Thursday-WorkingHours-Morning-WebAttacks.pcap_ISCX.csv Tuesday-WorkingHours.pcap_ISCX.csv Wednesday-workingHours.pcap_ISCX.csv2. 数据预处理完整流程2.1 初始数据检查与特征行处理刚拿到原始CSV文件时我习惯先用pandas快速浏览数据结构import pandas as pd file_path Friday-WorkingHours-Morning.pcap_ISCX.csv raw_data pd.read_csv(file_path) print(raw_data.head(3))你会发现第一行其实是特征描述比如Flow Duration、Total Fwd Packets等而不是真正的数据。这会导致pandas把特征名误认为第一行数据。我的处理方法是# 跳过第一行读取并手动添加列名 with open(file_path) as f: columns f.readline().strip().split(,) data pd.read_csv(file_path, skiprows1, headerNone, namescolumns)2.2 缺失值处理实战技巧这个数据集常见的缺失值表现为NaN、Infinity或空字符串。我推荐组合使用以下方法# 替换无穷大值 import numpy as np data.replace([np.inf, -np.inf], np.nan, inplaceTrue) # 删除缺失值超过50%的列 threshold len(data) * 0.5 data data.dropna(threshthreshold, axis1) # 对剩余缺失值用中位数填充 numeric_cols data.select_dtypes(includenp.number).columns for col in numeric_cols: data[col].fillna(data[col].median(), inplaceTrue)特别注意某些特征列如Flow Bytes/s在除数为零时会产生无穷大值这类列需要特殊处理。2.3 标签编码的工程实践原始数据中的攻击标签是文本形式如BENIGN、DDoS等需要转换为数值。我建议采用两种方案方案一简单标签编码from sklearn.preprocessing import LabelEncoder le LabelEncoder() data[Label] le.fit_transform(data[Label])方案二自定义优先级编码label_priority { BENIGN: 0, PortScan: 1, DDoS: 2, # 其他攻击类型... } data[Label] data[Label].map(label_priority)第二种方法特别适合需要区分攻击严重程度的场景。记得保存编码映射关系后续预测时需要反向解码。3. 特征工程关键步骤3.1 特征选择与降维原始数据集包含80多个特征很多存在高度相关性。我通常先做相关性分析import seaborn as sns corr_matrix data.corr().abs() plt.figure(figsize(20,15)) sns.heatmap(corr_matrix, annotFalse) plt.show()然后使用方差阈值法过滤低方差特征from sklearn.feature_selection import VarianceThreshold selector VarianceThreshold(threshold0.1) selected_features selector.fit_transform(data[numeric_cols])3.2 特征归一化实战不同特征的量纲差异极大比如数据包数量可能是几千而持续时间是毫秒级必须进行归一化。我常用的三种方法Min-Max归一化适合均匀分布from sklearn.preprocessing import MinMaxScaler scaler MinMaxScaler() scaled_data scaler.fit_transform(data[numeric_cols])Z-Score标准化适合存在异常值from sklearn.preprocessing import StandardScaler scaler StandardScaler() scaled_data scaler.fit_transform(data[numeric_cols])Robust Scaling对异常值更鲁棒from sklearn.preprocessing import RobustScaler scaler RobustScaler() scaled_data scaler.fit_transform(data[numeric_cols])4. 数据集划分与保存4.1 时间序列敏感的分割方法由于网络攻击具有时间相关性我建议按时间顺序划分数据集而非随机分割split_idx int(len(data)*0.7) train data.iloc[:split_idx] test data.iloc[split_idx:]4.2 高效存储预处理结果处理好的数据集建议保存为多种格式# 保存为CSV train.to_csv(train_processed.csv, indexFalse) # 保存为HDF5适合大数据集 train.to_hdf(train_processed.h5, keydata, modew) # 保存为Pickle保留数据类型 import pickle with open(train_processed.pkl, wb) as f: pickle.dump(train, f)5. 实际应用中的经验分享在多个实际项目中处理这个数据集后我总结出几个关键经验内存优化对于大文件可以使用chunksize参数分块读取chunk_iter pd.read_csv(file_path, chunksize50000) for chunk in chunk_iter: process(chunk)并行处理对于特征计算可以使用多核加速from joblib import Parallel, delayed results Parallel(n_jobs4)(delayed(compute_feature)(col) for col in data.columns)验证集构建建议从训练集中再划分20%作为验证集用于调参from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val train_test_split( train_features, train_labels, test_size0.2, stratifytrain_labels)类别不平衡处理攻击样本通常远少于正常流量需要采用过采样/欠采样from imblearn.over_sampling import SMOTE smote SMOTE() X_res, y_res smote.fit_resample(X_train, y_train)

25个国家+34个分类！Awesome RSS Feeds让你一键获取全球优质内容

25个国家34个分类！Awesome RSS Feeds让你一键获取全球优质内容 Awesome RSS Feeds是一个精心策划的RSS源列表，包含OPML文件，用于Plenary应用的推荐订阅和本地新闻部分。该项目拥有约500个推荐源和超过250个国家新闻源，是获取全球…

2026/5/27 18:39:33 阅读更多

SubtleVolume实战教程：在SwiftUI和UIKit中完美集成

SubtleVolume实战教程：在SwiftUI和UIKit中完美集成【免费下载链接】SubtleVolume Replace the system volume popup with a more subtle indicator. 项目地址: https://gitcode.com/gh_mirrors/su/SubtleVolume 想要为你的iOS应用添加一个优雅的音量指示器吗…

2026/5/27 18:38:49 阅读更多

TranslucentTB安装受阻？深入解析0x80073D05错误与全方位解决方案

TranslucentTB安装受阻？深入解析0x80073D05错误与全方位解决方案【免费下载链接】TranslucentTB A lightweight utility that makes the Windows taskbar translucent/transparent. 项目地址: https://gitcode.com/gh_mirrors/tr/TranslucentTB 当你在Windo…

2026/5/27 18:38:49 阅读更多

【ChatGPT旅行规划辅助黄金标准】：基于ISO 21187旅行服务框架验证的12项输出质量评估指标

更多请点击： https://codechina.net 第一章：【ChatGPT旅行规划辅助黄金标准】：基于ISO 21187旅行服务框架验证的12项输出质量评估指标 ISO/IEC 21187:2023《旅游服务——智能辅助系统服务质量要求与评估指南》为AI驱动的旅行规划工具设定了可…

2026/5/28 0:10:20 阅读更多

产品生命周期场景下的模块化设计方案【附数据】

✨ 长期致力于产品生命周期、模块化设计、模块识别、产品簇、接口设计研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1）基于改进设计约束的模块优化识别…

2026/5/28 0:10:20 阅读更多

维普4月升级降AI失效？2026年5月仍有效的4款降AI软件实测

2026年毕业季过半，但还有大量同学的论文卡在AIGC检测这一关。知网在年初做了一次算法升级，维普、万方也在跟进，检测变得越来越严。论文一个字没改，去年12月查AI率18%能过，今年再查变成32%，很多同学就是栽在…

2026/5/28 0:09:40 阅读更多

别再用有道查了！贾俊平《统计学》第七版核心术语中英对照表，我帮你整理好了

统计学专业术语中英对照实战手册：从死记硬背到高效应用翻开贾俊平教授的《统计学》第七版，你是否曾被那些看似熟悉却又陌生的英文术语困扰？当你在SPSS输出结果中看到"ANOVA"时，是否还在犹豫该查"方差分析"还是…

2026/5/28 0:09:19 阅读更多

摆脱论文困扰：6款2026年高效AI论文工具深度横评

在学术写作面临全新挑战的今天，AI工具正从辅助角色演变为重要的生产力引擎。针对免费、好用且能提供真实引用支持的核心需求，经过对市面上主流工具的深入测试与分析，我们发现表现突出的工具有：千笔AI、ChatGPT、Claude、文心一言、…

2026/5/28 0:09:19 阅读更多

【仅限首批500家企业获取】ChatGPT客服话术智能诊断工具包（含话术熵值分析器+合规风险热力图+客户情绪拐点预测模型）

更多请点击： https://kaifayun.com 第一章：ChatGPT客服话术设计的核心范式演进传统规则引擎驱动的客服系统依赖预设关键词匹配与静态应答模板，响应僵化、泛化能力弱；而以ChatGPT为代表的生成式AI催生了“意图-上下文-风格”三维…

2026/5/28 0:08:58 阅读更多

大模型核心加速器：KV Cache 如何将 O(n²) 计算复杂度降至 O(n)？

KV Cache 是大模型自回归生成任务的关键优化技术，通过“空间换时间”策略缓存历史 Key 和 Value 向量，将推理复杂度从 O(n) 降至 O(n)。文章阐述了语义缓存与前缀精确匹配两种核心范式，深入分析了 KV Cache 的技术底层原理、工程化应用及规模…

2026/5/28 0:00:48 阅读更多

物流系统如何打通信息孤岛？哲盟软件系统：一键打通内外部数据壁垒

在数字化转型加速的今天，物流企业面临的最大痛点之一就是信息孤岛——ERP、电商平台、智能硬件、OMS/TMS/WMS等系统各自为政，数据无法自由流转，导致人工操作繁琐、效率低下、出错率高。特别是在跨境物流领域，亚马逊、Shopee、TikT…

2026/5/28 0:02:48 阅读更多

Windows Defender终极恢复指南：5种强力方法解决禁用问题

Windows Defender终极恢复指南：5种强力方法解决禁用问题【免费下载链接】no-defender A slightly more fun way to disable windows defender firewall. (through the WSC api) 项目地址: https://gitcode.com/GitHub_Trending/no/no-defender 当你的Windo…

2026/5/28 0:04:54 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/27 3:41:47 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/27 3:04:04 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/27 2:28:22 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/27 20:16:23 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/27 15:51:09 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/27 12:55:08 阅读更多

相关文章