别再只用Excel了！用Python+Pandas+Sklearn玩转GTD恐怖袭击数据分析与预测

发布时间：2026/5/30 10:45:26

用PythonPandasSklearn玩转GTD恐怖袭击数据分析与预测当面对GTD这类包含数万条记录的复杂数据集时Excel往往会显得力不从心。本文将带你用Python数据科学生态中的三大神器——Pandas、Matplotlib和Scikit-learn从数据清洗到机器学习建模完整实现恐怖袭击数据的深度分析。1. 环境准备与数据加载在开始分析前我们需要配置合适的Python环境。推荐使用Anaconda创建独立环境conda create -n gtd-analysis python3.8 conda activate gtd-analysis pip install pandas numpy matplotlib seaborn scikit-learn jupyterGTD数据集通常以CSV格式提供我们可以直接从START联盟官网下载。假设我们已经获得了名为global_terrorism.csv的数据文件import pandas as pd # 加载数据时指定低内存模式以避免内存溢出 gtd pd.read_csv(global_terrorism.csv, encodingISO-8859-1, low_memoryFalse) print(f数据集维度: {gtd.shape})初次加载后建议快速浏览数据结构# 查看前3行样本 print(gtd.head(3)) # 检查列数据类型 print(gtd.dtypes.value_counts()) # 统计缺失值比例 missing_stats (gtd.isnull().sum()/len(gtd)).sort_values(ascendingFalse) print(missing_stats.head(10))2. 数据清洗与特征工程原始GTD数据包含超过100个字段我们需要进行针对性的清洗和特征选择。2.1 关键字段提取根据分析目标我们首先筛选核心字段selected_cols [ iyear, imonth, iday, country_txt, region_txt, provstate, city, latitude, longitude, attacktype1_txt, targtype1_txt, targsubtype1_txt, weaptype1_txt, weapsubtype1_txt, nkill, nwound, gname, claimed, success, suicide ] gtd_clean gtd[selected_cols].copy()2.2 缺失值处理针对不同字段采取差异化处理策略# 地理位置信息用Unknown填充 geo_cols [provstate, city] gtd_clean[geo_cols] gtd_clean[geo_cols].fillna(Unknown) # 数值型字段用中位数填充 num_cols [nkill, nwound] gtd_clean[num_cols] gtd_clean[num_cols].fillna(gtd_clean[num_cols].median()) # 分类字段用众数填充 cat_cols [attacktype1_txt, targtype1_txt, weaptype1_txt] for col in cat_cols: gtd_clean[col] gtd_clean[col].fillna(gtd_clean[col].mode()[0])2.3 特征衍生创建有助于分析的新特征# 合并日期字段 gtd_clean[date] pd.to_datetime( gtd_clean[iyear].astype(str) - gtd_clean[imonth].astype(str) - gtd_clean[iday].astype(str), errorscoerce ) # 计算伤亡总数 gtd_clean[casualties] gtd_clean[nkill] gtd_clean[nwound] # 创建是否重大事件标志(伤亡超过50人) gtd_clean[major_incident] (gtd_clean[casualties] 50).astype(int)3. 探索性数据分析(EDA)3.1 时间趋势分析使用Pandas的时间序列功能分析攻击频率变化import matplotlib.pyplot as plt import seaborn as sns plt.figure(figsize(12, 6)) gtd_clean.groupby(iyear).size().plot(label总事件数) gtd_clean[gtd_clean[major_incident]1].groupby(iyear).size().plot(label重大事件数) plt.title(恐怖袭击事件年度趋势(1970-2017)) plt.xlabel(年份) plt.ylabel(事件数量) plt.legend() plt.show()3.2 地理分布分析绘制全球恐怖袭击热点地图import geopandas as gpd from shapely.geometry import Point # 创建地理坐标点 geometry [Point(xy) for xy in zip(gtd_clean[longitude], gtd_clean[latitude])] geo_gtd gpd.GeoDataFrame(gtd_clean, geometrygeometry) # 加载世界地图数据 world gpd.read_file(gpd.datasets.get_path(naturalearth_lowres)) # 绘制基础地图 base world.plot(colorlightgray, edgecolorwhite, figsize(15, 8)) # 叠加恐怖袭击事件 geo_gtd.plot(axbase, markero, colorred, markersize2, alpha0.3) plt.title(全球恐怖袭击事件地理分布(1970-2017)) plt.show()3.3 攻击类型与目标分析使用交叉分析探索攻击模式# 创建攻击类型-目标类型交叉表 cross_tab pd.crosstab( gtd_clean[attacktype1_txt], gtd_clean[targtype1_txt], normalizeindex ) plt.figure(figsize(12, 8)) sns.heatmap(cross_tab, cmapYlOrRd, annotTrue, fmt.1%) plt.title(攻击类型与目标类型的关联分析) plt.xlabel(目标类型) plt.ylabel(攻击类型) plt.show()4. 机器学习建模与应用4.1 数据预处理为机器学习模型准备特征矩阵from sklearn.preprocessing import LabelEncoder, StandardScaler from sklearn.model_selection import train_test_split # 选择建模特征 model_features [ iyear, imonth, country_txt, region_txt, attacktype1_txt, targtype1_txt, weaptype1_txt, latitude, longitude ] # 创建建模数据集 model_data gtd_clean[model_features [success]].dropna() # 编码分类变量 label_encoders {} for col in [country_txt, region_txt, attacktype1_txt, targtype1_txt, weaptype1_txt]: le LabelEncoder() model_data[col] le.fit_transform(model_data[col]) label_encoders[col] le # 划分训练测试集 X model_data.drop(success, axis1) y model_data[success] X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.3, random_state42) # 特征标准化 scaler StandardScaler() X_train_scaled scaler.fit_transform(X_train) X_test_scaled scaler.transform(X_test)4.2 K-Means聚类分析探索恐怖袭击事件的自然分组from sklearn.cluster import KMeans from sklearn.metrics import silhouette_score # 寻找最佳K值 silhouette_scores [] for k in range(2, 10): kmeans KMeans(n_clustersk, random_state42) kmeans.fit(X_train_scaled) score silhouette_score(X_train_scaled, kmeans.labels_) silhouette_scores.append(score) plt.plot(range(2, 10), silhouette_scores, markero) plt.xlabel(聚类数量(K)) plt.ylabel(轮廓系数) plt.title(K-Means聚类性能评估) plt.show() # 使用最佳K值训练模型 optimal_k silhouette_scores.index(max(silhouette_scores)) 2 final_kmeans KMeans(n_clustersoptimal_k, random_state42) clusters final_kmeans.fit_predict(X_train_scaled) # 分析聚类特征 cluster_profile X_train.copy() cluster_profile[cluster] clusters cluster_means cluster_profile.groupby(cluster).mean() print(cluster_means)4.3 KNN分类预测构建攻击结果预测模型from sklearn.neighbors import KNeighborsClassifier from sklearn.metrics import classification_report, accuracy_score # 训练KNN模型 knn KNeighborsClassifier(n_neighbors5) knn.fit(X_train_scaled, y_train) # 模型评估 y_pred knn.predict(X_test_scaled) print(f模型准确率: {accuracy_score(y_test, y_pred):.2f}) print(classification_report(y_test, y_pred)) # 特征重要性分析 feature_importance pd.DataFrame({ feature: X_train.columns, importance: knn.feature_importances_ }).sort_values(importance, ascendingFalse) print(feature_importance)5. 分析结果可视化与解读5.1 聚类结果地理映射将K-Means聚类结果映射到地理空间# 为原始数据添加聚类标签 gtd_clean[cluster] final_kmeans.predict( scaler.transform( model_data[model_features].drop(success, axis1) ) ) # 绘制聚类地图 plt.figure(figsize(15, 8)) for cluster in range(optimal_k): cluster_data gtd_clean[gtd_clean[cluster] cluster] plt.scatter( cluster_data[longitude], cluster_data[latitude], s5, labelfCluster {cluster}, alpha0.5 ) plt.title(恐怖袭击事件聚类地理分布) plt.xlabel(经度) plt.ylabel(纬度) plt.legend() plt.show()5.2 时间序列预测使用历史数据预测未来趋势from statsmodels.tsa.arima.model import ARIMA # 准备时间序列数据 time_series gtd_clean.groupby(iyear).size() # 训练ARIMA模型 model ARIMA(time_series, order(2,1,2)) model_fit model.fit() # 预测未来5年 forecast model_fit.forecast(steps5) # 可视化结果 plt.figure(figsize(12, 6)) time_series.plot(label历史数据) forecast.plot(label预测值, style--) plt.title(恐怖袭击事件数量预测(ARIMA模型)) plt.xlabel(年份) plt.ylabel(事件数量) plt.legend() plt.show()在实际项目中我发现特征工程的质量往往比模型选择更重要。例如通过添加是否为冲突地区的衍生特征KNN模型的准确率提升了约8%。此外处理GTD数据时特别需要注意异常值的影响——某些极端事件会显著扭曲统计结果。

告别抓瞎！Wireshark抓包分析698协议电表数据，一步步教你读懂每个字节

698协议电表数据抓包实战：从Wireshark捕获到逐字节解析在智能电表通信领域，698协议作为国内电力行业广泛应用的标准协议，其数据交互过程对运维人员和开发者而言既是基础技能也是必备能力。然而，许多技术人员在阅读协议文档时能够…

2026/5/30 10:45:26 阅读更多

哔哩下载姬完整教程：如何轻松解决视频倍速重复设置的烦恼

哔哩下载姬完整教程：如何轻松解决视频倍速重复设置的烦恼【免费下载链接】downkyi 哔哩下载姬downkyi，哔哩哔哩网站视频下载工具，支持批量下载，支持8K、HDR、杜比视界，提供工具箱（音视频提取、去水印等&am…

2026/5/30 10:45:26 阅读更多

NRF24L01+省电秘籍：深入待机1/2模式与Enhanced ShockBurst，让你的物联网设备多跑一年

NRF24L01省电秘籍：深入待机1/2模式与Enhanced ShockBurst，让你的物联网设备多跑一年在电池供电的物联网设备设计中，每一微安的电流都关乎产品的生死存亡。NRF24L01这颗经典的2.4GHz射频芯片，凭借其出色的功耗表现和稳定的通信能力…

2026/5/30 10:45:26 阅读更多

MLDB：一体化机器学习数据库如何重塑数据科学工作流

1. 项目概述：数据科学家的理想数据库长什么样？ 如果你和数据打交道的时间足够长，尤其是在机器学习领域，你大概率会和我有同样的感受：我们花在数据准备、特征工程和模型迭代上的时间，远多于构建模型本身。数…

2026/5/30 11:31:52 阅读更多

MyTV-Android：老旧电视重获新生的终极直播解决方案

MyTV-Android：老旧电视重获新生的终极直播解决方案【免费下载链接】mytv-android 使用Android原生开发的视频播放软件项目地址: https://gitcode.com/gh_mirrors/my/mytv-android 你是否还在为家中老旧Android电视无法安装新应用而烦恼？超过35%…

2026/5/30 11:31:32 阅读更多

3D标签云（tagcloud.js 详解）

让网页上的标签摆脱平面的束缚，如星球般自转，并随鼠标的滑动而优雅起舞——这就是 3D 标签云的魅力。TagCloud.js 是一个轻量级、零依赖的 JavaScript 库，只需几分钟，就能将一组平淡的文本列表，转化为一个炫酷的 3D 交互式球体。无论是用于个人博客的关键词墙，还是作为产…

2026/5/30 11:31:32 阅读更多

最好用的AI论文工具推荐（从选题到答辩全流程）适合全体毕业生

论文选题无从下手、开题报告逻辑混乱、初稿写作卡顿反复、查重修改耗时费力、答辩PPT内容空洞，这些是否也是你正在经历的困扰？作为学术新手、应届生或是本科硕士毕业生，面对论文全流程的复杂环节，常常感到力不从心。论文撰写不仅流…

2026/5/30 11:30:52 阅读更多

CTF 实战进阶：深入文件上传漏洞的攻防逻辑与绕过技巧

### 摘要文件上传漏洞是 Web 安全领域中的高危漏洞。攻击者通过上传恶意脚本（WebShell）直接获取服务器的执行权限。本文将深入剖析文件上传漏洞的成因，并从客户端绕过、服务端检测、解析漏洞以及 Apache 配置文件利用等多个维度，…

2026/5/30 11:30:52 阅读更多

JetBrains全家桶试用期告急？手把手教你用IDE Eval Resetter插件续命（附2021.2.2版本下载）

JetBrains全家桶试用期告急？手把手教你用IDE Eval Resetter插件续命（附2021.2.2版本下载） 当IDE右上角的试用倒计时变成刺眼的红色，代码补全功能突然罢工，那种感觉就像考试时钢笔突然没墨水。作为开发者，我…

2026/5/30 11:30:31 阅读更多

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

Win11/Win10深度学习环境终极对决：WSL2 CUDA vs 虚拟机 vs 双系统实测指南当开发者需要在Windows系统上进行深度学习开发时，通常会面临三种选择：虚拟机方案、双系统方案和WSL2方案。本文将基于实际测试数据，从GPU性能、开发便利性…

2026/5/30 0:00:39 阅读更多

SketchUp STL插件终极指南：3D打印工作流完全掌握

SketchUp STL插件终极指南：3D打印工作流完全掌握【免费下载链接】sketchup-stl A SketchUp Ruby Extension that adds STL (STereoLithography) file format import and export. 项目地址: https://gitcode.com/gh_mirrors/sk/sketchup-stl SketchUp STL插件…

2026/5/30 0:00:39 阅读更多

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

1. 项目概述：从零构建一个基于ICL8038的多波形信号发生器在电子实验、设备调试乃至生物医学信号处理领域，一个稳定可靠、波形纯净的信号源是不可或缺的“心脏”。无论是用于测试放大器的频率响应，还是模拟生理电信号进行算法研究，…

2026/5/30 0:01:40 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/30 11:31:24 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/29 8:13:55 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/29 8:13:54 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/29 13:19:05 阅读更多

相关文章

告别抓瞎！Wireshark抓包分析698协议电表数据，一步步教你读懂每个字节

哔哩下载姬完整教程：如何轻松解决视频倍速重复设置的烦恼

NRF24L01+省电秘籍：深入待机1/2模式与Enhanced ShockBurst，让你的物联网设备多跑一年

MLDB：一体化机器学习数据库如何重塑数据科学工作流

MyTV-Android：老旧电视重获新生的终极直播解决方案

3D标签云（tagcloud.js 详解）

最好用的AI论文工具推荐（从选题到答辩全流程）适合全体毕业生

CTF 实战进阶：深入文件上传漏洞的攻防逻辑与绕过技巧

JetBrains全家桶试用期告急？手把手教你用IDE Eval Resetter插件续命（附2021.2.2版本下载）

Win11/Win10深度学习环境搭建：实测PyCharm远程连接WSL2下的CUDA，性能比虚拟机强多少？

SketchUp STL插件终极指南：3D打印工作流完全掌握

基于ICL8038的多波形信号发生器：从原理到制作的完整指南

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥