大家读完觉得有帮助记得关注和点赞摘要本文提出了DeepStage一个基于深度强化学习的框架用于对抗高级持续性威胁的自适应、阶段感知防御。企业环境被建模为一个部分可观察的马尔可夫决策过程其中主机溯源数据和网络遥测数据被融合为统一的溯源图。在我们先前工作的基础上一个图神经网络编码器和一个基于LSTM的阶段估计器可以推断出与MITRE ATTCK框架对齐的攻击者阶段概率。这些阶段置信度与图嵌入相结合引导一个分层的近端策略优化代理该代理在监控、访问控制、遏制和修复等维度选择防御行动。在利用CALDERA驱动的APT攻击剧本的真实企业测试平台上进行评估DeepStage实现了0.89的阶段加权F1分数比基于风险感知的DRL基线提高了21.9%。结果证明了有效的阶段感知和高性价比的自主网络防御。索引词 高级持续性威胁深度强化学习自主网络防御溯源图嵌入。I 引言近年来高级持续性威胁已成为企业、政府和关键基础设施网络的主要安全问题。与机会型或普通恶意软件不同APT的特点在于隐蔽操作、长期驻留以及旨在实现数据外泄、网络间谍活动或运营破坏等长期目标的多阶段攻击进程。如MITRE ATTCK企业矩阵所反映一次APT攻击活动通常经历多个阶段演变从侦察和初始入侵开始接着是权限提升、横向移动最终是数据外泄或系统破坏。每个阶段通常只产生细微的指标并与良性系统活动交织在一起这使得可靠检测尤其具有挑战性。传统的基于特征的入侵检测和防御系统对已知威胁仍然有效但难以识别新颖或演变的战术、技术和过程。基于异常的检测方法提供了更广泛的覆盖范围然而它们通常存在高误报率并且在跨时间和跨主机关联活动序列方面的能力有限。为应对这些挑战我们先前的工作提出了StageFinder框架旨在估计APT攻击活动期间的当前攻击阶段。StageFinder持续收集主机级系统日志并将其转换为捕获进程、文件、用户和套接字等系统实体之间因果和时间依赖关系的溯源图。为了纳入更广泛的情景上下文一个早期融合机制将网络层警报例如由IDS或防火墙系统生成的警报直接集成到溯源图中。每个警报被建模为一个连接到相关主机实体的头等节点保留了网络异常和本地活动之间的语义关系。由此产生的融合溯源图在统一的因果表示中同时捕获了主机内和网络间的依赖关系。然后应用图神经网络编码器来提取低维嵌入表示图中的结构和上下文模式。最后这些嵌入由一个长短期记忆模型处理以捕获时间动态并推断攻击者在杀伤链中的概率性阶段。作为我们防御APT攻击努力的延续本工作提出了DeepStage一个统一且具备阶段感知能力的APT防御框架它将溯源图嵌入与深度强化学习相结合。DeepStage建立在我们先前的StageFinder框架之上继承了其网络和系统数据处理管道以及概率性攻击阶段估计的输出。具体来说推断出的攻击阶段概率与溯源图嵌入一起用于条件化一个分层的DRL代理。该代理在部分可观察马尔可夫决策过程的框架下运行能够在存在不确定性和不完整系统可见性的情况下做出自适应的、特定阶段的防御决策。此外DRL代理可以直接访问系统级溯源信号和网络级警报使其能够做出及时且具备上下文感知的防御响应。在使用CALDERA驱动的APT攻击剧本的现实企业测试平台上进行的实验表明DeepStage实现了0.89的阶段加权F1分数在整体APT防御效能上比基于风险感知的DRL基线高出21.9%。II 相关工作II-A 基于DRL的自主网络防御深度强化学习最近被探索用于自动化网络防御其中代理通过与模拟安全环境交互来学习响应策略。这些系统通常将网络防御建模为一个序贯决策问题并训练代理选择平衡检测有效性、响应延迟和操作成本的缓解措施。已经提出了几种基于DRL的网络入侵响应系统来自动化事件响应。在这些框架中环境由网络警报或主机状态指示符表示DRL代理学习部署诸如流量过滤或服务隔离等对策。然而大多数现有的NIRS框架是为单阶段攻击例如拒绝服务或网络扫描设计的并且主要在网络边界运行。因此它们缺乏对主机级行为的可见性无法捕获APT的顺序演进。结果它们学习的策略在很大程度上是被动的响应的是单个警报而非预测多阶段攻击的演变。II-B 风险感知的DRL与基于攻击图的防御为了提高态势感知一些研究将攻击图分析与强化学习相结合以建模企业网络的安全状态。在这些方法中节点代表漏洞或权限状态边编码潜在的攻击路径。DRL代理选择最小化预期累积攻击风险的防御行动通常被表述为Δ(总风险) - λC(a)其中C(a)表示行动a的操作成本。虽然基于攻击图的方法提供了关于攻击者移动的结构化推理但它们依赖于静态的、由工具如MulVAL预先计算好的图。这些表示无法捕获系统事件之间的时间依赖性也无法反映现实世界APT活动中动态和自适应的行为特征。最近的主动DRL方法尝试预测攻击者沿可能攻击路径的移动。然而这些方法通常依赖于网络拓扑或主机连通性的粗略抽象因此缺乏区分并发攻击阶段所需的细粒度行为上下文。II-C 分层和约束强化学习分层DRL架构已被提出来解决网络防御中大型动作空间的复杂性。例如DeepShield将侦察阶段防御建模为一个分层控制问题。一个元代理检测可疑的扫描行为并在几个由低级代理执行的缓解策略中选择例如IP混洗、软件多样性或组件冗余。虽然分层控制提高了可扩展性但DeepShield主要关注早期侦察攻击并未扩展到后期APT阶段如权限提升、横向移动或数据外泄。其他方法探索了用于网络防御的离线或约束强化学习。这些方法旨在从历史安全日志中学习安全策略同时强制执行操作约束。然而它们通常不包含攻击阶段的显式建模限制了可解释性以及在攻击活动的不同阶段调整防御策略的能力。II-D 现有基于DRL的防御系统的局限性大多数基于DRL的防御框架的一个关键限制是它们依赖于基于扁平特征的状态表示。通常系统状态使用聚合指标表示例如警报计数、漏洞分数或主机状态。这些表示忽略了进程、文件、用户和网络连接之间的因果关系。因此学习到的策略无法推理恶意活动如何通过系统依赖关系传播或在APT活动中跨多个主机演变。溯源图为建模系统行为提供了更丰富的表示。通过捕获系统实体之间的因果依赖关系和时间关系溯源图能够对攻击进程和系统失陷进行细粒度的推理。将此类图嵌入到紧凑的向量表示中使得基于学习的模型能够结合结构和时间上下文。II-E 总结与研究空白尽管先前的基于DRL的网络防御系统展示了自动化缓解的潜力但它们在处理多阶段APT活动方面仍然存在限制。基于攻击图的方法依赖于静态抽象分层DRL框架专注于早期攻击而基于特征的模型无法捕获系统活动中的因果依赖关系。为应对这些局限性本文提出DeepStage一个具备阶段感知能力的防御框架它将融合的主机-网络溯源图嵌入与基于LSTM的阶段估计器集成在一起。结合分层的近端策略优化代理DeepStage实现了能够响应高级持续性威胁演变战术的自适应、阶段感知防御策略。III DeepStage框架设计III-A 网络环境我们考虑一个具有代表性的企业网络环境用于数据收集和分析。基础设施在逻辑上分为四个区域——局域网、非军事区、服务器区域和管理区域。LAN托管员工工作站和内部服务通常是攻击的初始入口点。DMZ包含外部可访问的服务并充当外部和内部网络之间的缓冲区。服务器区域存储关键资产例如数据库和认证服务器是APT活动中后期经常攻击的目标。管理区域托管集中监控和编排组件DeepStage框架部署于此从所有区域收集遥测数据同时与外部访问隔离。网络流量由边界防火墙管理并由IDS/IPS传感器如Zeek分析从而能够收集主机和网络级遥测数据以供后续数据融合。III-B DeepStage框架的操作所提出的DeepStage框架作为一个闭环的APT防御架构运行持续收集系统遥测数据、建模系统行为并启用自适应防御行动。图1展示了跨系统组件的数据和控制流。数据采集在企业网络中收集两个主要数据流主机级日志和网络警报。所有事件都安全地传输到管理区域进行分析。溯源图构建收集的日志和警报被解析和关联以构建融合的溯源图。节点代表系统实体边编码因果或数据流关系。网络警报通过早期融合机制纳入将网络事件与主机活动链接起来形成统一的因果表示。图嵌入与阶段估计图神经网络编码器将融合图转换为固定长度的嵌入g_t表示时间t的系统状态。然后一系列嵌入{g_1, ..., g_t}由一个基于LSTM的阶段估计器处理该估计器输出一个关于MITRE ATTCK框架定义的APT阶段的概率分布p_t。分层DRL防御组合状态s_t [g_t, p_t]被提供给一个分层DRL代理。元策略解释估计的阶段并选择相应的子策略来执行防御行动例如主机隔离、IP封锁、蜜罐部署或警报升级。反馈与学习每次行动后环境提供一个反映缓解效果和系统稳定性的奖励。此反馈更新DRL策略使其能够持续适应不断演变的APT行为。IV 基于阶段感知DRL的APT防御IV-A 基于POMDP的系统模型APT是隐蔽且多阶段的攻击其活动只能通过系统日志和网络警报部分观察到。由于防御者无法直接观察真实的系统安全状态防御问题违反了标准马尔可夫决策过程的完全可观察性假设。因此我们将防御环境建模为一个部分可观察马尔可夫决策过程。IV-B 状态表示隐藏的系统状态s_t反映了企业网络的底层安全状况包括主机失陷级别和攻击者的进展阶段。由于s_t无法直接观察到代理根据可观察的遥测数据维护一个置信状态。在每个时间步主机日志和网络警报融合成一个溯源图G_t。一个GNN编码器产生一个结构嵌入g_t f_GNN(G_t)它总结了系统活动。同时阶段估计器生成一个概率阶段向量p_t。时间t的观察被定义为o_t [g_t, p_t, a_{t-1}]一个循环编码器更新置信表示b_t f_LSTM(b_{t-1}, o_t)。置信嵌入b_t集成了结构系统上下文和阶段推断形成了DRL代理使用的状态表示。IV-C 防御动作空间动作空间A由企业事件响应中使用的实用对策组成监控被动动作在不中断操作的情况下提高态势感知。访问控制限制权限或身份验证的防御动作。遏制限制攻击者移动的主动干预。修复恢复系统完整性的恢复动作。这个结构化的动作空间使分层的DRL代理能够激活与企业防御工作流对齐的特定阶段子策略。IV-D 奖励设计奖励函数平衡两个目标最大化攻击缓解效果和最小化运营中断。时间t的奖励定义为R(b_t, a_t) R_security(t) - λC(a_t)。由于不同的APT阶段带来不同级别的风险我们引入了阶段感知加权R(b_t, a_t) α_k R_security(t) - β_k λC(a_t)其中α_k和β_k调整阶段k的安全性和操作成本的相对重要性。通常α_k在后期阶段增加β_k减小以减少对破坏性遏制行动的惩罚。IV-E 优化目标防御代理的目标是学习一个最大化预期累积折扣奖励的策略。IV-F 分层策略结构为了反映APT的多阶段性质我们采用了一个由元策略和特定阶段子策略组成的分层策略。IV-G 通过PPO进行策略学习为了优化分层策略我们采用近端策略优化这是一种适用于高维和部分可观察环境的稳定策略梯度算法。V 性能评估表I可部署的实用子策略集合。成本C(a)表示归一化的操作影响。元策略子策略在测试平台中的部署成本C(a)mon 监控a0: 保持基线监控将auditd.conf、CamFlow和Zeek代理保持在基线模式0.01a1: 提高主机日志记录级别修改auditd.conf、CamFlow和Zeek代理策略以捕获进程和套接字事件0.05a2: 激活深度包检测在目标子网上临时启用Zeek全包捕获0.10a3: 内存/进程快照通过管理API使用volatility或psrecord收集运行时内存转储0.20a4: 部署蜜罐重定向部署Cowrie SSH蜜罐或通过iptables DNAT重定向0.25a5: 使用威胁情报丰富日志查询本地MISP信息源并在溯源数据库中用TTP标签注释警报0.10a6: 触发系统审计扫描运行osqueryi快照以收集运行中的进程、加载的模块和套接字0.15a7: 启动跨主机关联扫描在主机溯源图之间运行图匹配以检测协同异常0.20acc 访问控制a8: 禁用高风险服务通过systemctl停止不安全的服务telnetd, ftp0.20a9: 轮换用户凭证通过LDAP/AD强制密码重置或SSH密钥轮换0.30a10: 在特权账户上强制实施2FA/MFA为sudo/SSH登录尝试集成基于PAM的OTP0.40a11: 撤销活动会话终止具有提升权限的进程或杀死可疑用户会话0.25a12: 权限提升阻止列表应用AppArmor/Seccomp策略以限制setuid/setcap操作0.20a13: 启用严格的sudo日志记录配置/etc/sudoers以实现详细的审计日志和受限的组访问0.15a14: 锁定被入侵的账户禁用可疑用户的登录usermod -L0.30cont 遏制a15: 阻断恶意IP或域名应用iptables或Zeek黑名单规则阻断已知C2端点0.20a16: 限制可疑网络流使用tc qdisc或SDN API对出口流量进行速率限制0.25a17: 微分段应用动态网桥或Open vSwitch规则以限制主机间通信0.35a18: 终止恶意进程向已识别的恶意PID发送SIGKILL/SIGSTOP信号0.20a19: 网络接口隔离临时关闭可疑主机的网络接口ifdown eth00.80a20: 限制文件I/O访问通过chattr i对敏感目录应用只读权限0.40a21: 阻断USB/外部设备使用禁用usb-storage内核模块0.50rem 修复a22: 紧急修补运行apt-get upgrade –only-upgrade以修补已知CVE0.40a23: 移除持久性残留物删除恶意的自启动项、crontab任务、rc脚本或二进制替换文件0.30a24: 将系统回滚到快照对受感染的虚拟机使用OpenStack/QEMU快照恢复0.90a25: 清理DNS和防火墙规则验证后移除临时防御规则0.15a26: 从备份恢复从安全备份中恢复关键文件或配置0.80a27: 策略的永久性加固持久化防火墙、auditd和sudo设置以防止复发0.20a28: 重新启用正常操作验证后将主机重新连接到主VLAN0.20表IIDeepStage基于DRL的APT防御的PPO训练参数。参数值 / 范围描述Actor 网络3层MLP输入融合图嵌入g_t 阶段置信度p_t输出元/子策略动作的概率分布。Critic 网络3层MLP为基线估计值V(o_t)与Actor共享第一层。优化器Adam (β10.9,β20.999)用于Actor和Critic更新的自适应优化器。学习率 (η)3×10⁻⁴(每轮衰减0.99)PPO梯度更新的稳定步长。折扣因子 (γ)0.99用于延迟APT缓解奖励的长期信用分配。GAE 参数 (λ_GAE)0.95平衡优势估计的偏差和方差。裁剪阈值 (ϵ)0.2控制更新幅度以保持策略改进的稳定性。熵系数 (c_ent)0.01 – 0.05鼓励在元/子策略选择上进行探索。价值损失系数 (c_v)0.5平衡Critic损失的贡献。批量大小4096 个转移样本每次PPO更新使用的样本数。小批量大小512PPO优化中每个梯度步的大小。每次更新的轮次数5每批数据的PPO传递次数稳定在策略学习。事件长度50–100 个时间步对应一次APT活动Caldera剧本。训练事件数2,000在企业测试平台中的训练和微调。奖励缩放归一化到[-1, 1]确保PPO的数值稳定性。V-A 受控测试平台实验在一个由6台Ubuntu虚拟机作为企业主机和一台Kali Linux虚拟机作为攻击者组成的受控企业测试平台上进行。一台专用的GPU工作站托管DRL训练和繁重计算。网络服务部署在主机虚拟机上一个Zeek传感器放置在网络边缘以生成网络警报。V-B 数据收集和溯源主机遥测通过auditd和osquery捕获内核级溯源使用CamFlow收集。Zeek产生网络事件这些事件被转换为警报节点并融合到溯源图中。每Δt 300秒构造快照以形成G_tGNN图编码器产生嵌入g_t ∈ ℝ^128。V-C 攻击生成我们使用MITRE Caldera生成真实的、符合ATTCK的对手行为用于DRL训练和评估。Caldera的模块化“能力”和“对手”剧本模型允许我们编写端到端的多阶段活动并以编程方式改变时间、技术和目标这非常适合产生大量标记的事件。在我们的管道中Caldera驱动对企业虚拟机的攻击者行为同时主机遥测和网络传感器收集溯源数据。每个剧本执行都由一个控制器注释记录真实阶段标签和时间戳从而能够为阶段估计器训练和DRL代理的奖励塑形进行每次快照的标记。具体来说我们利用10个基础Caldera剧本并从每个剧本生成随机变体以增加多样性并防止过拟合。V-D 元策略和子策略为了在模拟的企业网络中实现现实且细粒度的防御决策DeepStage框架中的每个元策略被分解为多个对应于具体、可自动化防御操作的子策略。这些子策略经过仔细选择以与测试平台中可用的系统组件对齐并且可以通过管理控制器在目标主机上通过REST自动化安全执行。表I总结了所有实用的子策略及其归一化操作成本C(a)这些成本后来被纳入DRL奖励公式中。请注意表示基线监控模式的行动a_0是在未检测到攻击k0的正常系统条件下执行的。V-E 奖励计算DRL代理在每个时间步t接收一个标量奖励R(b_t, a_t) α_k R_security - β_k λC(a_t)。特别是R_security(t) ∈ [0,1]量化了在时间步之间观察到的归一化安全改进。令k_t和k_{t1}分别表示时间t和t1的真实APT阶段。然后R_security(t)定义为R_security(t) 1, 如果 k_{t1} k_t; 0.5, 如果 k_{t1} k_t; 0, 如果 k_{t1} k_t。这种分段公式提供了一个直观且离散的奖励信号成功驱动对手进入更早或更不关键阶段的行动产生最高奖励而仅仅稳定系统的行动提供部分奖励。相反如果攻击者进入更严重的阶段奖励降至零表示策略在时间t失败。C(a_t) ∈ [0,1]表示所选行动a_t的归一化操作成本。阶段特定系数α_k和β_k被选择以强调后期缓解同时鼓励在早期阶段采取保守的低成本监控。典型的成本缩放因子设置为λ 0.1。V-F DRL参数设置表II总结了用于在DeepStage框架中训练基于PPO的强化学习代理的超参数设置和网络配置。选择这些参数是为了确保在部分可观察和特定阶段的APT防御中策略的稳定收敛和有效学习。V-G 基准测试为了评估所提出的DeepStage框架的性能我们将其与风险感知的基于DRL的APT防御方法进行基准测试。此基线将强化学习与MulVAL派生的攻击图建模相结合其中每个状态编码与图节点和边相关的风险级别动作空间包括十一个预定义的缓解操作。此外我们还包括我们框架的一个无阶段感知变体以量化阶段条件化对整体性能的贡献。在此变体中奖励函数中的阶段特定加权因子通过设置α_k β_k 1.0被中和导致所有APT阶段获得均匀的奖励。V-H 结果分析图2每阶段防御效能通过六个APT阶段的阶段加权F1评分衡量。阶段加权的攻击防御性能图2说明了跨APT生命周期的、以阶段加权F1分数衡量的每阶段防御有效性。DeepStage实现了0.89的最高宏平均F1分数相比于无阶段感知变体的0.80和风险感知DRL基线的0.73分别对应约11.3%和21.9%的相对改进。在横向移动和命令与控制阶段改进最为显著DeepStage在这些阶段获得了0.87和0.92的F1分数相对于基线有高达15-20%的相对增益。图3成本效益前沿展示了标准化安全收益与累计行动成本的差异。成本效益分析图3中的成本效益前沿表明DeepStage在可比较的操作成本水平下持续实现了更高的安全增益。在中档成本比率下DeepStage实现了0.65的归一化安全增益优于无阶段感知变体和风险感知DRL基线。即使在完全预算分配下DeepStage在累积奖励方面仍保持15-25%的优势。图4跨方法层级PPO的训练收敛。学习稳定性与收敛性图4显示了三种评估方法的PPO学习曲线。DeepStage的收敛速度比两个基线快约1.7倍在大约900个事件后达到稳定策略而无阶段感知变体和风险感知DRL基线分别需要大约1600和1800个事件。收敛时DeepStage实现了0.91的归一化事件奖励相比之下无阶段感知变体为0.84风险感知模型为0.79平均改进约12%。图5防御响应性在APT阶段转换。阶段过渡响应性图5显示了三种方法在连续时间步上的防御响应性其中每个时间步对应一个300秒的观察窗口。DeepStage表现出最敏捷和及时的适应在第四个时间步约20分钟的模拟时间达到0.90的响应性水平之后稳定在0.97附近。相比之下无阶段感知变体达到最大响应性0.86而风险感知DRL基线饱和在0.71左右。VI 结论本文介绍了DeepStage一个用于对抗高级持续性威胁的自适应、阶段感知防御的统一深度强化学习框架。DeepStage将多模态主机和网络溯源数据融合到基于图的表示中这些表示捕获了跨企业系统的结构和行为依赖关系。这些融合的图被编码为低维嵌入并由一个基于LSTM的阶段估计器处理以推断攻击者在杀伤链中当前阶段的概率置信度。由此产生的阶段概率与图嵌入相结合定义了一个分层PPO代理的状态表示该代理将防御策略组织为四个可解释的层监控、访问控制、遏制和修复。通过这种设计DeepStage实现了协调且具备上下文感知能力的防御行动能够适应复杂多阶段攻击的演变阶段。实验结果证明了所提出框架在准确估计攻击阶段和提高自主缓解策略整体有效性方面的有效性。总之通过在企业安全环境中集成态势感知、时间推理和资源感知的决策制定DeepStage为自主APT防御提供了一个原则性且可扩展的基础。图1所提出的DeepStage框架的数据与控制流。VII 未来研究方向作为未来的工作我们计划在几个方向上扩展DeepStage框架以进一步增强自主网络防御的透明度和操作可用性。首先我们旨在将可解释人工智能技术整合到DeepStage管道中为攻击阶段估计和防御策略决策提供可解释的见解。通过识别关键的溯源子图、有影响的系统事件以及驱动缓解行动的关键状态特征XAI引导机制可以提高分析师的信任度并实现对自动化响应的证据驱动验证。其次我们计划探索基于大语言模型的安全运营中心助手的集成将DeepStage的结构化输出转换为人类可读的事件报告、攻击时间线和缓解理由。这种LLM辅助的SOC能力可以通过帮助分析师快速理解系统警报和防御建议促进更有效的人机协作。总之这些方向旨在弥合自主网络防御与实际安全运营之间的差距实现对多阶段APT攻击活动的更可信和可解释的保护。
DeepStage:学习对抗多阶段APT攻击的自主防御策略
发布时间:2026/5/26 10:28:03
大家读完觉得有帮助记得关注和点赞摘要本文提出了DeepStage一个基于深度强化学习的框架用于对抗高级持续性威胁的自适应、阶段感知防御。企业环境被建模为一个部分可观察的马尔可夫决策过程其中主机溯源数据和网络遥测数据被融合为统一的溯源图。在我们先前工作的基础上一个图神经网络编码器和一个基于LSTM的阶段估计器可以推断出与MITRE ATTCK框架对齐的攻击者阶段概率。这些阶段置信度与图嵌入相结合引导一个分层的近端策略优化代理该代理在监控、访问控制、遏制和修复等维度选择防御行动。在利用CALDERA驱动的APT攻击剧本的真实企业测试平台上进行评估DeepStage实现了0.89的阶段加权F1分数比基于风险感知的DRL基线提高了21.9%。结果证明了有效的阶段感知和高性价比的自主网络防御。索引词 高级持续性威胁深度强化学习自主网络防御溯源图嵌入。I 引言近年来高级持续性威胁已成为企业、政府和关键基础设施网络的主要安全问题。与机会型或普通恶意软件不同APT的特点在于隐蔽操作、长期驻留以及旨在实现数据外泄、网络间谍活动或运营破坏等长期目标的多阶段攻击进程。如MITRE ATTCK企业矩阵所反映一次APT攻击活动通常经历多个阶段演变从侦察和初始入侵开始接着是权限提升、横向移动最终是数据外泄或系统破坏。每个阶段通常只产生细微的指标并与良性系统活动交织在一起这使得可靠检测尤其具有挑战性。传统的基于特征的入侵检测和防御系统对已知威胁仍然有效但难以识别新颖或演变的战术、技术和过程。基于异常的检测方法提供了更广泛的覆盖范围然而它们通常存在高误报率并且在跨时间和跨主机关联活动序列方面的能力有限。为应对这些挑战我们先前的工作提出了StageFinder框架旨在估计APT攻击活动期间的当前攻击阶段。StageFinder持续收集主机级系统日志并将其转换为捕获进程、文件、用户和套接字等系统实体之间因果和时间依赖关系的溯源图。为了纳入更广泛的情景上下文一个早期融合机制将网络层警报例如由IDS或防火墙系统生成的警报直接集成到溯源图中。每个警报被建模为一个连接到相关主机实体的头等节点保留了网络异常和本地活动之间的语义关系。由此产生的融合溯源图在统一的因果表示中同时捕获了主机内和网络间的依赖关系。然后应用图神经网络编码器来提取低维嵌入表示图中的结构和上下文模式。最后这些嵌入由一个长短期记忆模型处理以捕获时间动态并推断攻击者在杀伤链中的概率性阶段。作为我们防御APT攻击努力的延续本工作提出了DeepStage一个统一且具备阶段感知能力的APT防御框架它将溯源图嵌入与深度强化学习相结合。DeepStage建立在我们先前的StageFinder框架之上继承了其网络和系统数据处理管道以及概率性攻击阶段估计的输出。具体来说推断出的攻击阶段概率与溯源图嵌入一起用于条件化一个分层的DRL代理。该代理在部分可观察马尔可夫决策过程的框架下运行能够在存在不确定性和不完整系统可见性的情况下做出自适应的、特定阶段的防御决策。此外DRL代理可以直接访问系统级溯源信号和网络级警报使其能够做出及时且具备上下文感知的防御响应。在使用CALDERA驱动的APT攻击剧本的现实企业测试平台上进行的实验表明DeepStage实现了0.89的阶段加权F1分数在整体APT防御效能上比基于风险感知的DRL基线高出21.9%。II 相关工作II-A 基于DRL的自主网络防御深度强化学习最近被探索用于自动化网络防御其中代理通过与模拟安全环境交互来学习响应策略。这些系统通常将网络防御建模为一个序贯决策问题并训练代理选择平衡检测有效性、响应延迟和操作成本的缓解措施。已经提出了几种基于DRL的网络入侵响应系统来自动化事件响应。在这些框架中环境由网络警报或主机状态指示符表示DRL代理学习部署诸如流量过滤或服务隔离等对策。然而大多数现有的NIRS框架是为单阶段攻击例如拒绝服务或网络扫描设计的并且主要在网络边界运行。因此它们缺乏对主机级行为的可见性无法捕获APT的顺序演进。结果它们学习的策略在很大程度上是被动的响应的是单个警报而非预测多阶段攻击的演变。II-B 风险感知的DRL与基于攻击图的防御为了提高态势感知一些研究将攻击图分析与强化学习相结合以建模企业网络的安全状态。在这些方法中节点代表漏洞或权限状态边编码潜在的攻击路径。DRL代理选择最小化预期累积攻击风险的防御行动通常被表述为Δ(总风险) - λC(a)其中C(a)表示行动a的操作成本。虽然基于攻击图的方法提供了关于攻击者移动的结构化推理但它们依赖于静态的、由工具如MulVAL预先计算好的图。这些表示无法捕获系统事件之间的时间依赖性也无法反映现实世界APT活动中动态和自适应的行为特征。最近的主动DRL方法尝试预测攻击者沿可能攻击路径的移动。然而这些方法通常依赖于网络拓扑或主机连通性的粗略抽象因此缺乏区分并发攻击阶段所需的细粒度行为上下文。II-C 分层和约束强化学习分层DRL架构已被提出来解决网络防御中大型动作空间的复杂性。例如DeepShield将侦察阶段防御建模为一个分层控制问题。一个元代理检测可疑的扫描行为并在几个由低级代理执行的缓解策略中选择例如IP混洗、软件多样性或组件冗余。虽然分层控制提高了可扩展性但DeepShield主要关注早期侦察攻击并未扩展到后期APT阶段如权限提升、横向移动或数据外泄。其他方法探索了用于网络防御的离线或约束强化学习。这些方法旨在从历史安全日志中学习安全策略同时强制执行操作约束。然而它们通常不包含攻击阶段的显式建模限制了可解释性以及在攻击活动的不同阶段调整防御策略的能力。II-D 现有基于DRL的防御系统的局限性大多数基于DRL的防御框架的一个关键限制是它们依赖于基于扁平特征的状态表示。通常系统状态使用聚合指标表示例如警报计数、漏洞分数或主机状态。这些表示忽略了进程、文件、用户和网络连接之间的因果关系。因此学习到的策略无法推理恶意活动如何通过系统依赖关系传播或在APT活动中跨多个主机演变。溯源图为建模系统行为提供了更丰富的表示。通过捕获系统实体之间的因果依赖关系和时间关系溯源图能够对攻击进程和系统失陷进行细粒度的推理。将此类图嵌入到紧凑的向量表示中使得基于学习的模型能够结合结构和时间上下文。II-E 总结与研究空白尽管先前的基于DRL的网络防御系统展示了自动化缓解的潜力但它们在处理多阶段APT活动方面仍然存在限制。基于攻击图的方法依赖于静态抽象分层DRL框架专注于早期攻击而基于特征的模型无法捕获系统活动中的因果依赖关系。为应对这些局限性本文提出DeepStage一个具备阶段感知能力的防御框架它将融合的主机-网络溯源图嵌入与基于LSTM的阶段估计器集成在一起。结合分层的近端策略优化代理DeepStage实现了能够响应高级持续性威胁演变战术的自适应、阶段感知防御策略。III DeepStage框架设计III-A 网络环境我们考虑一个具有代表性的企业网络环境用于数据收集和分析。基础设施在逻辑上分为四个区域——局域网、非军事区、服务器区域和管理区域。LAN托管员工工作站和内部服务通常是攻击的初始入口点。DMZ包含外部可访问的服务并充当外部和内部网络之间的缓冲区。服务器区域存储关键资产例如数据库和认证服务器是APT活动中后期经常攻击的目标。管理区域托管集中监控和编排组件DeepStage框架部署于此从所有区域收集遥测数据同时与外部访问隔离。网络流量由边界防火墙管理并由IDS/IPS传感器如Zeek分析从而能够收集主机和网络级遥测数据以供后续数据融合。III-B DeepStage框架的操作所提出的DeepStage框架作为一个闭环的APT防御架构运行持续收集系统遥测数据、建模系统行为并启用自适应防御行动。图1展示了跨系统组件的数据和控制流。数据采集在企业网络中收集两个主要数据流主机级日志和网络警报。所有事件都安全地传输到管理区域进行分析。溯源图构建收集的日志和警报被解析和关联以构建融合的溯源图。节点代表系统实体边编码因果或数据流关系。网络警报通过早期融合机制纳入将网络事件与主机活动链接起来形成统一的因果表示。图嵌入与阶段估计图神经网络编码器将融合图转换为固定长度的嵌入g_t表示时间t的系统状态。然后一系列嵌入{g_1, ..., g_t}由一个基于LSTM的阶段估计器处理该估计器输出一个关于MITRE ATTCK框架定义的APT阶段的概率分布p_t。分层DRL防御组合状态s_t [g_t, p_t]被提供给一个分层DRL代理。元策略解释估计的阶段并选择相应的子策略来执行防御行动例如主机隔离、IP封锁、蜜罐部署或警报升级。反馈与学习每次行动后环境提供一个反映缓解效果和系统稳定性的奖励。此反馈更新DRL策略使其能够持续适应不断演变的APT行为。IV 基于阶段感知DRL的APT防御IV-A 基于POMDP的系统模型APT是隐蔽且多阶段的攻击其活动只能通过系统日志和网络警报部分观察到。由于防御者无法直接观察真实的系统安全状态防御问题违反了标准马尔可夫决策过程的完全可观察性假设。因此我们将防御环境建模为一个部分可观察马尔可夫决策过程。IV-B 状态表示隐藏的系统状态s_t反映了企业网络的底层安全状况包括主机失陷级别和攻击者的进展阶段。由于s_t无法直接观察到代理根据可观察的遥测数据维护一个置信状态。在每个时间步主机日志和网络警报融合成一个溯源图G_t。一个GNN编码器产生一个结构嵌入g_t f_GNN(G_t)它总结了系统活动。同时阶段估计器生成一个概率阶段向量p_t。时间t的观察被定义为o_t [g_t, p_t, a_{t-1}]一个循环编码器更新置信表示b_t f_LSTM(b_{t-1}, o_t)。置信嵌入b_t集成了结构系统上下文和阶段推断形成了DRL代理使用的状态表示。IV-C 防御动作空间动作空间A由企业事件响应中使用的实用对策组成监控被动动作在不中断操作的情况下提高态势感知。访问控制限制权限或身份验证的防御动作。遏制限制攻击者移动的主动干预。修复恢复系统完整性的恢复动作。这个结构化的动作空间使分层的DRL代理能够激活与企业防御工作流对齐的特定阶段子策略。IV-D 奖励设计奖励函数平衡两个目标最大化攻击缓解效果和最小化运营中断。时间t的奖励定义为R(b_t, a_t) R_security(t) - λC(a_t)。由于不同的APT阶段带来不同级别的风险我们引入了阶段感知加权R(b_t, a_t) α_k R_security(t) - β_k λC(a_t)其中α_k和β_k调整阶段k的安全性和操作成本的相对重要性。通常α_k在后期阶段增加β_k减小以减少对破坏性遏制行动的惩罚。IV-E 优化目标防御代理的目标是学习一个最大化预期累积折扣奖励的策略。IV-F 分层策略结构为了反映APT的多阶段性质我们采用了一个由元策略和特定阶段子策略组成的分层策略。IV-G 通过PPO进行策略学习为了优化分层策略我们采用近端策略优化这是一种适用于高维和部分可观察环境的稳定策略梯度算法。V 性能评估表I可部署的实用子策略集合。成本C(a)表示归一化的操作影响。元策略子策略在测试平台中的部署成本C(a)mon 监控a0: 保持基线监控将auditd.conf、CamFlow和Zeek代理保持在基线模式0.01a1: 提高主机日志记录级别修改auditd.conf、CamFlow和Zeek代理策略以捕获进程和套接字事件0.05a2: 激活深度包检测在目标子网上临时启用Zeek全包捕获0.10a3: 内存/进程快照通过管理API使用volatility或psrecord收集运行时内存转储0.20a4: 部署蜜罐重定向部署Cowrie SSH蜜罐或通过iptables DNAT重定向0.25a5: 使用威胁情报丰富日志查询本地MISP信息源并在溯源数据库中用TTP标签注释警报0.10a6: 触发系统审计扫描运行osqueryi快照以收集运行中的进程、加载的模块和套接字0.15a7: 启动跨主机关联扫描在主机溯源图之间运行图匹配以检测协同异常0.20acc 访问控制a8: 禁用高风险服务通过systemctl停止不安全的服务telnetd, ftp0.20a9: 轮换用户凭证通过LDAP/AD强制密码重置或SSH密钥轮换0.30a10: 在特权账户上强制实施2FA/MFA为sudo/SSH登录尝试集成基于PAM的OTP0.40a11: 撤销活动会话终止具有提升权限的进程或杀死可疑用户会话0.25a12: 权限提升阻止列表应用AppArmor/Seccomp策略以限制setuid/setcap操作0.20a13: 启用严格的sudo日志记录配置/etc/sudoers以实现详细的审计日志和受限的组访问0.15a14: 锁定被入侵的账户禁用可疑用户的登录usermod -L0.30cont 遏制a15: 阻断恶意IP或域名应用iptables或Zeek黑名单规则阻断已知C2端点0.20a16: 限制可疑网络流使用tc qdisc或SDN API对出口流量进行速率限制0.25a17: 微分段应用动态网桥或Open vSwitch规则以限制主机间通信0.35a18: 终止恶意进程向已识别的恶意PID发送SIGKILL/SIGSTOP信号0.20a19: 网络接口隔离临时关闭可疑主机的网络接口ifdown eth00.80a20: 限制文件I/O访问通过chattr i对敏感目录应用只读权限0.40a21: 阻断USB/外部设备使用禁用usb-storage内核模块0.50rem 修复a22: 紧急修补运行apt-get upgrade –only-upgrade以修补已知CVE0.40a23: 移除持久性残留物删除恶意的自启动项、crontab任务、rc脚本或二进制替换文件0.30a24: 将系统回滚到快照对受感染的虚拟机使用OpenStack/QEMU快照恢复0.90a25: 清理DNS和防火墙规则验证后移除临时防御规则0.15a26: 从备份恢复从安全备份中恢复关键文件或配置0.80a27: 策略的永久性加固持久化防火墙、auditd和sudo设置以防止复发0.20a28: 重新启用正常操作验证后将主机重新连接到主VLAN0.20表IIDeepStage基于DRL的APT防御的PPO训练参数。参数值 / 范围描述Actor 网络3层MLP输入融合图嵌入g_t 阶段置信度p_t输出元/子策略动作的概率分布。Critic 网络3层MLP为基线估计值V(o_t)与Actor共享第一层。优化器Adam (β10.9,β20.999)用于Actor和Critic更新的自适应优化器。学习率 (η)3×10⁻⁴(每轮衰减0.99)PPO梯度更新的稳定步长。折扣因子 (γ)0.99用于延迟APT缓解奖励的长期信用分配。GAE 参数 (λ_GAE)0.95平衡优势估计的偏差和方差。裁剪阈值 (ϵ)0.2控制更新幅度以保持策略改进的稳定性。熵系数 (c_ent)0.01 – 0.05鼓励在元/子策略选择上进行探索。价值损失系数 (c_v)0.5平衡Critic损失的贡献。批量大小4096 个转移样本每次PPO更新使用的样本数。小批量大小512PPO优化中每个梯度步的大小。每次更新的轮次数5每批数据的PPO传递次数稳定在策略学习。事件长度50–100 个时间步对应一次APT活动Caldera剧本。训练事件数2,000在企业测试平台中的训练和微调。奖励缩放归一化到[-1, 1]确保PPO的数值稳定性。V-A 受控测试平台实验在一个由6台Ubuntu虚拟机作为企业主机和一台Kali Linux虚拟机作为攻击者组成的受控企业测试平台上进行。一台专用的GPU工作站托管DRL训练和繁重计算。网络服务部署在主机虚拟机上一个Zeek传感器放置在网络边缘以生成网络警报。V-B 数据收集和溯源主机遥测通过auditd和osquery捕获内核级溯源使用CamFlow收集。Zeek产生网络事件这些事件被转换为警报节点并融合到溯源图中。每Δt 300秒构造快照以形成G_tGNN图编码器产生嵌入g_t ∈ ℝ^128。V-C 攻击生成我们使用MITRE Caldera生成真实的、符合ATTCK的对手行为用于DRL训练和评估。Caldera的模块化“能力”和“对手”剧本模型允许我们编写端到端的多阶段活动并以编程方式改变时间、技术和目标这非常适合产生大量标记的事件。在我们的管道中Caldera驱动对企业虚拟机的攻击者行为同时主机遥测和网络传感器收集溯源数据。每个剧本执行都由一个控制器注释记录真实阶段标签和时间戳从而能够为阶段估计器训练和DRL代理的奖励塑形进行每次快照的标记。具体来说我们利用10个基础Caldera剧本并从每个剧本生成随机变体以增加多样性并防止过拟合。V-D 元策略和子策略为了在模拟的企业网络中实现现实且细粒度的防御决策DeepStage框架中的每个元策略被分解为多个对应于具体、可自动化防御操作的子策略。这些子策略经过仔细选择以与测试平台中可用的系统组件对齐并且可以通过管理控制器在目标主机上通过REST自动化安全执行。表I总结了所有实用的子策略及其归一化操作成本C(a)这些成本后来被纳入DRL奖励公式中。请注意表示基线监控模式的行动a_0是在未检测到攻击k0的正常系统条件下执行的。V-E 奖励计算DRL代理在每个时间步t接收一个标量奖励R(b_t, a_t) α_k R_security - β_k λC(a_t)。特别是R_security(t) ∈ [0,1]量化了在时间步之间观察到的归一化安全改进。令k_t和k_{t1}分别表示时间t和t1的真实APT阶段。然后R_security(t)定义为R_security(t) 1, 如果 k_{t1} k_t; 0.5, 如果 k_{t1} k_t; 0, 如果 k_{t1} k_t。这种分段公式提供了一个直观且离散的奖励信号成功驱动对手进入更早或更不关键阶段的行动产生最高奖励而仅仅稳定系统的行动提供部分奖励。相反如果攻击者进入更严重的阶段奖励降至零表示策略在时间t失败。C(a_t) ∈ [0,1]表示所选行动a_t的归一化操作成本。阶段特定系数α_k和β_k被选择以强调后期缓解同时鼓励在早期阶段采取保守的低成本监控。典型的成本缩放因子设置为λ 0.1。V-F DRL参数设置表II总结了用于在DeepStage框架中训练基于PPO的强化学习代理的超参数设置和网络配置。选择这些参数是为了确保在部分可观察和特定阶段的APT防御中策略的稳定收敛和有效学习。V-G 基准测试为了评估所提出的DeepStage框架的性能我们将其与风险感知的基于DRL的APT防御方法进行基准测试。此基线将强化学习与MulVAL派生的攻击图建模相结合其中每个状态编码与图节点和边相关的风险级别动作空间包括十一个预定义的缓解操作。此外我们还包括我们框架的一个无阶段感知变体以量化阶段条件化对整体性能的贡献。在此变体中奖励函数中的阶段特定加权因子通过设置α_k β_k 1.0被中和导致所有APT阶段获得均匀的奖励。V-H 结果分析图2每阶段防御效能通过六个APT阶段的阶段加权F1评分衡量。阶段加权的攻击防御性能图2说明了跨APT生命周期的、以阶段加权F1分数衡量的每阶段防御有效性。DeepStage实现了0.89的最高宏平均F1分数相比于无阶段感知变体的0.80和风险感知DRL基线的0.73分别对应约11.3%和21.9%的相对改进。在横向移动和命令与控制阶段改进最为显著DeepStage在这些阶段获得了0.87和0.92的F1分数相对于基线有高达15-20%的相对增益。图3成本效益前沿展示了标准化安全收益与累计行动成本的差异。成本效益分析图3中的成本效益前沿表明DeepStage在可比较的操作成本水平下持续实现了更高的安全增益。在中档成本比率下DeepStage实现了0.65的归一化安全增益优于无阶段感知变体和风险感知DRL基线。即使在完全预算分配下DeepStage在累积奖励方面仍保持15-25%的优势。图4跨方法层级PPO的训练收敛。学习稳定性与收敛性图4显示了三种评估方法的PPO学习曲线。DeepStage的收敛速度比两个基线快约1.7倍在大约900个事件后达到稳定策略而无阶段感知变体和风险感知DRL基线分别需要大约1600和1800个事件。收敛时DeepStage实现了0.91的归一化事件奖励相比之下无阶段感知变体为0.84风险感知模型为0.79平均改进约12%。图5防御响应性在APT阶段转换。阶段过渡响应性图5显示了三种方法在连续时间步上的防御响应性其中每个时间步对应一个300秒的观察窗口。DeepStage表现出最敏捷和及时的适应在第四个时间步约20分钟的模拟时间达到0.90的响应性水平之后稳定在0.97附近。相比之下无阶段感知变体达到最大响应性0.86而风险感知DRL基线饱和在0.71左右。VI 结论本文介绍了DeepStage一个用于对抗高级持续性威胁的自适应、阶段感知防御的统一深度强化学习框架。DeepStage将多模态主机和网络溯源数据融合到基于图的表示中这些表示捕获了跨企业系统的结构和行为依赖关系。这些融合的图被编码为低维嵌入并由一个基于LSTM的阶段估计器处理以推断攻击者在杀伤链中当前阶段的概率置信度。由此产生的阶段概率与图嵌入相结合定义了一个分层PPO代理的状态表示该代理将防御策略组织为四个可解释的层监控、访问控制、遏制和修复。通过这种设计DeepStage实现了协调且具备上下文感知能力的防御行动能够适应复杂多阶段攻击的演变阶段。实验结果证明了所提出框架在准确估计攻击阶段和提高自主缓解策略整体有效性方面的有效性。总之通过在企业安全环境中集成态势感知、时间推理和资源感知的决策制定DeepStage为自主APT防御提供了一个原则性且可扩展的基础。图1所提出的DeepStage框架的数据与控制流。VII 未来研究方向作为未来的工作我们计划在几个方向上扩展DeepStage框架以进一步增强自主网络防御的透明度和操作可用性。首先我们旨在将可解释人工智能技术整合到DeepStage管道中为攻击阶段估计和防御策略决策提供可解释的见解。通过识别关键的溯源子图、有影响的系统事件以及驱动缓解行动的关键状态特征XAI引导机制可以提高分析师的信任度并实现对自动化响应的证据驱动验证。其次我们计划探索基于大语言模型的安全运营中心助手的集成将DeepStage的结构化输出转换为人类可读的事件报告、攻击时间线和缓解理由。这种LLM辅助的SOC能力可以通过帮助分析师快速理解系统警报和防御建议促进更有效的人机协作。总之这些方向旨在弥合自主网络防御与实际安全运营之间的差距实现对多阶段APT攻击活动的更可信和可解释的保护。