文章总结与翻译一、主要内容本文针对基于Transformer的大型语言模型(LLMs)在网络领域应用时存在的二次时间复杂度、模型体积庞大、计算开销高和存储冗余等问题,提出了一种名为Mamba4Net的跨架构知识蒸馏框架。该框架借鉴Deepseek-R1模型的知识蒸馏思路,将Transformer-based LLMs中的网络特定知识迁移到具有线性时间复杂度的Mamba架构学生模型中,在降低计算需求和模型尺寸的同时,保证任务性能。Mamba4Net的核心组件包括多模态编码器(处理异构网络数据并转换为统一嵌入)、任务特定网络头(避免模型幻觉,输出标准化结果)和师生模型框架(实现跨架构知识迁移)。为解决跨架构蒸馏的不稳定性和维度不匹配问题,框架提出了领域知识导向的跨异构蒸馏(DKO)和跨异构权重复用(CWR)两种关键技术,并通过低秩适配(LoRA)优化教师模型的微调过程。实验在视口预测(VP)、自适应比特率流(ABR)和集群作业调度(CJS)三个网络任务上展开,结果显示:与非LLM方法相比,Mamba4Net性能更优;与基于Transformer的LLMs(如NetLLM)相比,吞吐量提升3.96倍,模型存储仅为前者的5.48%,且在VP和CJS任务中性能显著优于基线,ABR任务性能接近最优水平。二、创新点跨架构知识蒸馏框架:提出DKO方法,首次实现从Transformer-based LLMs到Mamba架构的网络特定知识蒸馏,将时间复杂度从二次降至线性,同时过滤无关知识。跨异构权
Mamba4Net: Distilled Hybrid Mamba Large Language Models For Networking
发布时间:2026/7/4 4:39:50
文章总结与翻译一、主要内容本文针对基于Transformer的大型语言模型(LLMs)在网络领域应用时存在的二次时间复杂度、模型体积庞大、计算开销高和存储冗余等问题,提出了一种名为Mamba4Net的跨架构知识蒸馏框架。该框架借鉴Deepseek-R1模型的知识蒸馏思路,将Transformer-based LLMs中的网络特定知识迁移到具有线性时间复杂度的Mamba架构学生模型中,在降低计算需求和模型尺寸的同时,保证任务性能。Mamba4Net的核心组件包括多模态编码器(处理异构网络数据并转换为统一嵌入)、任务特定网络头(避免模型幻觉,输出标准化结果)和师生模型框架(实现跨架构知识迁移)。为解决跨架构蒸馏的不稳定性和维度不匹配问题,框架提出了领域知识导向的跨异构蒸馏(DKO)和跨异构权重复用(CWR)两种关键技术,并通过低秩适配(LoRA)优化教师模型的微调过程。实验在视口预测(VP)、自适应比特率流(ABR)和集群作业调度(CJS)三个网络任务上展开,结果显示:与非LLM方法相比,Mamba4Net性能更优;与基于Transformer的LLMs(如NetLLM)相比,吞吐量提升3.96倍,模型存储仅为前者的5.48%,且在VP和CJS任务中性能显著优于基线,ABR任务性能接近最优水平。二、创新点跨架构知识蒸馏框架:提出DKO方法,首次实现从Transformer-based LLMs到Mamba架构的网络特定知识蒸馏,将时间复杂度从二次降至线性,同时过滤无关知识。跨异构权