2025年9月22-25日,第 33届 IEEE 国际网络协议会议(ICNP 2025)在韩国首尔举办。会议以严格筛选机制著称,2024年录用率约24.4%,被中国计算机学会(CCF)列为推荐B类会议。实验室同学夏霖翰(目前已在美国读博士)论文《Mamba4Net: Distilled Hybrid Mamba Large Language Models For Networking》被录用,Mamba4Net代码已经开源。
基于 Transformer 的大型语言模型正越来越多地被应用于网络研究领域,以应对特定领域的挑战。然而,其二次方时间复杂度和庞大的模型尺寸,常常导致巨大的计算开销和内存限制,尤其是在资源受限的环境中。
受知识蒸馏范式中 Deepseek-R1 模型的高效性与高性能启发,本文提出了一种名为 Mamba4Net 的新型跨架构蒸馏框架。Mamba4Net 将基于 Transformer 的 LLMs 中的网络特定知识,迁移到采用 Mamba 架构构建的学生模型中,而 Mamba 架构的特点是具有线性时间O(n)复杂度。与 Transformer 模型的二次方O(n2)复杂度相比,这种设计显著提升了计算效率,同时更小的模型尺寸也进一步降低了计算需求,从而提升了整体性能和资源利用率。
为了评估其有效性,Mamba4Net 在三个不同的网络任务上进行了测试:视口预测、自适应码率流传输和集群作业调度。与未利用 LLMs 的现有方法相比,Mamba4Net 展现出了更优越的任务性能。此外,与直接应用基于 Transformer 的 LLMs 相比,它实现了显著的效率提升,包括吞吐量高达 3.96 倍(4倍),以及存储占用仅为先前基于 LLM 方法的 5.48%(二十分之一)。
这些结果突显了 Mamba4Net 在网络环境中实现 LLM 衍生知识低成本应用的潜力。其源代码已公开可用,以支持进一步的研究与开发。
核心要点总结
问题:Transformer LLMs 在网络研究中计算开销大、内存占用高。方案:提出 Mamba4Net 框架,通过知识蒸馏,将 Transformer LLM 的知识迁移到更高效的 Mamba 模型中 (思路与DeepSeek类似,降低全训练开销和成本)。优势:Mamba 模型具有线性复杂度,模型更小,计算更快。验证:在视口预测、自适应码率流、集群调度三个任务上,Mamba4Net 性能优于传统方法,且比直接使用 Transformer LLMs 吞吐量高 3.96 倍,存储占用仅为 5.48%。意义:为在网络领域高效、低成本地应用 LLM 知识提供了可行的解决方案。代码开源: https://github.com/Xia12121/Mamba4Net
晶晶博后做宣讲
...