Ling-2.6-flash-fp8震撼发布:104B参数模型如何实现340 tokens/s极速推理? Ling-2.6-flash-fp8震撼发布104B参数模型如何实现340 tokens/s极速推理【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8Ling-2.6-flash-fp8是一款拥有104B总参数和7.4B活跃参数的指令模型它通过混合线性架构、令牌效率优化和针对智能体场景的定向改进在4× H20设置上实现了高达340 tokens/s的推理速度为用户带来更快、更高效的AI体验。一、极速推理背后的核心架构Ling-2.6-flash-fp8延续了Ling 2.5引入的架构方向在Ling 2.0基础上融合了混合线性注意力机制将原始的GQA注意力设计通过增量训练升级为1:7 MLA Lightning Linear混合架构。这种混合注意力与高度稀疏的MoE架构相结合使模型在推理效率上具有明显优势。与同尺寸级别主流SOTA模型相比Ling-2.6-flash-fp8不仅首 token 生成时间更快在长输出场景下还能实现显著更高的生成吞吐量预填充吞吐量和解码吞吐量最高可提升约4倍。无论是长上下文理解还是扩展文本生成工作负载模型都能在保持能力的同时提供更快的响应速度。二、三大核心优势解析1. 混合线性架构提升推理效率通过引入混合线性架构Ling-2.6-flash-fp8从基础层面提高了计算效率。在实际应用中这种架构让模型能够更快速地处理输入信息并生成输出大大缩短了用户等待时间。2. 令牌效率优化实现智能效率平衡训练过程中Ling-2.6-flash-fp8专门针对令牌效率进行了优化旨在用更简洁的输出完成任务。在完整的Artificial Analysis评估套件上仅使用15M令牌就能交付具有竞争力的性能展现出更强的智能效率特性。3. 智能体场景的定向改进针对当前需求旺盛的智能体用例Ling-2.6-flash-fp8在工具使用、多步骤规划和任务执行方面不断优化。在包括BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval和PinchBench等基准测试中其性能与更大活跃参数计数的模型相比具有竞争力在某些情况下甚至达到SOTA水平。三、全面的性能评估Ling-2.6-flash-fp8在多个权威基准测试中进行了全面评估在BFCL-V4、TAU2-bench、SWE-bench Verified和PinchBench等代表性智能体基准测试中表现强劲。在实际应用中它在Claude Code、Kilo Code、Qwen Code、Hermes Agent和OpenClaw等框架中都能提供出色的用户体验。除智能体任务外Ling-2.6-flash-fp8在一般知识、数学推理、指令遵循和长上下文理解方面也表现出色与同尺寸级别SOTA模型保持一致。四、量化鲁棒性FP8和INT4研究人员使用多个数据集对FP8和INT4量化模型进行了评估分别通过块式量化和组式量化应用FP8和INT4量化确保在不同精度下模型性能的稳定性。五、快速上手指南SGLang推荐环境准备pip install uv uv venv ~/my_ling_env source ~/my_ling_env/bin/activate uv pip install sglang[all]0.5.10.post1 --prereleaseallow运行推理SGLang现在支持BF16和FP8模型具体取决于${MODEL_PATH}中模型的数据类型。以下是使用4个GPU运行Ling-2.6-flash的示例其中主节点IP为${MASTER_IP}服务器端口为${PORT}服务器1. 标准推理无MTPpython -m sglang.launch_server \ --model-path $MODEL_PATH \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --trust-remote-code \ --context-length 262144 \ --tool-call-parser qwen25 \ --json-model-override-args {rope_scaling: {rope_type: yarn, factor: 2.0, rope_theta: 6000000, partial_rotary_factor: 0.5, original_max_position_embeddings: 131072}} \ --dist-init-addr $MASTER_IP:2345 \ --port $PORT \ --nnodes 12. 使用MTP多令牌预测推理当前官方SGLang的MTP实现存在bug。为获得更好的推理性能建议安装我们的补丁版本。我们的修复目前正在审核中预计不久将合并到官方SGLang库中。安装我们的SGLanggit clone -b ling_2_6 gitgithub.com:antgroup/sglang.git cd sglang pip install --upgrade pip pip install -e python启动服务器python -m sglang.launch_server \ --model-path $MODEL_PATH \ --tp-size 4 \ --pp-size 1 \ --dp-size 1 \ --context-length 262144 \ --mamba-scheduler-strategy extra_buffer \ --speculative-algorithm NEXTN \ --speculative-num-steps 3 \ --speculative-eagle-topk 1 \ --speculative-num-draft-tokens 4 \ --mem-fraction-static 0.75 \ --max-running-requests 64 \ --max-mamba-cache-size 256 \ --tool-call-parser qwen25 \ --json-model-override-args {rope_scaling: {rope_type: yarn, factor: 2.0, rope_theta: 6000000, partial_rotary_factor: 0.5, original_max_position_embeddings: 131072}} \ --trust-remote-code \ --dist-init-addr $MASTER_IP:2345 \ --port $PORT \ --nnodes 1客户端curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \ -H Content-Type: application/json \ -d {model: auto, messages: [{role: user, content: What is the capital of France?}]}vLLM环境准备pip install uv uv venv ~/my_ling_env source ~/my_ling_env/bin/activate git clone https://github.com/vllm-project/vllm.git cd vllm VLLM_USE_PRECOMPILED1 uv pip install --editable . --torch-backendauto运行推理服务器vllm serve $MODEL_PATH \ --port $PORT \ --served-model-name my_model \ --trust-remote-code --tensor-parallel-size 4 \ --gpu-memory-utilization 0.85客户端curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \ -H Content-Type: application/json \ -d {model: auto, messages: [{role: user, content: What is the capital of France?}]}六、局限性与未来计划Ling-2.6-flash-fp8在追求极致智能效率权衡方面已经取得了显著进展在工具使用、多步骤规划和长期任务执行等关键领域有了实质性提升。结合推理效率和交互体验的系统性优化它现在能够更好地处理大规模、高频自动化工作负载在生产环境中提供更强的实际价值。同时研究团队也充分认识到将智能效率推向极限需要权衡。在一些高度复杂的场景中由于推理深度有限模型仍然可能出现工具幻觉。此外在中英文自然双语切换和遵循高度复杂指令等方面仍有改进空间。展望未来团队将继续探索智能效率的前沿。在保持模型高效推理特性的同时旨在进一步改善输出质量和令牌效率之间的平衡并不断增强模型在更广泛实际场景中的稳定性、可用性和交互体验。想要体验这款极速推理的模型可通过以下命令克隆仓库git clone https://gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8【免费下载链接】Ling-2.6-flash-fp8项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-2.6-flash-fp8创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考