沐曦芯生,开源共创 | 沐曦股份 × SGLang联合举办技术交流Meetup,共同探索AI推理落地新路径 6月6日由沐曦股份联合SGLang开源社区、阿里云、龙蜥社区、腾讯云及融科资讯中心举办的“沐曦芯生开源共创——SGLang技术交流Meetup”在北京圆满举办。本次Meetup不仅集结了沐曦股份、SGLang开源社区、阿里云、龙蜥社区与腾讯云的多位核心开发人员与技术专家还定向邀请了100多名独立开发者与高校学生到场。围绕SGLang开源生态演进、大模型推理性能优化与工程落地、异构算力适配等核心议题整场技术交流活动展开了深入探讨与思维碰撞。五大主题演讲聚焦SGLang生态覆盖推理全技术链路今年以来OpenClaw“龙虾”Agent智能体风靡全球PD分离、长上下文的KV Cache显存利用、多智能体推理成为了AI行业热议话题。本次Meetup活动共设置五场主题演讲与一场圆桌对话从底层可观测性到上层多智能体推理架构从社区前沿演进到落地工程实践完整勾勒了SGLang推理生态的技术版图。SGLang Core MaintainerSGLang社区核心维护者童心源率先登台带来了《SGLang Roadmap面向大模型与多模态模型的高性能开源推理系统》主题演讲。演讲系统介绍了SGLang 开源推理框架的发展历史并重点讲解了SGLang在 PD分离、多模态模型与硬件支持、以RL/post-training强化学习/后训练部署等关键技术场景的创新突破以及其在开源社区协作的进展与最新性能优化路线图。阿里云工程师、SGLang Developer苏峰与常怀鑫则分享了题为《从全链路可观测到智能分析AI性能分析范式的演进与实践》的演讲。两位嘉宾在演讲中回顾了SGLang Tracing的可观测性建设历程并结合具体案例探讨如何利用AI Agent实现SGLang框架的性能优化。活动下半场阿里云高级技术专家马腾上台发表了《记忆感知驱动基于Mooncake的多智能体推理架构优化》主题演讲深入剖析了Mooncake如何以KV Cache显存为“物理工作记忆”载体并通过PD分离架构与全局共享KV Cache显存池实现多智能体场景“一次计算、全局共享”的记忆复用。腾讯云高级工程师陈凯悦分享了《从社区到生产基于SGLang HiCache Mooncake的深度优化与企业级落地工程实践》还原了如何将HiCache与Mooncake规模化部署到内部推理集群、以及落地企业客户环境中的具体实践。沐曦股份SGLang推理引擎核心开发者杨鑫压轴登场带来《沐曦GPU对SGLang的深度适配与工程实践》主题演讲详细介绍了SGLang在沐曦GPU上的适配流程、沐曦自研MXMACA软件栈、最新模型适配情况与性能优化实践。针对主题演讲的硬核分享现场观众踊跃提问结合实际开发部署中遇到的具体问题与嘉宾现场积极探讨各种可能的解决方案。圆桌对话异构算力下的推理效能革命圆桌环节由沐曦AI研究院院长李兆石主持童心源、常怀鑫、马腾、陈凯悦与沐曦股份SGLang项目核心开发者王志鹏五位技术专家共同参与围绕“异构算力下的推理效能革命SGLang前沿优化与企业落地实践”展开展开讨论。针对百万长下文的KV Cache利用策略、AI存储需求的趋势走向、AI云端与本地部署的方案选择等热点话题圆桌嘉宾分享了各自的洞察与思考。结语本次SGLang技术交流Meetup是沐曦股份在开源生态建设中的一次深度实践。作为国产高性能GPU企业沐曦股份始终秉持“全栈自研生态兼容”战略围绕MXMACA软件栈持续投入上游开源社区建设。从MXMACA软件栈深度兼容SGLang、vLLM在内的40多种AI框架到公司与阿里云、腾讯云、龙蜥开源社区等伙伴的联合创新沐曦股份正以“技术共建者”之姿推动国产GPU在大模型推理基础设施中的实质性落地。面向未来沐曦股份将持续深化与SGLang等开源社区的技术协同在推理性能优化、模型适配广度、开发者工具链等维度加速迭代为国产算力从“能用”走向“好用”提供坚实的底座。