CANN/ge LLM-DataDist C++开发指南 概述【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/geLLM-DataDist简介在大模型推理场景下随着模型batch size的增大Prefill阶段的性能会线性降低Decode阶段会额外占用更多的内存。两阶段对资源的需求不同部署在一起导致资源分配不均成本居高不下。通过LLM-DataDist构建的大模型推理分离式框架有效地解决了该问题。在分离式框架中将Prefill和Decode分别部署在不同规格和架构的集群中提升了性能和资源利用效率提升了大模型推理系统吞吐量。LLM-DataDist作为大模型分布式集群和数据管理组件提供了高性能、零拷贝的点对点数据传输的能力该能力通过简易的API开放给用户。LLM-DataDist利用昇腾集群多样化通信链路RoCE/HCCS/UB可实现跨实例和集群的高效KV Cache传输支持与主流LLM推理框架vLLM等的集成并可用于构筑分布式数据管理系统。LLM-DataDist功能主要包括链路管理和缓存管理。链路管理用于集群之间建链、断链实现集群的动态扩缩的能力。缓存管理用于管理KV Cache提供PD下文P侧代表Prefill, D侧代表Decode之间点对点传输KV Cache的能力。LLM-DataDist应用场景通过LLM-DataDist构建大模型推理PD分离式框架。在大模型推理中Prefill阶段将用户请求Prompt传入大模型进行计算中间结果写入KV Cache并输出第1个token。在Decode阶段中将请求的前1个token传入大模型从显存读取之前产生的KV Cache再进行计算。基于KV Cache的大模型推理过程请参见大模型推理流程简介。在大模型推理PD分离式框架中为了提升性能和资源利用效率将Prefill和Decode分别部署在不同规格和架构的集群中。PD分离式框架可提升大模型推理系统吞吐量详见大模型推理流程简介。大模型推理PD分离式框架中Prefill阶段生成的KV Cache需要传输到Decode然后Decode阶段进行增量迭代推理。LLM-DataDist作为大模型分布式集群和数据管理组件通过简易的API开放给用户构建大模型推理PD分离式框架如下图所示LLM-DataDist提供了Prefill Node和Decode Node之间的KV Cache传输及链路管理。【免费下载链接】geGEGraph Engine是面向昇腾的图编译器和执行器提供了计算图优化、多流并行、内存复用和模型下沉等技术手段加速模型执行效率减少模型内存占用。 GE 提供对 PyTorch、TensorFlow 前端的友好接入能力并同时支持 onnx、pb 等主流模型格式的解析与编译。项目地址: https://gitcode.com/cann/ge创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考