CANN/hixl待废弃Python接口文档

发布时间：2026/7/1 14:54:33

待废弃【免费下载链接】hixlHIXLHuawei Xfer Library是一个灵活、高效的昇腾单边通信库面向集群场景提供简单、可靠、高效的点对点数据传输能力。项目地址: https://gitcode.com/cann/hixl产品支持情况产品是否支持Atlas A3 训练系列产品/Atlas A3 推理系列产品√Atlas A2 训练系列产品/Atlas A2 推理系列产品√说明针对Atlas A2 训练系列产品/Atlas A2 推理系列产品仅支持Atlas 800I A2 推理服务器、A200I A2 Box 异构组件。CacheManagerallocate_cache函数功能分配CacheCache分配成功后会同时被cache_id与cache_keys引用只有当这些引用都解除后cache所占用的资源才会实际释放。cache_id的引用需通过deallocate_cache解除cache_keys的引用则可以通过以下2种方式解除。Decode调用pull_cache或push_cache接口成功后解除。PROMPT调用remove_cache_key接口时解除。函数原型allocate_cache(cache_desc: CacheDesc, cache_keys: Union[Tuple[CacheKey], List[CacheKey]] ())参数说明参数名称数据类型取值说明cache_descCacheDescCache的描述。cache_keysUnion[Tuple[CacheKey], List[CacheKey]]Cache的索引。调用示例from llm_datadist import * ... cache_desc CacheDesc(1, [2, 1024 * 1024], DataType.DT_FLOAT16) cache_keys [CacheKey(1, req_id1), CacheKey(1, req_id2)] cache cache_manager.allocate_cache(cache_desc, cache_keys)返回值正常情况下返回Cache。传入数据类型错误情况下会抛出TypeError或ValueError异常。如果cache_keys中包含了分配内存时绑定的CacheKey则抛出LLMException异常。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明传入cache_keys时如果Cache的batch size1则需要提供相同数量的CacheKey分别引用一组kv tensor。如果当次推理的batch未占用满即存在无效batch_index则需要插入特殊的CacheKey将req_id设置为UINT64_MAX占位如果空闲的batch_index在末尾则可以省略。如果cache_keys存在重复则最后一个生效。调用该接口接口前需要先配置内存池。deallocate_cache函数功能释放Cache。如果该Cache在被分配时关联了CacheKey则实际的释放会延后到所有的CacheKey被拉取或执行了remove_cache_key。函数原型deallocate_cache(cache: Cache)参数说明参数名称数据类型取值说明cacheCache要释放的Cache。调用示例from llm_datadist import * ... cache_manager.deallocate_cache(cache)返回值正常情况下无返回值。传入数据类型错误情况下会抛出TypeError或ValueError异常。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明如果Cache不存在或已释放该操作为空操作。remove_cache_key函数功能移除CacheKey。移除CacheKey后该Cache将无法再被pull_cache拉取。函数原型remove_cache_key(cache_key: CacheKey)参数说明参数名称数据类型取值说明cache_keyCacheKey需要被移除的CacheKey。调用示例from llm_datadist import * ... cache_keys [CacheKey(1, req_id1), CacheKey(1, req_id2)] cache_manager.remove_cache_key(cache_keys[0]) cache_manager.remove_cache_key(cache_keys[1])返回值正常情况下无返回值。参数错误可能抛出TypeError或ValueError。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明如果CacheKey不存在或已移除该操作为空操作。copy_cache函数功能拷贝Cache。函数原型copy_cache(dst: Cache, src: Cache, dst_batch_index: int 0, src_batch_index: int 0, offset: int 0, size: int -1, req_id: Optional[int] None)参数说明参数名称数据类型取值说明dstCache目标Cache。srcCache源Cache。dst_batch_indexint目标Cache的batch_index默认为0。src_batch_indexint源Cache的batch_index默认为0。offsetint每个tensor的偏移默认为0。sizeint设置为0的整数表示要拷贝的大小。或设置为-1表示完整拷贝。默认为-1。req_idOptional[int]本次调用关联的req_id如果设置了该参数则本地调用相关的维测日志中会打印该req_id默认为None调用示例from llm_datadist import * ... cache_manager.copy_cache(dst_cache, src_cache, 0, 1, 0, 128)返回值正常情况下无返回值。传入数据类型错误情况下会抛出TypeError或ValueError异常。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明源Cache和目的Cahce的CacheDesc需要匹配。allocate_blocks_cache函数功能PagedAttention场景下分配多个blocks的CacheCache分配成功后可通过deallocate_blocks_cache释放内存。函数原型allocate_blocks_cache(cache_desc: CacheDesc, blocks_cache_key: Optional[BlocksCacheKey] None)参数说明参数名称数据类型取值说明cache_descCacheDescCache的描述。blocks_cache_keyOptional[BlocksCacheKey]索引一个blocks cache。调用示例from llm_datadist import * ... blocks_cache_key BlocksCacheKey(1, 0) blocks_cache cache_manager.allocate_blocks_cache(cache_desc, blocks_cache_key)返回值正常情况下返回Cache。传入数据类型错误情况下会抛出TypeError或ValueError异常。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明需要先配置内存池才能使用。deallocate_blocks_cache函数功能分配CacheCache分配成功后会同时被cache_id与cache_keys引用只有当这些引用都解除后cache所占用的资源才会实际释放。cache_id的引用需通过deallocate_cache解除cache_keys的引用则可以通过以下2种方式解除。Decode调用pull_cache或push_cache接口成功后解除。PROMPT调用remove_cache_key接口时解除。函数原型allocate_cache(cache_desc: CacheDesc, cache_keys: Union[Tuple[CacheKey], List[CacheKey]] ())参数说明参数名称数据类型取值说明cache_descCacheDescCache的描述。cache_keysUnion[Tuple[CacheKey], List[CacheKey]]Cache的索引。调用示例from llm_datadist import * ... cache_desc CacheDesc(1, [2, 1024 * 1024], DataType.DT_FLOAT16) cache_keys [CacheKey(1, req_id1), CacheKey(1, req_id2)] cache cache_manager.allocate_cache(cache_desc, cache_keys)返回值正常情况下返回Cache。传入数据类型错误情况下会抛出TypeError或ValueError异常。如果cache_keys中包含了分配内存时绑定的CacheKey则抛出LLMException异常。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明传入cache_keys时如果Cache的batch size1则需要提供相同数量的CacheKey分别引用一组kv tensor。如果当次推理的batch未占用满即存在无效batch_index则需要插入特殊的CacheKey将req_id设置为UINT64_MAX占位如果空闲的batch_index在末尾则可以省略。如果cache_keys存在重复则最后一个生效。调用该接口接口前需要先配置内存池。copy_blocks函数功能PagedAttention场景下拷贝block。函数原型copy_blocks(cache: Cache, copy_block_info: Dict[int, List[int]])参数说明参数名称数据类型取值说明cacheCache目标Cache。copy_block_infoDict[int, List[int]]dict里面内容代表原始block index目标block index列表。调用示例cache_manager.copy_blocks(cache, {1: [2,3]})返回值正常情况下无返回值。传入数据类型错误情况下会抛出TypeError或ValueError异常。执行时间超过sync_kv_timeout配置会抛出LLMException异常。约束说明无swap_blocks函数功能对cpu_cache和npu_cache进行换入换出。对于swap out功能该接口启用了4个线程执行并行任务对于swap in功能该接口启用了1个d2d线程。为了性能稳定建议进行进程绑核。swap in功能分为H2D和D2D两个阶段为了保障性能该接口申请了4个block大小的buffer用作流水拷贝所以建议预留出对应的Device内存防止出现OOM。函数原型swap_blocks(src_cache: Cache, dst_cache: Cache, src_to_dst: Dict[int, int])参数说明参数名称数据类型取值说明src_cacheCache源Cache。dst_cacheCache目标Cache。src_to_dstDict[int, int]dict里面内容代表原始block index目标block index调用示例from llm_datadist import Cache npu_cache cache_manager.allocate_blocks_cache(npu_cache_desc, npu_cache_key) cpu_cache Cache.create_cpu_cache(cpu_cache_desc, cpu_addrs) # cpu_addrs来自创建的cpu tensors # swap in cache_manager.swap_blocks(cpu_cache, npu_cache, {1:2, 3:4}) # swap out cache_manager.swap_blocks(npu_cache, cpu_cache, {1:2, 3:4})返回值正常情况下无返回值。传入数据类型错误src和dst不匹配情况下会抛出TypeError或ValueError异常。传入参数为None会抛出AttributeError异常。约束说明仅支持PagedAttention场景使用。LLMConfigmem_pool_cfg函数功能配置内存池相关配置项。函数原型mem_pool_cfg(mem_pool_cfg)参数说明参数名称数据类型取值说明mem_pool_cfgstringjson数组格式字符串包含memory_sizepage_shift。配置项可选/必选描述memory_size必选当前内存池的大小类型为int大于0单位为Byte。page_shift可选page_size的位移量用于计算page_size。分配内存时会对齐到page_size的倍数需要根据实际场景设置为合适的大小。类型为int取值范围为[10, 31)。例如page_shift 16时page_size为11665536。默认值为16。调用示例from llm_datadist import LLMConfig llm_config LLMConfig() llm_config.mem_pool_cfg {\memory_size\: 18737418240, \page_shift\: 16}返回值正常情况下无返回值。参数错误可能抛出TypeError或ValueError。约束说明无host_mem_pool_cfg函数功能配置Host内存池相关配置项。函数原型host_mem_pool_cfg(host_mem_pool_cfg)参数说明参数名称数据类型取值说明host_mem_pool_cfgstringjson数组格式字符串包含memory_sizepage_shift。配置项可选/必选描述memory_size必选当前内存池的大小类型为int大于0单位为Byte。page_shift可选page_size的位移量用于计算page_size。分配内存时会对齐到page_size的倍数需要根据实际场景设置为合适的大小。类型为int取值范围为[10, 31)。例如page_shift 16时page_size为11665536。默认值为16。调用示例from llm_datadist import LLMConfig llm_config LLMConfig() llm_config.host_mem_pool_cfg {\memory_size\: 18737418240, \page_shift\: 16}返回值正常情况下无返回值。参数错误可能抛出TypeError或ValueError。约束说明Host内存池最大不超过20G。【免费下载链接】hixlHIXLHuawei Xfer Library是一个灵活、高效的昇腾单边通信库面向集群场景提供简单、可靠、高效的点对点数据传输能力。项目地址: https://gitcode.com/cann/hixl创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Harness宏观架构：DeerFlow 2.0 断点续跑机制架构设计与实现

DeerFlow 2.0 断点续跑机制：架构设计与实现在分布式 AI Agent 编排日益普及的今天，原有架构中状态碎片化、持久化逻辑冗余、多节点快照冲突等痛点，已成为制约高并发、长时任务稳定运行的关键瓶颈。 AI 应用对长时任务稳定性、状态可观测性…

2026/7/1 11:36:25 阅读更多

CANN Qwen密集模型NPU推理

Qwen Dense Models NPU Inference 【免费下载链接】cann-recipes-infer 本项目针对LLM与多模态模型推理业务中的典型模型、加速算法，提供基于CANN平台的优化样例项目地址: https://gitcode.com/cann/cann-recipes-infer 统一的 Qwen2/Qwen3 Dense&#xff0…

2026/7/1 14:56:03 阅读更多

Ollama本地大模型如何通过MCP协议连接外部工具实现能力扩展

1. 项目概述：一个连接智能世界的桥梁最近在折腾本地大模型，特别是Ollama这个工具，感觉像是给自己电脑装了个私人AI助手，用起来确实方便。但玩久了就发现一个问题：Ollama本身是个“孤岛”，它能把各种开源模型…

2026/7/1 5:36:23 阅读更多

终极指南：5步免费激活Adobe全家桶的完整教程

终极指南：5步免费激活Adobe全家桶的完整教程【免费下载链接】Adobe-GenP Adobe CC 2019/2020/2021/2022/2023 GenP Universal Patch 3.0 项目地址: https://gitcode.com/gh_mirrors/ad/Adobe-GenP Adobe-GenP 3.0是一款强大的Adobe通用破解工具，…

2026/7/2 9:48:03 阅读更多

VMware虚拟机开机黑屏只有光标：20年运维专家亲授7步诊断法（含vSphere/Workstation双平台实测）

更多请点击： https://intelliparadigm.com 第一章：VMware虚拟机开机黑屏只有光标：现象本质与典型场景 VMware虚拟机启动后仅显示闪烁的白色光标（_），无任何图形界面、登录提示或错误信息，是常见…

2026/7/2 9:47:43 阅读更多

Workstation 和 ESXi 到底怎么选？3分钟看懂适用场景、性能瓶颈与成本陷阱（2024企业级实测数据）

更多请点击： https://intelliparadigm.com 第一章：Workstation 与 ESXi 的本质差异：Type-2 vs Type-1 虚拟化架构虚拟化技术的核心分野在于其运行层级——是否直接构建于物理硬件之上。Workstation 是典型的 Type-2（宿主型&…

2026/7/2 9:47:22 阅读更多

3步掌握ImageGlass：Windows图片浏览的终极效率革命

3步掌握ImageGlass：Windows图片浏览的终极效率革命【免费下载链接】ImageGlass 🏞 A fast, open-source, modern image viewer for 90 formats – including WEBP, GIF, SVG, AVIF, JXL, HEIC and more – built for smooth browsing across Windows, m…

2026/7/2 9:47:22 阅读更多

LingBot-Map：前馈式 3D 基础模型，让普通摄像头实时流式重建三维世界｜SSP Github Daily

每日开源 080｜LingBot-Map：前馈式 3D 基础模型，让普通摄像头实时流式重建三维世界 2026-07-01 早间篇 GitHub Trending 今日 189 Stars **免责声明：**本工具依赖境外公开数据源（GitHub、HuggingFace、arXiv 等&…

2026/7/2 9:47:02 阅读更多

许可证闲置识别后为什么仍然回收不动：研发、IT 与部门主管各自卡在哪一步

摘要如果企业在没有完成使用分析的前提下就直接增购，往往会出现预算增加但利用率依旧偏低的情况。本文从高峰并发、模块结构、低效占用和历史趋势四个维度，分析为什么多数企业更适合先优化，再判断是否需要增购。很多企业在推进工业软件许可证…

2026/7/2 9:47:02 阅读更多

Selenium元素定位全解析：从八大方法到实战策略

1. 项目概述：从“找东西”到“精准操控” 做自动化测试，尤其是Web UI自动化，最核心也最让人头疼的一步是什么？不是写复杂的业务逻辑，也不是处理异步加载，而是最基础的—— 让程序找到页面上那个你想操作的…

2026/7/2 0:00:12 阅读更多

移动端UI自动化测试框架Maestro终极指南：从入门到实战

1. 项目概述：为什么是Maestro？ 如果你正在寻找一个能让你快速上手、告别繁琐配置、并且对移动端UI自动化测试真正友好的框架，那么Maestro很可能就是你一直在等的那个答案。我接触过Appium、Espresso、XCUITest，也折腾过各种基于图…

2026/7/2 0:00:12 阅读更多

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

1. 项目概述：从“能用”到“精通”的必经之路如果你正在学习或从事网络安全测试，尤其是Web应用安全评估，那么BurpSuite的Intruder模块绝对是你绕不开的核心工具。而Intruder模块里，功能最强大、也最让人又爱又恨的，莫过…

2026/7/2 0:00:33 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 0:09:58 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/2 1:54:44 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/2 1:54:44 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/2 0:02:27 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/2 0:10:02 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…