CANN Bench ESA Select TopK算子

发布时间：2026/6/12 6:31:53

AiInfraEsaSelectTopk 算子 API 描述【免费下载链接】cann-bench评测AI在处理CANN领域代码任务的能力涵盖算子生成、算子优化等领域支撑模型选型、训练效果评估统一量化评估标准识别Agent能力短板构建CANN领域评测平台推动AI能力在CANN领域的持续演进。项目地址: https://gitcode.com/cann/cann-bench1. 算子简介AiInfraEsaSelectTopk 是 ESAEfficient Sparse Attention索引选择算子用于在长序列 attention 前为每个 query token 选择需要参与计算的 key block。算子将 key 序列划分为 Initial Tokens、Middle Tokens 和 Local Tokens并在压缩后的 key block 上计算相关性输出 top-k block 索引。主要应用场景长上下文 prefill/chunk prefill 中的稀疏 key block 选择decode 场景下对历史 KV cache 的快速 top-k block 检索ESA 稀疏 attention 前置索引生成算子特征难度等级L3SortSelect输入布局为input_layoutTND支持 float16 / bfloat16 输入固定常用 block 语义blk_size64compress_blk_size162. 算子定义数学公式对每个 query token 和 KV head在压缩 key block 上计算相关性分数$$ score(q, B_j) \max_{k \in B_j} q \cdot k $$输出由 Initial block、Local block、Middle top-k block 以及一个边界补充位置组成$$ selected InitialBlocks \cup TopK(MiddleScores) \cup LocalBlocks \cup ExtraBlock $$输出最后一维长度为$$ select_count init_blk_num local_blk_num topk 1 $$步骤说明按actual_seq_q_len_optional将 TND query 切分为 batch/chunk。按actual_seq_k_len_optional获取每个 batch 的原始 key 长度。按actual_cmp_seq_k_len_optional获取压缩后的 key 长度若未传入则由原始 key 长度和compress_blk_size推导。将压缩 key 进一步按blk_size / compress_blk_size个压缩 token 聚合为候选 block。对 Initial block 保留优先级对未来 block 施加 causal 约束。对 Middle block 做 top-k拼接 Initial、Local 和补充 block输出 int32 block 索引无效位置填 -1。3. 接口规范算子原型cann_bench.ai_infra_esa_select_topk( Tensor query, Tensor key, int blk_size64, int init_blk_num2, int local_blk_num4, int topk4, str input_layoutTND, Tensor|list|None actual_seq_q_len_optionalNone, Tensor|list|None actual_seq_k_len_optionalNone, Tensor|list|None actual_cmp_seq_k_len_optionalNone, int compress_blk_size16, ) - Tensor topk_indices输入参数说明参数类型必需或默认值dtypeshape描述queryTensor必选float16 / bfloat16[Tq,Nq,D]Query 输入TND layoutkeyTensor必选float16 / bfloat16[B,Scmp,Nkv,D]压缩后的 Key 输入Scmp为压缩 key token 数blk_sizeint默认64-标量原始 key block 大小init_blk_numint默认2-标量强制保留的开头 block 数local_blk_numint默认4-标量强制保留的局部 block 数topkint默认4-标量Middle block 中选择的 top-k 数input_layoutstr默认TND--输入布局仅支持TNDactual_seq_q_len_optionalTensor/list?默认Noneint32 / int64[B]query 序列长度或 TND 前缀和actual_seq_k_len_optionalTensor/list?默认Noneint32 / int64[B]原始 key 序列长度或前缀和actual_cmp_seq_k_len_optionalTensor/list?默认Noneint32 / int64[B]压缩后 key 长度非累加和通常约为ceil(key_len / compress_blk_size)compress_blk_sizeint默认16-标量每个压缩 key token 对应的原始 token 数输出参数dtypeshape描述topk_indicesint32[Tq,Nkv,init_blk_numlocal_blk_numtopk1]每个 query token、KV head 对应的候选 key block 索引无效位置为 -1规则与约束标准 Golden 只支持input_layoutTND。blk_size应为compress_blk_size的整数倍例如默认配置下64 / 16 4个压缩 token 组成一个 ESA block。actual_cmp_seq_k_len_optional表示压缩后的 K 长度不是原始 token 长度且按每个 batch 的长度传入而非前缀和。decode 场景每个 batch 的 query length 通常为 1prefill/chunk prefill 支持一个 chunk 内多个 query token。当 key 长度小于需要选择的 block 覆盖范围时输出会按 causal 阈值将未来 block 置为 -1。4. 精度要求本算子输出为离散 int32 索引验证时应逐元素比较输出索引是否一致。通过标准输出判定方式topk_indices与 golden 逐元素一致允许无效位置均为 -15. 标准 Golden 代码标准 Golden 参考实现位于同目录golden.py的ai_infra_esa_select_topk函数使用 Torch 模拟 ESA 压缩 key block 选择、causal 约束和 top-k 索引生成。6. 额外信息算子调用示例import torch import cann_bench tq, b, scmp, nq, nkv, d 1024, 1, 512, 32, 2, 128 query torch.randn(tq, nq, d, dtypetorch.float16, devicenpu) key torch.randn(b, scmp, nkv, d, dtypetorch.float16, devicenpu) indices cann_bench.ai_infra_esa_select_topk( query, key, blk_size64, init_blk_num2, local_blk_num4, topk4, input_layoutTND, actual_seq_q_len_optional[tq], actual_seq_k_len_optional[8192], actual_cmp_seq_k_len_optional[512], compress_blk_size16, )【免费下载链接】cann-bench评测AI在处理CANN领域代码任务的能力涵盖算子生成、算子优化等领域支撑模型选型、训练效果评估统一量化评估标准识别Agent能力短板构建CANN领域评测平台推动AI能力在CANN领域的持续演进。项目地址: https://gitcode.com/cann/cann-bench创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

MATLAB光学设计辅助工具包：光路建模、像差分解与成像性能可视化

本文还有配套的精品资源，点击获取简介：提供一整套可直接运行的MATLAB脚本，用于光学系统的基础建模与性能分析。支持近轴光学参数计算（如有效焦距EFL、后焦距BFL、垂轴放大率）、光线追迹（含反射面trace_…

2026/6/12 6:29:51 阅读更多

Matlab线性方程组求解工具包：四种高斯消元策略实现与自动对比

本文还有配套的精品资源，点击获取简介：一套开箱即用的Matlab线性方程组求解工具，内置基础高斯消去、列主元、全主元和加权平衡四种实现方式，对应文件分别为gasuss.m、gasuss_colmax.m、gasuss_allmax.m和gasuss_weightmax.m。…

2026/6/12 6:29:11 阅读更多

纯Java写的超市收银小工具：商品管理+用户登录+购物车结算，数据存本地文本

本文还有配套的精品资源，点击获取简介：一个不依赖数据库和第三方框架的Java超市收银程序，所有功能用JDK原生API实现。商品信息、用户账号、订单记录都通过ArrayList等集合类组织，数据以明文文本格式保存在本地文件中&#xff…

2026/6/12 6:26:28 阅读更多

终极指南：如何在Kodi中实现115网盘视频流式播放的完整方案

终极指南：如何在Kodi中实现115网盘视频流式播放的完整方案【免费下载链接】115proxy-for-kodi 115原码播放服务Kodi插件项目地址: https://gitcode.com/gh_mirrors/11/115proxy-for-kodi 想要在Kodi媒体中心直接流畅播放115网盘中的视频资源吗？…

2026/6/12 8:07:02 阅读更多

3步搭建私有知识库：AnythingLLM本地部署与性能优化实战

3步搭建私有知识库：AnythingLLM本地部署与性能优化实战【免费下载链接】anything-llm Stop renting your intelligence. Own it with AnythingLLM. Everything you need for a powerful local-first agent experience 项目地址: https://gitcode.com/GitHub_Tre…

2026/6/12 8:06:01 阅读更多

深度解析MMD Tools架构设计：Blender与MMD工作流融合的5大核心技术实现原理

深度解析MMD Tools架构设计：Blender与MMD工作流融合的5大核心技术实现原理【免费下载链接】blender_mmd_tools MMD Tools is a blender addon for importing/exporting Models and Motions of MikuMikuDance. 项目地址: https://gitcode.com/gh_mirrors/bl/blend…

2026/6/12 8:04:00 阅读更多

Docker本质：软件交付的标准化集装箱

1. 项目概述：当软件交付变成“集装箱运输”“DOCKER — Shipping Containers to the Innovative World!!”这个标题不是修辞，而是一次精准的类比——它把 Docker 的本质，用全球物流体系中最成功、最被验证的标准化范式讲清楚了。我第一次在20…

2026/6/12 8:02:58 阅读更多

心衰越治越重、频繁复发？精准诊疗给患者新生希望

在合肥高心医院门诊，很多心衰患者存在这样的困惑：常年规范吃药，病情依旧持续加重，住院次数越来越多，身体状态越来越差。很多人误以为是病情自然发展，实则大多是治疗未分型、方案不精准导致的治疗无效。针对…

2026/6/12 8:01:57 阅读更多

掌握智能定位技术：开源项目的实战应用手册

掌握智能定位技术：开源项目的实战应用手册【免费下载链接】location-to-phone-number This a project to search a location of a specified phone number, and locate the map to the phone number location. 项目地址: https://gitcode.com/gh_mirrors/lo/loca…

2026/6/12 8:00:16 阅读更多

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南

3分钟搞定微信QQ消息防撤回：免费开源补丁终极指南【免费下载链接】RevokeMsgPatcher :trollface: A hex editor for WeChat/QQ/TIM - PC版微信/QQ/TIM防撤回补丁（我已经看到了，撤回也没用了） 项目地址: https://gitcode.com/Gi…

2026/6/12 0:02:19 阅读更多

从零构建云边协同平台：KubeEdge边缘计算框架完全指南

从零构建云边协同平台：KubeEdge边缘计算框架完全指南【免费下载链接】kubeedge Kubernetes Native Edge Computing Framework (project under CNCF) 项目地址: https://gitcode.com/GitHub_Trending/ku/kubeedge 在数字化转型浪潮中，边缘计算正成…

2026/6/12 0:02:19 阅读更多

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案

BetterJoy完全指南：解决Switch控制器在PC上的终极兼容方案【免费下载链接】BetterJoy Allows the Nintendo Switch Pro Controller, Joycons and SNES controller to be used with CEMU, Citra, Dolphin, Yuzu and as generic XInput 项目地址: https://gitcode.…

2026/6/12 0:02:40 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/12 1:13:40 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/12 1:13:42 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/12 1:13:40 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/11 9:57:14 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/11 9:57:16 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…