COUNT进阶：超大表的近似计数与HyperLogLog

发布时间：2026/5/20 19:34:46

关键词COUNTHyperLogLog近似计数基数估算大数据摘要当表数据量达到千万甚至亿级时精确的COUNT(DISTINCT col)往往非常缓慢。本文介绍一种概率性算法——HyperLogLog它可以在极小的内存开销下估算唯一值的数量误差控制在2%以内。结合Redis、PostgreSQL等实现方式帮助数据分析师在超大表场景下快速获得近似统计结果。大家好我是小耶写功课只是为了我踩过的坑你们别再踩了上周讲了COUNT(*)优化今天聊一个更进阶的话题当我们需要统计唯一值数量如UV、独立用户数时传统的COUNT(DISTINCT col)在超大表下非常慢。这时可以用近似计数。1 名词解释HyperLogLog一种概率性算法用极小内存估算集合中唯一值的数量误差通常在2%以内。基数Cardinality集合中不重复元素的个数如UV、独立用户数。近似计数牺牲少量精度换取极致性能适合对精确度不敏感的场景。2 实际运用2.1 传统COUNT(DISTINCT)的问题SELECT COUNT(DISTINCT user_id) FROM orders;在千万级表中这个查询需要创建临时表去重内存不足会写磁盘耗时可能几十秒甚至分钟级。2.2 HyperLogLog 实现RedisPFADD daily_uv user123PFCOUNT daily_uv获取估算值。PostgreSQLCREATE EXTENSION hll;然后使用hll_add_agg等函数。金仓数据库兼容PostgreSQL的hll扩展用法相同。MySQL没有内置可以通过存储过程模拟或调用Redis。2.3 实战示例Redisbash# 添加用户ID PFADD uv_20260519 user123 user456 user789 # 获取估算UV数 PFCOUNT uv_202605192.4 适用场景适用运营大屏、趋势分析、预估报告对精确度不敏感允许1-3%误差。不适用财务结算、精准营销券发放等需要精确计数的场景。3 实测对比1000万UV方法耗时内存占用COUNT(DISTINCT user_id)25秒临时表巨大Redis HyperLogLog2毫秒12KB4 价值总结千万级COUNT(DISTINCT)可能耗时数十秒而HyperLogLog可将时间压缩到毫秒级内存占用仅KB级别。学会近似计数你就能在业务指标监控、用户行为分析等场景中用极低成本获取趋势数据避免数据库被压垮。如果业务可以接受2%左右的误差HyperLogLog是替代精确去重的绝佳方案。小耶在手SQL不愁。还有什么想了解的欢迎留言小耶一定知无不言言无不尽……我们下次见~参考文献[1] Redis官方文档HyperLogLog[2] PostgreSQL HLL扩展文档[3] 《高性能MySQL》第4版第7章“查询优化”

别再为UE5 VR交互头疼了！用这个50块的插件，手把手教你搞定HTC Vive物体抓取与漫游

别再为UE5 VR交互头疼了！用这个50块的插件，手把手教你搞定HTC Vive物体抓取与漫游 VR开发中最让人抓狂的瞬间，莫过于看着自己精心设计的虚拟物体在玩家手中像抹了油一样滑落，或是角色莫名其妙穿墙而出。如果你正在用Unreal Engine…

2026/5/20 19:34:46 阅读更多

Granite命令缓冲区与多线程优化策略：提升Vulkan渲染性能的终极指南

Granite命令缓冲区与多线程优化策略：提升Vulkan渲染性能的终极指南【免费下载链接】Granite My personal Vulkan renderer 项目地址: https://gitcode.com/gh_mirrors/gr/Granite Granite是一个高性能的Vulkan渲染器项目，其核心优势在于命令缓冲…

2026/5/20 19:34:26 阅读更多

手把手教你用ArkTS写个鸿蒙小工具：从变量声明到函数封装的全流程实战

鸿蒙ArkTS实战：从零构建单位转换器的全流程开发指南在移动应用开发领域，鸿蒙系统的崛起为开发者带来了全新的机遇。ArkTS作为鸿蒙生态的主力开发语言，融合了TypeScript的灵活性与静态类型检查的优势。本文将带您通过构建一个实用的单位转换器…

2026/5/20 19:34:26 阅读更多

C#方法的定义与调用，方法的参数传递

方法的定义与调用模块1：方法核心概念（原注释逐句拆解，必懂）核心前提：// 都是在Program里面去定义和调用（重点）说明：当前所有方法的定义（Test、Test2）和调用&a…

2026/5/20 20:36:45 阅读更多

软件测试中的数据安全：如何保护测试数据的隐私

在数字化浪潮席卷全球的当下，软件应用深度融入企业运营与个人生活的方方面面，数据作为核心资产的价值愈发凸显。软件测试作为保障软件质量的关键环节，不可避免地会接触到大量敏感数据，这些数据涵盖用户个人信息、企业商业机密等诸…

2026/5/20 20:36:45 阅读更多

2026年主流AI语音转写工具大横评，多场景准确率实测对比，黑马突围差距竟然这么大

作为一个每月要跟进十几场面试、4次部门OKR面谈的HR，我试过不下五款主流AI语音转写工具，踩过不少坑，对比下来，听脑AI是综合体验最好的，也是我现在每天都在用的工具。之前校招季一天连面8个候选人，整理录音要…

2026/5/20 20:36:24 阅读更多

GM(1,1)灰色预测：从小样本数据中挖掘未来趋势

1. GM(1,1)灰色预测模型入门指南第一次听到"GM(1,1)灰色预测"这个名词时，很多人都会觉得有点神秘。其实拆开来看很简单：G代表Grey（灰色），M代表Model（模型），(1,1)表示这是…

2026/5/20 20:36:04 阅读更多

Android Studio中文插件终极指南：3分钟实现完整汉化体验

Android Studio中文插件终极指南：3分钟实现完整汉化体验【免费下载链接】AndroidStudioChineseLanguagePack AndroidStudio中文插件(官方修改版本） 项目地址: https://gitcode.com/gh_mirrors/an/AndroidStudioChineseLanguagePack 还在为Androi…

2026/5/20 20:35:20 阅读更多

钉钉知识库日志迁移至Cursor的实践方法和具体操作步骤

一、钉钉知识库导出方法方法1：手动导出（适合文档数量较少）操作步骤：电脑端钉钉 → 左下角【更多】→【文档】→【知识库】进入目标知识库，打开需要迁移的文档点击页面左上角【文档】→【下载为】选择导出格式：Word (.docx)、PDF 或长图文件默认以当前文档…

2026/5/20 20:35:19 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/20 5:14:40 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/20 16:14:50 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/20 5:46:58 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章