DeepSeek总结的postgresql 数据分析师 vs width_bucket()

发布时间：2026/5/21 20:06:43

来源https://kmoppel.github.io/2026-05-21-data-analyst-vs-width-bucket/postgresql 数据分析师 vs width_bucket()发表于2026年5月21日在帮助一位头衔为“数据分析师”的朋友解决了一些轻量级的 Postgres “分桶”bucketing难题之后——考虑到这并非多年来该领域第一次出现这种情况我想着也为未来的谷歌搜索者/LLM 用户们提供一些帮助因为我见过太多针对这个相对基础的任务即以一种简单且易于理解的视觉表示来理解数值列的数据分布所采用的奇怪且低效的解决方案。变通方法想想这样的做法将整列数据导出到一个文本文件然后加载到 Jupyter notebook 的 dataframe 中同时祈祷一切能适应内存且不会崩溃……基本上需要的是快速的 SQL 来生成一个漂亮、可读的“直方图”类型的表示要求如下快速即完全在数据库内部运行并最小化重复/重扫视觉上易懂没有不需要的额外桶除了桶计数外数值范围也应可见“默认”分桶的问题默认的width_bucket()实现有什么问题简而言之——对于运行时计算的 min/max它会产生一个包含一个值的额外桶行关于此可参阅此处 Postgres 源代码的注释和理由在实践中这对于数据整理者来说似乎是多余/令人困惑的……当然可以通过一点额外的 SQL 来解决这个问题……就像 SQL 一贯的情况一样正如我在下面的实现中所做的那样。但另一方面还缺少视觉表示和值范围指示……为了视觉指示默认用法看起来像这样[此处假设有图片默认 width_bucket 用法]顺便说一句如果使用带有数组输入的第二种width_bucket()形式额外的桶问题会自动消失。然而这种路径在网上似乎并不那么流行——可能是因为它会导致更长的 SQL……出于好玩我自己也亲身体验了一下因此为了解决这些问题请在下面找到一个改进版的width_bucket()可能还可以进一步简化它基于始终有用的 “pgbench” 模式并在第一个 CTE 中设置了易于配置的桶数和最大“条形图”宽度。用于简单等分块和快速分桶的 SQLWITHq_bucketsAS(SELECT10ASbuckets,100ASmax_bar_width,■ASbar_char),q_boundsAS(SELECTmin(abalance)ASmin_val,max(abalance)1ASmax_val-- 为了避免额外的桶FROMpgbench_accounts),q_bucketedAS(SELECTwidth_bucket(abalance,(selectmin_valfromq_bounds),(selectmax_valfromq_bounds),(selectbucketsfromq_buckets))ASbucket,count(*)ASbucket_items,min(abalance)ASbucket_min,max(abalance)ASbucket_maxFROMpgbench_accountsGROUPBY1ORDERBY1),q_bucketed_range_correctedAS(SELECTbucket,bucket_items,-- case when 用于恢复正确的最后一个桶的上限值int4range(bucket_min,casewhenbucket(selectbucketsfromq_buckets)thenbucket_max-1elsebucket_maxend,[])asrangeFROMq_bucketed)SELECTbucket,range,bucket_items,repeat((SELECTbar_charFROMq_buckets),(bucket_items::numeric/(SELECTmax(bucket_items)FROMq_bucketed)*(SELECTmax_bar_widthFROMq_buckets))::int)AScount_as_barFROMq_bucketed_range_corrected;执行后会产生类似这样的结果[此处假设有图片改进后的 width_bucket 直方图]更好的未来顺便说一下这个问题空间对其他人来说似乎也并非未知一些 Postgres 博客以前也提到过例如这里和这里早在 2014 年所以也许确实有些事情本应更容易但实际并非如此。请注意后者提供了一个非常简洁的短 SQL但它再次带来了这个烦人的“低于下限”的额外桶问题。因此从这个例子中可能可以得出的另一个结论是如果 Postgres 能为一些典型的即席/探索性数据探查任务提供更多便利函数那将是非常好的至少对数据分析师/科学家来说这似乎是目前的一个弱点。嗯至少与一些较新的数据库如 DuckDB 和 Clickhouse 相比是这样这些数据库在诸如直方图、统计分析/汇总以及廉价的内置近似“top-k”和“approx_count_distinct”类型函数估计等主题上有更多便利函数可用而 Postgres 通常需要第三方扩展这些扩展在大多数托管服务提供商上又不可用或一些更复杂的技巧如触发器。PS - LLM在以正确的方式提问并进行一点纠正后似乎也能够生成类似于上面的 SQL——但根据我的测试它们的实现速度大约慢 3 倍Claude到 10 倍ChatGPT原因是未知的所以要小心……PS2 还有——它们太轻率地推荐重新利用内部pg_stats.most_common_freqs数据——但再次提醒要小心因为此路径仅在你感兴趣的列没有最常见的值或者它们非常分散时才应使用但确实——在某些情况下它可能有用并且人们可以相对容易地将内置直方图顺便说一句在大型表上使用默认的“统计目标”设置时它可能非常不具有代表性转换为视觉上更易理解的东西……我想只有在统计目标接近默认值 100 时才能实现这一点。像往常一样免费的午餐可没那么容易 SELECTord,valFROMpg_stats,LATERAL unnest(histogram_bounds::text::int[])WITHORDINALITYASt(val,ord)WHEREattnameabalance;希望有一天能对某人有所帮助标签:postgres sql analytics data science

仅限内测通道！ElevenLabs越南语Beta版“Northern Tone Pack”提前解锁指南（附邀请码申请暗号）

更多请点击： https://intelliparadigm.com 第一章：仅限内测通道！ElevenLabs越南语Beta版“Northern Tone Pack”提前解锁指南（附邀请码申请暗号） ElevenLabs 正式开放越南语语音合成 Beta 测试通道，首批面…

2026/5/21 20:06:43 阅读更多

DeepSeek总结的PostgreSQL 表访问方法

来源：https://thebuild.com/blog/2026/05/20/table-access-methods-wake-up/ PostgreSQL 表访问方法，醒醒吧作者: Christophe Pettus 日期: 2026-05-20 表访问方法 API 自 PostgreSQL 12 版本开始就存在了。在它存在的大部分时间里，它一直是…

2026/5/21 20:06:43 阅读更多

【c++面向对象编程】第40篇：单例模式（Singleton）的多种C++实现

目录一、单例模式是什么？ 二、饿汉式（Eager Initialization） 三、懒汉式（Lazy Initialization） 版本1：基础版（线程不安全） 版本2：加锁版（线程安全但性能…

2026/5/21 20:06:03 阅读更多

STM32F103C8T6最小系统板避坑指南：从ST-LINK连接到Keil5乱码，新手常踩的5个坑

STM32F103C8T6最小系统板避坑指南：新手必知的5个实战陷阱第一次点亮STM32开发板的瞬间，那种成就感就像小时候拼好第一套乐高。但在这之前，你可能已经经历了无数次"为什么连不上？"的绝望时刻。作为嵌入式开发的入门神器…

2026/5/21 20:50:47 阅读更多

5月19日起Railway服务中断，竟是谷歌云封锁账户惹的祸！

Railway服务中断：5月19日晚的突发危机协调世界时5月19日22:29，Railway开始调查一起影响其服务的大规模中断事件。用户遇到了“无健康上游”“无条件丢弃过载”、登录失败以及无法访问仪表盘等错误。在后续的几个小时内，事件逐步发展。5月19日…

2026/5/21 20:50:07 阅读更多

Codex 完整下载、安装、验证码验证、配置流程（2026.5.20）

OpenAI Codex 完整下载、安装、验证码、配置流程 Codex 分为桌面App、CLI命令行、VSCode插件、网页版4种形态，下面全流程保姆式讲解，含避坑要点。一、下载&安装（3种方式，任选其一） 方式1：桌面App安装&…

2026/5/21 20:49:26 阅读更多

观察taotoken多模型路由在不同负载下的响应表现

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度观察taotoken多模型路由在不同负载下的响应表现效果展示类，本文记录在模拟不同并发请求压力下，使用taotok…

2026/5/21 20:48:46 阅读更多

Profinet 转一路Modbus 网关如何应用？

一、适用工业场景SG-PNh750-MOD-221 是工业级 Profinet 从站转 Modbus 协议网关，用于将 RS232/RS485 接口的 Modbus 设备接入 Profinet 总线。适用于工厂自动化、产线设备联网、仪表集中采集、变频器 / 仪表 / 传感器接入、老旧设备升级、PLC 与串口设备互通等场景&…

2026/5/21 20:48:46 阅读更多

智慧树自动刷课插件：三步实现在线学习效率倍增的终极方案

智慧树自动刷课插件：三步实现在线学习效率倍增的终极方案【免费下载链接】zhihuishu 智慧树刷课插件，自动播放下一集、1.5倍速度、无声项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台繁琐的视频操作而困扰吗&#xf…

2026/5/21 20:48:26 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/21 8:30:37 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/21 5:00:59 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/21 1:50:14 阅读更多

相关文章