从啤酒尿布到机器学习：用Python实战关联规则，5分钟看懂Apriori算法核心

发布时间：2026/6/2 1:44:46

从啤酒尿布到机器学习用Python实战关联规则5分钟看懂Apriori算法核心超市货架上啤酒和尿布的经典组合背后隐藏着数据挖掘领域最著名的商业案例之一。这种通过分析消费者购买行为来发现商品间隐藏关联的技术正是关联规则挖掘的核心应用。本文将带你从零开始用Python实现Apriori算法揭开啤酒与尿布现象背后的数学原理。1. 关联规则挖掘的商业智慧1990年代沃尔玛的分析师发现了一个有趣现象周五晚上年轻父亲们经常在购买尿布的同时顺手拿上几罐啤酒。这个发现催生了零售业经典的啤酒尿布促销策略也成为关联规则挖掘最成功的商业案例。关联规则挖掘要解决的核心问题是如何从海量交易数据中发现商品之间的潜在联系这需要两个关键指标支持度(Support): 规则X→Y在所有交易中出现的频率置信度(Confidence): 包含X的交易中也包含Y的条件概率用数学表达式表示支持度(X→Y) P(X∩Y) 置信度(X→Y) P(Y|X) P(X∩Y)/P(X)2. Apriori算法原理拆解Apriori算法是关联规则挖掘的经典方法其核心思想基于一个简单先验知识频繁项集的所有子集也必须是频繁的。这个性质被称为Apriori性质它大幅减少了需要计算的项集组合。算法主要分为两个阶段频繁项集生成找出所有满足最小支持度的商品组合规则生成从频繁项集中提取高置信度的关联规则2.1 频繁项集生成过程让我们用Python代码演示如何生成频繁项集from itertools import combinations def generate_frequent_itemsets(transactions, min_support): items set(item for transaction in transactions for item in transaction) itemsets [frozenset([item]) for item in items] frequent_itemsets [] k 1 while itemsets: # 计算候选项集支持度 candidate_counts {} for transaction in transactions: for itemset in itemsets: if itemset.issubset(transaction): candidate_counts[itemset] candidate_counts.get(itemset, 0) 1 # 筛选满足最小支持度的项集 frequent_k_itemsets [] num_transactions len(transactions) for itemset, count in candidate_counts.items(): support count / num_transactions if support min_support: frequent_k_itemsets.append(itemset) frequent_itemsets.extend(frequent_k_itemsets) # 生成下一轮候选项集 itemsets set() for i in range(len(frequent_k_itemsets)): for j in range(i1, len(frequent_k_itemsets)): new_itemset frequent_k_itemsets[i].union(frequent_k_itemsets[j]) if len(new_itemset) k 1: itemsets.add(new_itemset) itemsets list(itemsets) k 1 return frequent_itemsets2.2 关联规则提取获得频繁项集后我们可以从中提取关联规则def generate_rules(frequent_itemsets, transactions, min_confidence): rules [] for itemset in frequent_itemsets: if len(itemset) 2: continue subsets [] for i in range(1, len(itemset)): subsets.extend(combinations(itemset, i)) for antecedent in subsets: antecedent frozenset(antecedent) consequent itemset - antecedent # 计算支持度和置信度 antecedent_count sum(1 for t in transactions if antecedent.issubset(t)) rule_support sum(1 for t in transactions if itemset.issubset(t)) / len(transactions) if antecedent_count 0: confidence rule_support / (antecedent_count / len(transactions)) if confidence min_confidence: rules.append((antecedent, consequent, rule_support, confidence)) return rules3. 实战超市购物篮分析让我们用一个实际数据集演示完整的关联规则挖掘流程。假设我们有以下交易数据交易ID商品1牛奶,面包,尿布2可乐,面包,尿布3牛奶,尿布,啤酒4面包,牛奶,尿布,啤酒5面包,牛奶,尿布首先我们需要将数据转换为适合处理的格式transactions [ {牛奶, 面包, 尿布}, {可乐, 面包, 尿布}, {牛奶, 尿布, 啤酒}, {面包, 牛奶, 尿布, 啤酒}, {面包, 牛奶, 尿布} ]然后应用Apriori算法# 设置最小支持度为40%最小置信度为70% min_support 0.4 min_confidence 0.7 # 生成频繁项集 frequent_itemsets generate_frequent_itemsets(transactions, min_support) # 生成关联规则 rules generate_rules(frequent_itemsets, transactions, min_confidence) # 按置信度排序 rules.sort(keylambda x: x[3], reverseTrue) # 输出前5条规则 for i, (antecedent, consequent, support, confidence) in enumerate(rules[:5]): print(f规则 {i1}: {antecedent} → {consequent}) print(f支持度: {support:.2f}, 置信度: {confidence:.2f}) print()执行结果可能如下规则 1: {尿布} → {牛奶} 支持度: 0.80, 置信度: 1.00 规则 2: {牛奶} → {尿布} 支持度: 0.80, 置信度: 1.00 规则 3: {面包} → {尿布} 支持度: 0.80, 置信度: 1.00 规则 4: {尿布, 面包} → {牛奶} 支持度: 0.60, 置信度: 1.00 规则 5: {牛奶, 面包} → {尿布} 支持度: 0.60, 置信度: 1.004. 算法优化与扩展应用基础Apriori算法虽然直观但在处理大规模数据时效率较低。以下是几种常见的优化方法FP-Growth算法使用频繁模式树(FP-tree)结构避免生成候选项集垂直数据格式记录每个项集出现在哪些交易中加速支持度计算并行计算利用MapReduce等框架分布式处理大规模数据关联规则挖掘的应用远不止零售行业医疗领域发现疾病与症状、药物之间的关联网络安全识别异常行为模式推荐系统基于用户行为推荐相关内容提示在实际应用中除了支持度和置信度还可以考虑提升度(Lift)等指标来评估规则质量。提升度衡量规则中项集的相关性计算公式为Lift(X→Y) P(Y|X)/P(Y)

LLM驱动CUDA内核自动化优化框架解析

1. 项目概述：LLM驱动的CUDA内核自动化优化框架在深度学习与高性能计算领域，编写高效的CUDA内核一直是极具挑战性的任务。传统的手工优化需要开发者同时精通算法设计、GPU硬件架构和并行编程技巧，这种复合型人才在业界极为稀缺。我们团队开发的…

2026/6/2 1:44:26 阅读更多

Windows热键冲突终结者：OpenArk一键管理全攻略

Windows热键冲突终结者：OpenArk一键管理全攻略【免费下载链接】OpenArk The Next Generation of Anti-Rookit(ARK) tool for Windows. 项目地址: https://gitcode.com/GitHub_Trending/op/OpenArk 你是否曾经遇到过按下CtrlC却无法复制，或者精心…

2026/6/2 1:43:25 阅读更多

别再只会用ln -sf了！Linux软链接冲突的三种处理姿势与最佳实践

Linux软链接冲突处理：超越-f的进阶解决方案当你在终端敲下ln -s命令时，屏幕上突然跳出File exists的红色警告——这种场景对Linux系统管理员来说再熟悉不过了。大多数人的第一反应是加上-f参数强制覆盖，但这种简单粗暴的做法可能隐藏着潜在风…

2026/6/2 1:43:25 阅读更多

C#写的水准测量快速平差小工具，带闭合差分配和精度分析

本文还有配套的精品资源，点击获取简介：一款轻量级Windows桌面程序，用C#和WinForms开发，专为水准网数据做近似平差计算。支持从文本或表格导入观测高差、起点高程、测段信息，自动识别水准路线闭合形式，完…

2026/6/2 6:18:59 阅读更多

【多模态实战系列·第 03 篇】LLaVA：视觉指令微调·多模态对话·视觉 LLM——多模态的“ChatGPT 时刻“

【多模态实战系列第 03 篇】LLaVA：视觉指令微调多模态对话视觉 LLM——多模态的"ChatGPT 时刻" 系列回顾：第 01 篇 CLIP 定义了图文对齐的基本范式，第 02 篇 BLIP-2 用 Q-Former 高效桥接视觉与语言。但 BLIP-2 有一个根本局限&…

2026/6/2 6:18:59 阅读更多

别再死记硬背公式了！用Python+TI AWR1843毫米波雷达，手把手带你仿真FMCW信号处理全流程

用PythonTI毫米波雷达实战：零基础实现FMCW信号处理全流程可视化毫米波雷达技术正在彻底改变自动驾驶、工业检测和智能家居领域。但许多初学者面对FMCW（调频连续波）雷达复杂的数学公式时，往往会陷入理论推导的泥潭而失去学习兴趣。…

2026/6/2 6:18:18 阅读更多

【长沙招聘・萨卡班科技】Linux 内核 / C++ 开发工程师

一、招聘岗位岗位 1：C 开发工程师岗位职责负责高性能系统软件的设计、开发与优化，搭建高可靠软件通信与执行管理平台。参与实时任务调度、进程间通信、资源管理等核心模块研发。配合内核团队完成系统实时性保障与性能调优工作。跟踪行业前沿技术&#xf…

2026/6/2 6:18:18 阅读更多

手把手教你：如何将HAL库项目从STM32F103RCT6无缝迁移到C8T6（附源码下载）

从STM32F103RCT6到C8T6的HAL库项目迁移实战指南在嵌入式开发中，硬件选型变更或成本优化常常需要将现有项目迁移到不同型号的MCU上。本文将详细介绍如何将一个基于HAL库的STM32项目从F103RCT6（大容量型号）无缝迁移到F103C8T6（小容…

2026/6/2 6:18:18 阅读更多

Viking AI 搜索 CLI 正式发布：会说话，就能做搜索推荐

无论是搜索、推荐还是问答，把企业的数据资产变成可检索、可调用的智能服务，往往意味着一条漫长且高门槛的链路 —— 数据清洗、Embedding 选型、索引构建、策略配置、效果调优…… 每一个环节都离不开工程投入和算法经验。 Viking AI 搜索 CLI &#x…

2026/6/2 6:16:17 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

LLM驱动CUDA内核自动化优化框架解析

Windows热键冲突终结者：OpenArk一键管理全攻略

别再只会用ln -sf了！Linux软链接冲突的三种处理姿势与最佳实践

C#写的水准测量快速平差小工具，带闭合差分配和精度分析

【多模态实战系列·第 03 篇】LLaVA：视觉指令微调·多模态对话·视觉 LLM——多模态的“ChatGPT 时刻“

别再死记硬背公式了！用Python+TI AWR1843毫米波雷达，手把手带你仿真FMCW信号处理全流程

【长沙招聘・萨卡班科技】Linux 内核 / C++ 开发工程师

手把手教你：如何将HAL库项目从STM32F103RCT6无缝迁移到C8T6（附源码下载）

Viking AI 搜索 CLI 正式发布：会说话，就能做搜索推荐

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因