别再死记硬背Apriori了！用Python手撸FP-Growth算法，搞定购物篮分析（附完整代码）

发布时间：2026/5/21 17:05:58

FP-Growth算法实战从原理到Python实现的高效购物篮分析在数据挖掘领域关联规则学习是一项关键技术它能够从海量交易数据中发现商品之间的有趣关联。传统Apriori算法虽然直观易懂但其产生-测试的范式在面对大规模数据集时往往效率低下。本文将深入探讨一种更为高效的替代方案——FP-Growth算法通过Python实现带你领略其独特魅力。1. 为什么选择FP-Growth而非Apriori在购物篮分析场景中我们经常需要处理包含数百万条交易记录的数据集。Apriori算法的主要瓶颈在于多次扫描数据库每生成一层候选项集都需要完整扫描一次数据集候选项集爆炸当频繁1-项集数量为n时可能产生2^n-1个候选项集内存消耗大需要存储大量中间结果的支持度计数FP-Growth算法通过两种关键技术解决了这些问题FP树Frequent Pattern Tree一种高度压缩的数据结构仅需两次数据库扫描分治策略将挖掘任务分解为多个更小的子问题避免候选项集生成性能对比实验数据算法特性AprioriFP-Growth扫描数据库次数O(k)2候选项集生成需要不需要内存效率低高时间复杂度高低2. FP树构建的核心步骤FP-Growth算法的第一步是构建FP树这需要两个关键操作2.1 头表构建头表Header Table是FP树的导航结构包含所有频繁项及其支持度计数。构建过程如下def build_header_table(dataset, min_support): item_counts {} # 第一次扫描统计项频次 for transaction in dataset: for item in transaction: item_counts[item] item_counts.get(item, 0) 1 # 过滤非频繁项并按支持度降序排序 header_table {k:v for k,v in item_counts.items() if v min_support} frequent_items set(header_table.keys()) sorted_items sorted(header_table.items(), keylambda x: x[1], reverseTrue) # 添加节点链接指针 header_table {k:[v, None] for k,v in header_table.items()} return header_table, frequent_items2.2 FP树生长FP树的生长过程遵循以下规则按头表顺序处理每个事务从根节点开始共享共同前缀路径为不共享的项创建新分支class FPTreeNode: def __init__(self, name, count, parent): self.name name self.count count self.parent parent self.children {} self.link None # 用于连接相同项节点 def update_tree(items, node, header_table): if items[0] in node.children: # 已有子节点增加计数 node.children[items[0]].count 1 else: # 创建新节点 node.children[items[0]] FPTreeNode(items[0], 1, node) # 更新头表链接 if header_table[items[0]][1] is None: header_table[items[0]][1] node.children[items[0]] else: update_header(header_table[items[0]][1], node.children[items[0]]) # 递归处理剩余项 if len(items) 1: update_tree(items[1:], node.children[items[0]], header_table) def update_header(node, target_node): while node.link is not None: node node.link node.link target_node3. 从FP树挖掘频繁项集FP-Growth采用分治策略挖掘频繁项集核心步骤包括3.1 条件模式基提取对于每个频繁项收集其在FP树中的所有前缀路径def find_prefix_path(base_pat, header_table): # 通过头表指针找到所有base_pat节点 tree_node header_table[base_pat][1] cond_pats {} while tree_node is not None: prefix_path [] ascend_tree(tree_node, prefix_path) if len(prefix_path) 1: cond_pats[frozenset(prefix_path[1:])] tree_node.count tree_node tree_node.link return cond_pats def ascend_tree(node, prefix_path): if node.parent is not None: prefix_path.append(node.parent.name) ascend_tree(node.parent, prefix_path)3.2 条件FP树构建基于条件模式基构建新的FP树递归挖掘频繁项集def mine_fp_tree(header_table, min_support, prefix, freq_items): # 按支持度升序处理各项 sorted_items [v[0] for v in sorted(header_table.items(), keylambda p: p[1][0])] for item in sorted_items: new_freq_set prefix.copy() new_freq_set.add(item) freq_items.append(new_freq_set) # 获取条件模式基 cond_patt_bases find_prefix_path(item, header_table) # 构建条件FP树 cond_tree, cond_header build_cond_fptree(cond_patt_bases, min_support) if cond_header is not None: mine_fp_tree(cond_header, min_support, new_freq_set, freq_items) def build_cond_fptree(cond_patt_bases, min_support): # 将条件模式基转换为数据集 dataset [] for itemset in cond_patt_bases: for _ in range(cond_patt_bases[itemset]): dataset.append(list(itemset)) # 构建FP树 return build_fp_tree(dataset, min_support)4. 完整Python实现与电商应用示例下面是一个完整的FP-Growth实现应用于模拟电商交易数据class FPGrowth: def __init__(self, min_support0.1): self.min_support min_support def fit(self, dataset): # 第一次扫描构建头表 header_table, freq_items build_header_table(dataset, self.min_support) # 第二次扫描构建FP树 root FPTreeNode(Null, 1, None) for trans in dataset: # 过滤非频繁项并排序 filtered [item for item in trans if item in freq_items] if len(filtered) 0: ordered sorted(filtered, keylambda x: header_table[x][0], reverseTrue) update_tree(ordered, root, header_table) # 挖掘频繁项集 freq_itemsets [] mine_fp_tree(header_table, self.min_support, set(), freq_itemsets) return freq_itemsets # 示例电商购物篮分析 transactions [ [牛奶, 面包, 啤酒], [牛奶, 尿布, 啤酒, 鸡蛋], [面包, 尿布, 啤酒, 可乐], [牛奶, 面包, 尿布, 啤酒], [牛奶, 面包, 尿布, 可乐] ] fp_growth FPGrowth(min_support3) frequent_itemsets fp_growth.fit(transactions) print(频繁项集发现结果) for itemset in frequent_itemsets: print(itemset)输出示例{啤酒} {尿布} {面包} {牛奶} {啤酒, 尿布} {面包, 啤酒} {牛奶, 啤酒} {面包, 尿布} {牛奶, 尿布} {牛奶, 面包} {牛奶, 面包, 啤酒} {面包, 尿布, 啤酒} {牛奶, 尿布, 啤酒} {牛奶, 面包, 尿布} {牛奶, 面包, 尿布, 啤酒}5. 性能优化与工程实践在实际应用中我们可以通过以下技巧进一步提升FP-Growth的性能并行化处理将条件FP树的构建和挖掘过程分配到多个工作节点内存优化对大型数据集采用分块处理策略增量更新当新增交易数据时只更新受影响的部分FP树工程实现建议对于超大规模数集考虑使用Spark等分布式计算框架在Python生态中可以结合Dask实现内存友好的并行处理对分类变量进行适当的编码如整数ID以减少内存占用# 使用生成器处理大型数据集 def dataset_generator(file_path): with open(file_path, r) as f: for line in f: yield line.strip().split(,) # 分块处理示例 def chunked_fp_growth(dataset_gen, chunk_size10000, min_support0.01): chunk [] for i, trans in enumerate(dataset_gen): chunk.append(trans) if (i1) % chunk_size 0: fp FPGrowth(min_support) yield fp.fit(chunk) chunk [] if chunk: # 处理剩余记录 fp FPGrowth(min_support) yield fp.fit(chunk)FP-Growth算法以其高效性和实用性已成为购物篮分析的首选工具。通过本文的实现你可以轻松将其应用于推荐系统、交叉销售策略制定等实际业务场景。相比传统Apriori算法FP-Growth在处理包含数千种商品的大型零售数据集时通常能获得10-100倍的性能提升。

告别混乱计划！用SAP MRP区域精细化管控工厂与库存地需求

SAP MRP区域：精细化管控工厂与库存地需求的实战指南 1. 理解MRP区域的核心价值在复杂的制造业环境中，传统的MRP计划往往面临一个关键挑战：如何在不同层级的供应链节点之间实现精准的需求传递与供给分配。想象一下这样的场景：某汽…

2026/5/21 17:05:38 阅读更多

AI矩阵化增长系统的因果陷阱：为什么你的“数据驱动“正在把业务推向深渊？

摘要：90%的AI矩阵化增长系统都在犯同一个错误——把相关性当因果性。本文从因果推断（Causal Inference）的第一性原理出发，用结构因果模型（SCM）、Do-calculus、反事实分析、 uplift modeling 四把手术刀&…

2026/5/21 17:05:18 阅读更多

ElevenLabs河南话语音接入全链路指南（含郑州话声学特征建模细节）

更多请点击： https://kaifayun.com 第一章：ElevenLabs河南话语音接入全链路概览 ElevenLabs 作为全球领先的 AI 语音合成平台，原生支持多语种及自定义声音克隆，但官方尚未提供河南话（中原官话郑开片）的预置…

2026/5/21 17:04:36 阅读更多

Fastboot Enhance：告别命令行，3分钟掌握Android设备图形化管理终极指南

Fastboot Enhance：告别命令行，3分钟掌握Android设备图形化管理终极指南【免费下载链接】FastbootEnhance A user-friendly Fastboot ToolBox & Payload Dumper for Windows 项目地址: https://gitcode.com/gh_mirrors/fa/FastbootEnhance 还…

2026/5/21 17:59:25 阅读更多

ARMv8 TLB维护指令TLBIP RVAALE1详解与应用

1. ARMv8 TLB维护指令概述在ARMv8架构中，TLB（Translation Lookaside Buffer）是内存管理单元（MMU）的核心组件，负责缓存虚拟地址到物理地址的转换结果。当操作系统修改页表后，必须同步更新TLB中的…

2026/5/21 17:58:24 阅读更多

阅读APP书源配置终极指南：3种简单方法快速导入高质量小说源

阅读APP书源配置终极指南：3种简单方法快速导入高质量小说源【免费下载链接】Yuedu 📚「阅读」自用书源分享项目地址: https://gitcode.com/gh_mirrors/yu/Yuedu 还在为「阅读」APP找不到稳定的小说书源而烦恼吗？是否经常遇到书源失效…

2026/5/21 17:57:21 阅读更多

告别Python依赖：用Libtorch C++ API将PyTorch模型封装成独立DLL/动态库

工业级AI集成：用Libtorch C构建高可用模型动态库当AI模型需要从实验环境走向生产系统时，Python的依赖地狱和性能瓶颈往往成为绊脚石。本文将手把手带您实现从PyTorch模型到标准化C动态库的完整蜕变，打造一个既保持Python开发效率&#xff0c…

2026/5/21 17:56:39 阅读更多

极域电子教室破解终极指南：如何重获电脑控制权而不被老师发现

极域电子教室破解终极指南：如何重获电脑控制权而不被老师发现【免费下载链接】JiYuTrainer 极域电子教室防控制软件, StudenMain.exe 破解项目地址: https://gitcode.com/gh_mirrors/ji/JiYuTrainer 你是否曾在学校机房上课时，面对老师全屏广播…

2026/5/21 17:56:39 阅读更多

为 Node.js 后端服务接入 Taotoken 多模型 API 的完整步骤

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度为 Node.js 后端服务接入 Taotoken 多模型 API 的完整步骤将多个大模型 API 统一接入到你的 Node.js 后端服务中，可以…

2026/5/21 17:55:13 阅读更多

别只刷固件了！用MissionPlanner搞定四旋翼‘飘移’问题，校准compass_mot全流程

四旋翼飞行品质优化：MissionPlanner高级校准实战指南当你的四旋翼无人机已经能够稳定起飞，却在定高模式下出现难以解释的飘移现象时，这往往意味着需要进入更深层次的飞控调校阶段。许多飞手在完成基础校准后便止步不前，殊不知电机…

2026/5/21 0:00:23 阅读更多

科研学术篇---论文搜索方法

高效搜集和研读论文，是构建扎实知识体系的基石。要想做到“高效”与“高质”并重，需要把整个过程当作一个闭环系统来优化——从目标锁定、来源筛选、检索策略，到快速粗筛、深度内化、持续追踪，每一步都有对应的工具和心法。下面逐…

2026/5/21 0:01:25 阅读更多

YOLOv11城市道路摩托车与自行车目标检测数据集-1569张-motorcycle-1_2

YOLOv11城市道路摩托车与自行车目标检测数据集 📊 数据集基本信息目标类别： [‘bike’, ‘motorcycle’]中文类别：[‘自行车’, ‘摩托车’]训练集：1374 张验证集：130 张测试集：65 张总计：1569…

2026/5/21 0:03:28 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…