别再死记公式了！用Python手写信息增益函数，帮你彻底搞懂决策树怎么选特征

发布时间：2026/7/2 2:18:26

用Python手撕信息增益从代码逆向理解决策树特征选择在机器学习入门阶段决策树算法总是以直观易懂的形象出现。但当我们真正深入细节时那些看似简单的特征选择标准——信息增益、信息熵等概念往往会成为理解道路上的绊脚石。本文将通过一个可运行的Python实现带您从代码层面逆向拆解信息增益的计算逻辑让抽象的理论公式变得触手可及。1. 信息熵不确定性度量信息熵是理解信息增益的基础概念。在代码中total_cal函数正是信息熵的实现def total_cal(label): label_set set(label) result 0 for i in label_set: p list(label).count(i)/len(label) result - p * np.log2(p) return result这段代码实际上在计算$$ H(D) -\sum_{k1}^{K} p_k \log_2 p_k $$其中label_set set(label)获取标签的所有唯一值p list(label).count(i)/len(label)计算每个标签出现的概率result - p * np.log2(p)累加每个概率的对数乘积关键点信息熵衡量的是数据集的不确定性当所有样本属于同一类别时熵为0最确定状态当类别均匀分布时熵达到最大值最不确定状态2. 条件熵特征划分后的不确定性信息增益的核心在于比较划分前后的熵变化。在代码中这部分逻辑体现在aba [] length [] for value in set(feature[:,index]): sub_label [] for i in range(len(feature)): if feature[i][index] value: sub_label.append(label[i]) aba.append(total_cal(sub_label)) length.append(len(sub_label)/len(label))这段代码计算的是条件熵$$ H(D|A) \sum_{i1}^{n} \frac{|D_i|}{|D|} H(D_i) $$其中feature[:,index]获取指定特征列的所有值set(feature[:,index])得到该特征的所有唯一取值对于每个特征值收集对应的标签子集(sub_label)total_cal(sub_label)计算子集的熵len(sub_label)/len(label)计算子集权重3. 信息增益熵减的量化信息增益的最终计算体现在res total_cal(label) - length[0]*aba[0] - length[1]*aba[1]这对应公式$$ g(D,A) H(D) - H(D|A) $$实际计算步骤计算整个数据集的熵total_cal(label)计算按特征划分后的加权熵length[0]*aba[0] length[1]*aba[1]两者相减得到信息增益4. 决策树中的特征选择实战理解信息增益的计算后我们来看如何在决策树中实际应用。假设我们有以下简单的数据集天气温度湿度风力是否打球晴高高弱否晴高高强否阴高高弱是雨中高弱是雨低正常弱是雨低正常强否阴低正常强是晴中高弱否我们可以用实现的函数计算每个特征的信息增益features np.array([ [晴,高,高,弱], [晴,高,高,强], [阴,高,高,弱], [雨,中,高,弱], [雨,低,正常,弱], [雨,低,正常,强], [阴,低,正常,强], [晴,中,高,弱] ]) labels np.array([否,否,是,是,是,否,是,否]) for i in range(4): print(f特征{i}的信息增益:, calcInfoGain(features, labels, i))输出结果可能类似于特征0的信息增益: 0.31127812445913283 特征1的信息增益: 0.0912774462416801 特征2的信息增益: 0.0912774462416801 特征3的信息增益: 0.31127812445913283决策树构建过程选择信息增益最大的特征作为根节点本例中特征0或3对每个分支重复上述过程直到所有样本属于同一类别没有更多特征可用达到预设的停止条件5. 信息增益的局限与改进虽然信息增益是决策树的经典特征选择标准但它存在一个明显问题倾向于选择取值较多的特征。例如如果我们有一个ID特征每个样本都有唯一ID这个特征的信息增益会最大但对分类毫无意义。改进方案——信息增益比$$ g_R(D,A) \frac{g(D,A)}{H_A(D)} $$其中 $H_A(D)$ 是特征A的熵。在代码中可以这样实现def calc_info_gain_ratio(feature, label, index): info_gain calcInfoGain(feature, label, index) feature_entropy total_cal(feature[:,index]) return info_gain / feature_entropy if feature_entropy ! 0 else 0不同特征选择标准的对比标准公式优点缺点信息增益$g(D,A)H(D)-H(D|A)$直观计算简单偏向多值特征信息增益比$g_R(D,A)\frac{g(D,A)}{H_A(D)}$克服多值特征偏好可能偏向取值较少的特征基尼指数$Gini(D)1-\sum_{k1}^K p_k^2$计算更快对类别分布变化更敏感6. 工程实践中的优化技巧在实际项目中我们还需要考虑以下优化点1. 连续特征处理上述实现假设所有特征是离散的对于连续特征需要先离散化如等宽/等频分箱def discretize_continuous_feature(values, bins3): boundaries np.linspace(min(values), max(values), bins1) return np.digitize(values, boundaries[1:-1])2. 缺失值处理常见策略包括使用最常见值填充单独作为一个类别按已知值比例随机分配3. 计算效率优化原始实现中有可以优化的地方# 优化后的条件熵计算 def conditional_entropy(feature_col, label): value_counts {} entropy_sum 0 total len(label) # 第一次遍历统计每个特征值的出现次数和对应标签 for val, lbl in zip(feature_col, label): if val not in value_counts: value_counts[val] {count:0, labels:[]} value_counts[val][count] 1 value_counts[val][labels].append(lbl) # 第二次遍历计算加权熵 for val, data in value_counts.items(): p data[count] / total entropy_sum p * total_cal(np.array(data[labels])) return entropy_sum这个优化版本只需要两次遍历数据原实现是O(n²)复杂度使用字典缓存中间结果更适合处理大规模数据7. 从信息增益到决策树的完整实现理解了信息增益的计算我们可以扩展实现一个简单的决策树class DecisionTree: def __init__(self, max_depthNone): self.max_depth max_depth self.tree {} def fit(self, X, y, depth0): # 终止条件 if len(set(y)) 1: return {class: y[0]} if self.max_depth and depth self.max_depth: return {class: max(set(y), keylist(y).count)} # 选择最佳分裂特征 best_gain -1 best_feature None for i in range(X.shape[1]): gain calcInfoGain(X, y, i) if gain best_gain: best_gain gain best_feature i # 构建子树 tree {feature: best_feature, children: {}} for value in set(X[:, best_feature]): mask X[:, best_feature] value subtree self.fit(X[mask], y[mask], depth1) tree[children][value] subtree self.tree tree return tree def predict(self, X): return np.array([self._predict_one(x, self.tree) for x in X]) def _predict_one(self, x, node): if class in node: return node[class] feature_val x[node[feature]] if feature_val in node[children]: return self._predict_one(x, node[children][feature_val]) return max(node[children].values(), keylambda n: n.get(count,0))[class]这个简单实现包含了决策树的核心逻辑递归地选择信息增益最大的特征进行分裂处理终止条件纯节点、达到最大深度实现预测功能8. 可视化决策过程理解算法的最好方式之一是可视化。我们可以用graphviz来展示决策树from graphviz import Digraph def visualize_tree(tree, dotNone, parentNone, edge_labelNone): if dot is None: dot Digraph() node_id str(id(tree)) if class in tree: dot.node(node_id, labelfClass: {tree[class]}, shapebox) else: dot.node(node_id, labelfFeature {tree[feature]}) if parent is not None: dot.edge(parent, node_id, labeledge_label) if children in tree: for value, child in tree[children].items(): visualize_tree(child, dot, node_id, str(value)) return dot # 使用示例 tree DecisionTree(max_depth3) tree.fit(features, labels) visualize_tree(tree.tree).render(decision_tree, formatpng, cleanupTrue)可视化要点内部节点显示分裂特征叶节点显示预测类别边显示特征取值通过限制max_depth防止过拟合9. 实际项目中的注意事项在真实机器学习项目中应用决策树时还需要考虑1. 超参数调优from sklearn.model_selection import GridSearchCV params { max_depth: [3, 5, 7, None], min_samples_split: [2, 5, 10], min_samples_leaf: [1, 2, 4] } grid_search GridSearchCV(DecisionTreeClassifier(), params, cv5) grid_search.fit(X_train, y_train)2. 特征重要性分析决策树可以提供特征重要性评分基于特征在树中被使用的次数和信息增益def feature_importances(tree, n_features): importances np.zeros(n_features) def _count_importance(node): if feature in node: importances[node[feature]] 1 for child in node[children].values(): _count_importance(child) _count_importance(tree) return importances / importances.sum()3. 处理类别不平衡可以通过调整类别权重来改善少数类的识别def calc_weighted_info_gain(feature, label, index, class_weights): # 修改total_cal函数加入权重计算 def weighted_entropy(labels): label_set set(labels) result 0 total_weight sum(class_weights.get(l,1) for l in labels) for i in label_set: p sum(class_weights.get(i,1) for l in labels if l i) / total_weight result - p * np.log2(p) return result # 其余部分与calcInfoGain类似10. 扩展思考信息论视角下的机器学习信息增益只是信息论在机器学习中的一个应用。更广泛地看1. 互信息与特征选择信息增益本质上是特征与标签的互信息$$ I(X;Y) H(X) - H(X|Y) H(Y) - H(Y|X) $$2. 交叉熵与损失函数在神经网络中常用的交叉熵损失$$ H(p,q) -\sum_x p(x)\log q(x) $$3. KL散度与模型评估衡量两个概率分布差异$$ D_{KL}(p||q) \sum_x p(x)\log\frac{p(x)}{q(x)} $$理解这些概念的统一性有助于我们建立更完整的机器学习知识体系。

AI智能体人才培养如何落地？

AI智能体人才培养如何落地：从工具使用到项目实践摘要 AI智能体人才培养的重点，不只是学习某一个工具，而是帮助学习者理解任务、拆解流程、使用工具、完成项目并进行复盘。随着大模型、自动化工具和智能体应用的发展，个人在内容生…

2026/6/26 18:06:59 阅读更多

AI动态简报之技术前沿篇（2026.05.28）

🔥 第1条：快手Keye2.0——DSA注意力机制首次引入多模态模型，推理成本暴降50%核心内容：快手发布自研多模态大模型 Keye-VL-2.0-30B-A3B，首次将 DSA（Dynamic Sparse Attention）注意力机制引入多模…

2026/7/1 11:34:56 阅读更多

【2024最严数据监管倒计时】：Gemini本地化避坑清单——92%企业忽略的4类元数据泄露风险

更多请点击： https://kaifayun.com 第一章：Gemini数据本地化方案的合规性底层逻辑 Gemini数据本地化方案并非简单地将模型权重或缓存文件部署在境内服务器，其合规性根基在于对数据生命周期全链路的主权可控设计。核心逻辑体现为“三权分离”…

2026/6/30 22:06:46 阅读更多

2025了钉钉会议转任务还效率低？听脑真能一键解决吗？

说真的，我最近帮几家企业做数字化工具选型，发现大家都卡在同一个痛点上—2026年了，钉钉会议转任务居然还是这么磨人！上周和一家制造业的张总喝茶，他吐了半小时苦水：每次管理层开完会，助理得抱着…

2026/7/2 2:17:20 阅读更多

番茄小说下载器：三分钟构建你的个人数字图书馆，随时随地享受纯净阅读

番茄小说下载器：三分钟构建你的个人数字图书馆，随时随地享受纯净阅读【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 还在为网络小说资源分散、广告干扰…

2026/7/2 2:17:20 阅读更多

2.4 中间层：底层驱动与标准库——固收与负债的“稳态输出”

2015年股灾最惨烈的那几周，我每天都会收到大量读者的私信。其中有一封我至今保留着。发信人是一个在杭州做嵌入式开发的工程师，他在信里写了这么一段话： “我把房贷的钱挪去补仓了。本来下周一扣款，我以为这周一个反弹就能出来&am…

2026/7/2 2:17:20 阅读更多

Cursor Pro破解终极指南：3步解锁AI编程助手完整功能

Cursor Pro破解终极指南：3步解锁AI编程助手完整功能【免费下载链接】cursor-free-vip [Support 0.45]（Multi Language 多语言）自动注册 Cursor Ai ，自动重置机器ID ， 免费升级使用Pro 功能: Youve reached your trial…

2026/7/2 2:16:19 阅读更多

降本增效双兼顾：Claude Code 10 项精细化调优实操，AI 编码 Token 成本直降六成

近期不少开发者都有相似的感受：日常使用的 Claude Code 编码表现似乎出现了明显下滑 ——Agent 的思考深度变浅、代码语法出错率上升、工具调用频次减少，甚至连自动生成的代码注释都消失了。很多人第一反应是模型本身出现了退化，但实际情况并…

2026/7/2 2:15:39 阅读更多

ELECTROCRAFT XBR-2920伺服电机

ELECTROCRAFT XBR-2920伺服电机是美国ElectroCraft公司生产的一款高性能伺服电机，采用无刷直流（BLDC）技术，以高转矩密度和紧凑设计为特点，其主要特性可归纳如下：美国ElectroCraft原厂制造。采用无刷直流&am…

2026/7/2 2:15:39 阅读更多

Selenium元素定位全解析：从八大方法到实战策略

1. 项目概述：从“找东西”到“精准操控” 做自动化测试，尤其是Web UI自动化，最核心也最让人头疼的一步是什么？不是写复杂的业务逻辑，也不是处理异步加载，而是最基础的—— 让程序找到页面上那个你想操作的…

2026/7/2 0:00:12 阅读更多

移动端UI自动化测试框架Maestro终极指南：从入门到实战

1. 项目概述：为什么是Maestro？ 如果你正在寻找一个能让你快速上手、告别繁琐配置、并且对移动端UI自动化测试真正友好的框架，那么Maestro很可能就是你一直在等的那个答案。我接触过Appium、Espresso、XCUITest，也折腾过各种基于图…

2026/7/2 0:00:12 阅读更多

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

1. 项目概述：从“能用”到“精通”的必经之路如果你正在学习或从事网络安全测试，尤其是Web应用安全评估，那么BurpSuite的Intruder模块绝对是你绕不开的核心工具。而Intruder模块里，功能最强大、也最让人又爱又恨的，莫过…

2026/7/2 0:00:33 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 0:09:58 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/2 1:54:44 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/2 1:54:44 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/2 0:02:27 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/2 0:10:02 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…

2026/7/2 0:09:58 阅读更多

相关文章

AI智能体人才培养如何落地？

AI动态简报之技术前沿篇（2026.05.28）

【2024最严数据监管倒计时】：Gemini本地化避坑清单——92%企业忽略的4类元数据泄露风险

2025了钉钉会议转任务还效率低？听脑真能一键解决吗？

番茄小说下载器：三分钟构建你的个人数字图书馆，随时随地享受纯净阅读

2.4 中间层：底层驱动与标准库——固收与负债的“稳态输出”

Cursor Pro破解终极指南：3步解锁AI编程助手完整功能

降本增效双兼顾：Claude Code 10 项精细化调优实操，AI 编码 Token 成本直降六成

ELECTROCRAFT XBR-2920伺服电机

Selenium元素定位全解析：从八大方法到实战策略

移动端UI自动化测试框架Maestro终极指南：从入门到实战

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

FAE放射组学分析工具：医学影像特征探索的完整解决方案

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南