不用sklearn，手把手教你用Python和TF-IDF实现垃圾邮件分类器（附完整代码）

发布时间：2026/6/3 2:10:00

从零构建中文垃圾邮件分类器基于TF-IDF与朴素贝叶斯的纯Python实现在信息爆炸的时代垃圾邮件已成为困扰用户的主要问题之一。传统基于规则的关键词过滤方法已难以应对日益复杂的垃圾邮件变体而机器学习算法则展现出强大的适应性。本文将带你从零开始不依赖任何现成的机器学习库如scikit-learn仅用Python标准库和基础数学知识实现一个基于TF-IDF特征提取和朴素贝叶斯分类的中文垃圾邮件过滤系统。1. 理解核心算法原理1.1 朴素贝叶斯分类器的工作机制朴素贝叶斯算法源于概率论中的贝叶斯定理其核心思想是通过已知特征来预测样本所属类别的概率。在垃圾邮件分类场景中我们需要计算P(垃圾邮件|特征词集合) ∝ P(特征词集合|垃圾邮件) × P(垃圾邮件) P(正常邮件|特征词集合) ∝ P(特征词集合|正常邮件) × P(正常邮件)其中朴素的假设在于各特征词之间相互独立这使得联合概率可以分解为各特征词条件概率的乘积P(词1,词2,...,词n|类别) P(词1|类别) × P(词2|类别) × ... × P(词n|类别)虽然现实中词语之间存在关联性但这一简化假设在实践中往往能取得不错的效果特别是在文本分类任务中。1.2 TF-IDF特征表示法TF-IDFTerm Frequency-Inverse Document Frequency是一种统计方法用于评估一个词对于一个文件集或语料库中的其中一份文件的重要程度。其计算公式为TF-IDF TF × IDF (词在文档中出现的次数/文档总词数) × log(总文档数/(包含该词的文档数1))TF-IDF的主要优势在于TF部分捕捉词语在单个文档中的重要性IDF部分降低常见词如的、是等的权重提升特征词区分度注意实际实现时会对公式做适当调整如添加平滑项避免除零错误。2. 数据准备与预处理2.1 获取与解析邮件数据集我们使用公开的中文垃圾邮件数据集trec06c包含约6万封已标注邮件65%垃圾邮件35%正常邮件。数据集结构如下trec06c/ ├── data/ │ ├── 000/ │ │ ├── 000001 │ │ ├── 000002 │ │ └── ... │ ├── 001/ │ └── ... └── index解析邮件的关键步骤包括import os import re def extract_email_content(filepath): 提取邮件正文并清洗非中文字符 with open(filepath, r, encodinggbk, errorsignore) as f: lines f.readlines() # 定位正文起始行第一个空行之后 content_start 0 for i, line in enumerate(lines): if not line.strip(): content_start i 1 break # 合并正文并清洗 content .join(lines[content_start:]) content re.sub(r[^\u4e00-\u9fa5], , content) # 移除非中文字符 return content2.2 构建标注数据集将邮件内容与标签对应起来def build_labeled_dataset(data_dir, index_file): dataset [] # 解析索引文件 with open(index_file, r, encodinggbk, errorsignore) as f: for line in f: label, path line.strip().split() label 1 if label spam else 0 filename os.path.basename(path) dataset.append((filename, label)) # 提取邮件内容 labeled_data [] for filename, label in dataset: dir_num filename[:3] filepath os.path.join(data_dir, dir_num, filename) content extract_email_content(filepath) labeled_data.append({content: content, label: label}) return labeled_data3. 特征工程实现3.1 中文分词与停用词处理使用jieba进行中文分词并去除停用词import jieba def load_stopwords(stopwords_file): with open(stopwords_file, r, encodingutf-8) as f: return set(line.strip() for line in f) def tokenize(content, stopwords): words jieba.lcut(content) return [word for word in words if word not in stopwords and len(word) 1]3.2 手动实现TF-IDF计算不依赖scikit-learn我们自行实现TF-IDF计算from collections import defaultdict import math class TFIDFVectorizer: def __init__(self, max_features5000, min_df5, max_df0.6): self.max_features max_features self.min_df min_df self.max_df max_df self.vocabulary_ None self.idf_ None def fit(self, documents): # 计算文档频率(DF) df defaultdict(int) total_docs len(documents) for doc in documents: unique_words set(doc) for word in unique_words: df[word] 1 # 过滤词汇 df_items [(word, count) for word, count in df.items() if min_df (count/total_docs) max_df] # 按DF排序并选择top特征 df_items.sort(keylambda x: -x[1]) self.vocabulary_ {word: i for i, (word, _) in enumerate(df_items[:self.max_features])} # 计算IDF self.idf_ {} vocab_size len(self.vocabulary_) for word, idx in self.vocabulary_.items(): self.idf_[word] math.log((total_docs 1)/(df[word] 1)) 1 def transform(self, documents): # 初始化结果矩阵 n_docs len(documents) n_features len(self.vocabulary_) X [[0.0]*n_features for _ in range(n_docs)] # 计算TF for i, doc in enumerate(documents): word_counts defaultdict(int) total_words len(doc) for word in doc: if word in self.vocabulary_: word_counts[word] 1 # 计算TF-IDF for word, count in word_counts.items(): tf count / total_words idx self.vocabulary_[word] X[i][idx] tf * self.idf_[word] return X4. 朴素贝叶斯分类器实现4.1 训练阶段计算条件概率import numpy as np class NaiveBayesClassifier: def __init__(self, alpha1.0): self.alpha alpha # 平滑系数 self.class_prior_ None self.feature_prob_ None def fit(self, X, y): n_samples, n_features len(X), len(X[0]) classes np.unique(y) n_classes len(classes) # 计算类先验概率 self.class_prior_ {} for c in classes: self.class_prior_[c] (np.sum(y c) self.alpha) / (n_samples self.alpha * n_classes) # 计算条件概率 self.feature_prob_ {} for c in classes: # 获取当前类别的样本 X_c [X[i] for i in range(n_samples) if y[i] c] # 计算每个特征的总TF-IDF值加平滑 feature_sum np.zeros(n_features) self.alpha for doc in X_c: feature_sum np.array(doc) # 归一化得到概率 total np.sum(feature_sum) self.feature_prob_[c] feature_sum / total def predict(self, X): predictions [] for doc in X: max_prob -1 best_class -1 for c, prior in self.class_prior_.items(): # 计算对数概率避免下溢 log_prob np.log(prior) feature_prob self.feature_prob_[c] for i, value in enumerate(doc): if value 0: # 只考虑文档中出现的特征 log_prob np.log(feature_prob[i]) if log_prob max_prob: max_prob log_prob best_class c predictions.append(best_class) return predictions4.2 模型评估指标实现def evaluate(y_true, y_pred): tp fp tn fn 0 for true, pred in zip(y_true, y_pred): if true 1 and pred 1: tp 1 elif true 1 and pred 0: fn 1 elif true 0 and pred 1: fp 1 else: tn 1 metrics { accuracy: (tp tn) / (tp tn fp fn), precision: tp / (tp fp) if (tp fp) 0 else 0, recall: tp / (tp fn) if (tp fn) 0 else 0, f1: 2 * tp / (2 * tp fp fn) if (2 * tp fp fn) 0 else 0 } return metrics5. 完整流程与性能优化5.1 端到端训练流程# 1. 加载数据 labeled_data build_labeled_dataset(trec06c/data, trec06c/full/index) # 2. 分词处理 stopwords load_stopwords(stopwords.txt) tokenized_data [tokenize(item[content], stopwords) for item in labeled_data] labels [item[label] for item in labeled_data] # 3. 划分训练测试集 split_idx int(0.7 * len(tokenized_data)) X_train tokenized_data[:split_idx] y_train labels[:split_idx] X_test tokenized_data[split_idx:] y_test labels[split_idx:] # 4. 特征提取 vectorizer TFIDFVectorizer(max_features5000) vectorizer.fit(X_train) X_train_tfidf vectorizer.transform(X_train) X_test_tfidf vectorizer.transform(X_test) # 5. 训练模型 model NaiveBayesClassifier() model.fit(X_train_tfidf, y_train) # 6. 评估 y_pred model.predict(X_test_tfidf) metrics evaluate(y_test, y_pred) print(评估结果:) for name, value in metrics.items(): print(f{name}: {value:.4f})5.2 性能优化技巧特征选择优化使用卡方检验选择信息量最大的特征词动态调整max_features参数找到性价比最高的特征数量计算效率提升使用稀疏矩阵存储TF-IDF特征对概率计算使用对数空间避免数值下溢算法改进实现伯努利朴素贝叶斯变体适用于短文本加入n-gram特征捕捉词语组合信息# 稀疏矩阵实现的示例 from scipy.sparse import lil_matrix class SparseTFIDFVectorizer(TFIDFVectorizer): def transform(self, documents): n_docs len(documents) n_features len(self.vocabulary_) X lil_matrix((n_docs, n_features)) for i, doc in enumerate(documents): word_counts defaultdict(int) total_words len(doc) for word in doc: if word in self.vocabulary_: word_counts[word] 1 for word, count in word_counts.items(): tf count / total_words idx self.vocabulary_[word] X[i, idx] tf * self.idf_[word] return X.tocsr()通过这种从零开始的实现方式我们不仅深入理解了TF-IDF和朴素贝叶斯的数学原理还掌握了如何将理论转化为实际可运行的代码。虽然性能可能不及优化过的库实现但这种实践对于理解机器学习底层原理具有不可替代的价值。

丰田精益生产的庖丁解牛

它的本质是：**精益生产不是关于“做得更快”，而是关于 “只做有价值的事” 和 “让价值无阻碍地流动”。核心定义：通过识别并消除所有不增加客户价值的活动（浪费），以最小的资源投入，实现最大化…

2026/6/3 2:09:40 阅读更多

告别‘塑料感’：5个让Unity粒子烟花效果更真实的材质与渲染技巧（URP/HDRP通用）

告别‘塑料感’：5个让Unity粒子烟花效果更真实的材质与渲染技巧（URP/HDRP通用）烟花效果在游戏和影视中常被用来营造节日氛围或庆祝场景，但许多开发者制作的烟花往往显得"塑料感"十足，缺乏真实感。本文将分享…

2026/6/3 2:09:40 阅读更多

告别调参焦虑：用沐神《动手学深度学习》思路，5步搞定你的第一个Kaggle回归项目

从零到Kaggle：用沐神方法论5步攻克房价预测挑战为什么你需要这篇指南第一次打开Kaggle竞赛页面时，那种扑面而来的压迫感我至今记忆犹新——密密麻麻的英文文档、五花八门的特征工程技巧、让人眼花缭乱的模型调参报告。作为《动手学深度学习》课程的忠实学…

2026/6/3 2:08:59 阅读更多

DeepFaceLab模型怎么选？Quick96、SAEHD、AMP三大模式实战对比与场景推荐

DeepFaceLab模型实战指南：Quick96、SAEHD、AMP深度解析与选型策略当你第一次用DeepFaceLab完成换脸后，看着屏幕上扭曲的五官和诡异的肤色过渡，可能会陷入沉思——究竟是哪里出了问题？很多时候，模型选择不当就是罪魁祸首…

2026/6/3 3:00:45 阅读更多

GEO优化技术实现全流程拆解：中小企业如何让AI大模型准确收录你的信息

当用户在豆包、DeepSeek、元宝里问"济南历下区有没有靠谱的月嫂公司"时，AI给出的回答里是否包含你的企业、信息准确度有多高、排在第几位——这三个问题背后，是一整套信息结构化的技术逻辑。本文从实现路径角度，拆解GEO优化的核心技…

2026/6/3 2:59:24 阅读更多

深度实战：高效掌握GroundingDINO零样本目标检测的核心功能与进阶技巧

深度实战：高效掌握GroundingDINO零样本目标检测的核心功能与进阶技巧【免费下载链接】GroundingDINO [ECCV 2024] Official implementation of the paper "Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection" …

2026/6/3 2:58:03 阅读更多

保姆级教程：用海思SS928的BurnTool工具，通过网口给Emmc烧写完整镜像（附分区表修改避坑指南）

海思SS928开发板Emmc镜像烧写全流程实战指南作为一名长期从事嵌入式开发的工程师，我深知第一次接触新平台时的迷茫与挫败感。海思SS928作为一款高性能视觉处理芯片，其开发环境搭建和镜像烧写是项目启动的第一道门槛。本文将结合我多次实战经验&#xff0…

2026/6/3 2:57:23 阅读更多

提升开发效率：用快马AI一键生成多路继电器协同管理代码

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 请生成一个用于智能家居场景的四路继电器集中控制器代码。核心功能要求：1、基于NodeMCU，可同时独立控制四个继电器。2、实现继电器状态记忆功能&#xff0c…

2026/6/3 2:57:23 阅读更多

CrewAI任务编排：从单兵作战到团队协作的进化

一、标题 CrewAI任务编排：从GPT-4o单轮单兵，到AI「虚拟战队」全流程闭环协作的技术实战与进化逻辑二、摘要/引言 2.1 开门见山：你是不是遇到了「大模型单轮天花板」？ 上周我帮朋友优化了他们公司的AI内容营销系统——之前用的是G…

2026/6/3 2:56:43 阅读更多

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

Unity打包EXE后Universal Media Player播放RTSP失败的深度修复指南当你在Unity中使用Universal Media Player（UMP）插件成功实现了RTSP流的播放，却在打包EXE后遭遇"无画面"或"找不到库文件"的错误时，这种从开发…

2026/6/3 0:00:49 阅读更多

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

1. 项目概述与核心价值在工业现场，数据采集的稳定性和准确性是命脉。无论是监测管道压力、罐体液位还是电机转速，我们都需要将物理世界的信号，可靠地转换为控制系统能理解的“语言”。这其中，4-20mA电流环信号堪称工业模拟信号传输…

2026/6/3 0:00:49 阅读更多

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

1. 项目概述：为FPV竞速增添专业感的DIY计时门如果你和我一样，家里有个对FPV无人机着迷的孩子，或者你自己就是个竞速爱好者，那你肯定理解那种想给自家的小型无人机赛道增加点“专业感”的冲动。我们在地下室用纸箱、呼啦圈搭过各种…

2026/6/3 0:00:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

丰田精益生产的庖丁解牛

告别‘塑料感’：5个让Unity粒子烟花效果更真实的材质与渲染技巧（URP/HDRP通用）

告别调参焦虑：用沐神《动手学深度学习》思路，5步搞定你的第一个Kaggle回归项目

DeepFaceLab模型怎么选？Quick96、SAEHD、AMP三大模式实战对比与场景推荐

GEO优化技术实现全流程拆解：中小企业如何让AI大模型准确收录你的信息

深度实战：高效掌握GroundingDINO零样本目标检测的核心功能与进阶技巧

保姆级教程：用海思SS928的BurnTool工具，通过网口给Emmc烧写完整镜像（附分区表修改避坑指南）

提升开发效率：用快马AI一键生成多路继电器协同管理代码

CrewAI任务编排：从单兵作战到团队协作的进化

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因