别再死记硬背B/M/E/S了！用Python手把手带你跑通HMM中文分词（附完整代码与语料）

发布时间：2026/6/3 21:33:18

用Python实战HMM中文分词从概率计算到Viterbi解码自然语言处理中的中文分词一直是个有趣且实用的课题。想象一下你正在开发一个电影评论分析系统用户输入这部电影太好看了如何让计算机理解这部/电影/太/好看/了这样的合理切分传统方法依赖词典匹配但遇到新词就束手无策。隐马尔可夫模型(HMM)通过概率统计的方式能自动学习分词规律即使面对未登录词也有不错的表现。今天我们不谈复杂的数学推导直接动手用Python实现一个完整的HMM分词器。你会看到从原始语料到最终分词结果整个过程就像搭积木一样清晰有趣。我们将使用一个小型电影评论语料库作为示例这样你可以立即看到模型在真实场景中的应用效果。1. 环境准备与数据理解首先确保你的Python环境安装了这些基础包pip install numpy tqdm我们使用的训练数据是人工标注的电影评论每个字后面跟着它的B/M/E/S标签B(词首)、M(词中)、E(词尾)、S(单字词)示例数据片段这/B 部/E 电/B 影/E 真/S 的/S 好/B 看/E /S 我/S 喜/B 欢/E 这/B 种/E 剧/B 情/E 片/E关键理解HMM认为每个字的标签(状态)只与前一个标签有关而当前字(观测值)只与当前标签有关。这种马尔可夫假设大大简化了问题复杂度。提示实际项目中建议至少准备10万字的标注数据。我们这里为演示简化只使用几十条评论。2. 概率统计的三部曲2.1 初始化概率矩阵我们需要三个核心概率矩阵import numpy as np from collections import defaultdict # 初始化计数器 init_count defaultdict(int) # 初始状态计数 trans_count defaultdict(int) # 状态转移计数 emit_count defaultdict(int) # 发射计数 state_count defaultdict(int) # 状态出现总次数统计过程示例def count_tags(sentences): for sentence in sentences: prev_tag None for word, tag in sentence: if prev_tag is None: # 句首字 init_count[tag] 1 else: # 非句首字 trans_count[(prev_tag, tag)] 1 emit_count[(tag, word)] 1 state_count[tag] 1 prev_tag tag统计后的原始计数示例初始状态计数{B: 15, S: 32} 转移计数{(B,E):12, (B,M):3, (E,B):7, ...} 发射计数{(B,电):5, (E,影):8, (S,我):6, ...}2.2 概率计算与平滑处理原始统计会遇到零概率问题需要拉普拉斯平滑def prob_with_smoothing(count, total, alpha1.0, states4): return (count alpha) / (total alpha * states)生成概率矩阵的核心代码tags [B, M, E, S] # 初始概率 init_prob {tag: prob_with_smoothing(init_count[tag], sum(init_count.values())) for tag in tags} # 转移概率矩阵 trans_prob {} for prev in tags: for curr in tags: key (prev, curr) trans_prob[key] prob_with_smoothing(trans_count.get(key,0), sum(v for k,v in trans_count.items() if k[0]prev)) # 发射概率 emit_prob {} for (tag, word), cnt in emit_count.items(): emit_prob[(tag, word)] cnt / state_count[tag]注意实际应用中发射概率对生僻字要做特殊处理比如统一赋予一个极小值。3. Viterbi算法实现3.1 算法原理图解Viterbi算法的精妙之处在于它通过动态规划找到概率最大的状态路径。想象你在玩一个格子游戏每个格子代表一个字可能的状态(B/M/E/S)格子之间的箭头代表转移概率格子本身的亮度代表发射概率从起点到终点要找出一条最亮的路径3.2 Python代码实现完整Viterbi实现def viterbi(sentence, init_prob, trans_prob, emit_prob, tags): # 初始化DP表格 dp [{} for _ in range(len(sentence))] # 每个字的每个状态的最大概率 path {} # 记录路径 # 初始化第一个字 for tag in tags: dp[0][tag] init_prob.get(tag, 1e-6) * emit_prob.get((tag, sentence[0]), 1e-6) path[tag] [tag] # 递推计算 for i in range(1, len(sentence)): new_path {} for curr_tag in tags: max_prob -1 best_prev_tag None for prev_tag in tags: prob dp[i-1][prev_tag] * \ trans_prob.get((prev_tag, curr_tag), 1e-6) * \ emit_prob.get((curr_tag, sentence[i]), 1e-6) if prob max_prob: max_prob prob best_prev_tag prev_tag dp[i][curr_tag] max_prob new_path[curr_tag] path[best_prev_tag] [curr_tag] path new_path # 回溯最佳路径 best_tag max(dp[-1], keydp[-1].get) return path[best_tag]测试用例text 这部电影太精彩了 tags viterbi(text, init_prob, trans_prob, emit_prob, [B,M,E,S]) print(字\t标签) for char, tag in zip(text, tags): print(f{char}\t{tag})输出示例字标签这 B 部 E 电 B 影 E 太 S 精 B 彩 E 了 S4. 后处理与性能优化4.1 从标签序列到分词结果将标签序列转换为最终分词def tags_to_segs(sentence, tags): segs [] word [] for char, tag in zip(sentence, tags): word.append(char) if tag in [E, S]: # 词结束或单字 segs.append(.join(word)) word [] return segs4.2 工程优化技巧对数空间计算避免概率下溢math.log(prob) # 将乘法转为加法剪枝策略每步只保留top-k路径# 在Viterbi中增加 if len(dp[i]) beam_size: dp[i] dict(sorted(dp[i].items(), keylambda x: -x[1])[:beam_size])模型持久化训练后保存概率矩阵import pickle with open(hmm_model.pkl, wb) as f: pickle.dump((init_prob, trans_prob, emit_prob), f)在实际项目中我通常会先用jieba等成熟工具生成标注数据来训练自己的HMM模型这样既能保证数据质量又能理解底层机制。当遇到特定领域文本时这种自训练的模型往往比通用模型表现更好。

终极电脑散热控制指南：从噪音烦恼到静音高效的完整解决方案

终极电脑散热控制指南：从噪音烦恼到静音高效的完整解决方案【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitcode.com/GitHub_Trendi…

2026/6/3 21:33:18 阅读更多

analysis-ik错误处理：分词过程中的异常捕获与恢复机制

analysis-ik错误处理：分词过程中的异常捕获与恢复机制引言：为什么分词错误处理如此重要？ 在中文分词领域，analysis-ik作为Elasticsearch和OpenSearch的核心分词插件，承担着海量文本处理的重任。当面对复杂的网络环境、…

2026/6/3 21:32:54 阅读更多

解决analysis-ik并发痛点：多线程环境下的分词安全与性能优化指南

解决analysis-ik并发痛点：多线程环境下的分词安全与性能优化指南 analysis-ik作为一款集成Lucene IK分析器的Elasticsearch/OpenSearch插件，在高并发场景下的线程安全与性能优化一直是开发者关注的核心问题。本文将深入剖析analysis-ik的并发处理机制&am…

2026/6/3 21:32:54 阅读更多

终极抖音视频下载指南：如何一键批量下载无水印高清内容

终极抖音视频下载指南：如何一键批量下载无水印高清内容【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback supp…

2026/6/4 0:39:15 阅读更多

【Redis从入门到精通】第50篇：集群重新分片——不停服迁移槽位的黑魔法

上一篇【第49篇】MOVED和ASK——Cluster重定向机制详解下一篇【第51篇】Cluster复制与故障转移——节点挂了怎么办（明日更新，敬请期待） 好了，集群搭起来了，数据也分布好了。但好景不长——用户量激增，内存…

2026/6/4 0:38:14 阅读更多

Windows 11终极优化指南：用Win11Debloat一键提升51%系统性能，彻底告别卡顿与隐私泄露

Windows 11终极优化指南：用Win11Debloat一键提升51%系统性能，彻底告别卡顿与隐私泄露【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform v…

2026/6/4 0:36:53 阅读更多

行政人必抢的AI整合方案（2024政务/企业双场景实测版）：覆盖会议、报销、档案、督办、合规全链路

更多请点击： https://codechina.net 第一章：AI工具与智能行政整合在现代组织治理中，行政流程的自动化与智能化正从辅助手段演变为核心能力。AI工具不再仅限于邮件分类或日程提醒，而是深度嵌入公文流转、会议统筹、档案归集、合规…

2026/6/4 0:35:51 阅读更多

2014年SSD奇异谱分解算法的Matlab可运行实现，含完整函数与示例

本文还有配套的精品资源，点击获取简介：这个资源包提供2014年提出的奇异谱分解（SSD）算法的完整Matlab实现，包含SAM_SSD.m和SAM_LMF.m两个主函数，以及配套的SSD功能文件夹。它专为处理非线性、非平稳时间…

2026/6/4 0:35:30 阅读更多

历史数据觉醒计划（AI+GIS+OCR三维融合实战手册）

更多请点击： https://codechina.net 第一章：历史数据觉醒计划（AIGISOCR三维融合实战手册） 沉睡在档案馆扫描件、老地图胶片与纸质台账中的空间信息，正成为城市更新与文化遗产保护的关键资产。本章聚焦“历史数据觉醒计…

2026/6/4 0:34:50 阅读更多

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

IAR Embedded Workbench 许可证管理全指南与合规开发方案在嵌入式开发领域，IAR Embedded Workbench 以其高效的编译器和强大的调试功能著称，成为众多工程师的首选工具。然而，随着团队规模扩大和项目复杂度提升，许可证管理问题逐渐…

2026/6/4 0:03:11 阅读更多

赤铁矿磨矿过程运行优化控制软件系统【附程序】

✨ 长期致力于赤铁矿磨矿过程、磨矿粒度、数据驱动、运行优化控制、神经网络、案例推理、规则推理、软件系统研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&…

2026/6/4 0:03:32 阅读更多

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

终极指南：如何使用Attu轻松管理你的Milvus向量数据库【免费下载链接】attu The Best GUI for Milvus 项目地址: https://gitcode.com/gh_mirrors/at/attu Attu是一款专为Milvus向量数据库设计的现代化AI工作台管理工具，提供全面的可视化界面&…

2026/6/4 0:04:12 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/3 4:17:19 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/3 4:17:20 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/3 4:17:20 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/3 5:40:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/3 4:17:20 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/3 4:17:19 阅读更多

相关文章

终极电脑散热控制指南：从噪音烦恼到静音高效的完整解决方案

analysis-ik错误处理：分词过程中的异常捕获与恢复机制

解决analysis-ik并发痛点：多线程环境下的分词安全与性能优化指南

终极抖音视频下载指南：如何一键批量下载无水印高清内容

【Redis从入门到精通】第50篇：集群重新分片——不停服迁移槽位的黑魔法

Windows 11终极优化指南：用Win11Debloat一键提升51%系统性能，彻底告别卡顿与隐私泄露

行政人必抢的AI整合方案（2024政务/企业双场景实测版）：覆盖会议、报销、档案、督办、合规全链路

2014年SSD奇异谱分解算法的Matlab可运行实现，含完整函数与示例

历史数据觉醒计划（AI+GIS+OCR三维融合实战手册）

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

赤铁矿磨矿过程运行优化控制软件系统【附程序】

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因