别再死记硬背动态规划了！用Python手写维特比算法，搞定中文分词就这么简单

发布时间：2026/6/29 13:29:21

用Python手写维特比算法实现中文分词的实战指南从动态规划到中文分词中文分词是自然语言处理中最基础却至关重要的环节。想象一下当你拿到一段没有空格分隔的中文文本时如何让计算机理解哪些字应该组合成词这正是中文分词要解决的核心问题。与英文不同中文词语之间没有天然的分隔符这使得分词成为中文文本处理的第一道难关。传统的中文分词方法大致可以分为三类基于词典匹配的方法如最大正向匹配、最大逆向匹配基于统计的方法如隐马尔可夫模型(HMM)、条件随机场(CRF)基于深度学习的方法如BiLSTM-CRF、Transformer等其中维特比算法作为动态规划在序列标注问题中的经典应用能够高效地找到最优分词路径。它的核心思想是将分词问题转化为图的最短路径问题通过逐步构建和剪枝最终找到概率最大的分词组合。维特比算法原理剖析维特比算法本质上是一种动态规划算法用于寻找隐马尔可夫模型中最可能的状态序列。在中文分词的应用中我们可以这样理解它的工作原理构建有向无环图(DAG)将待分词的句子中的每个字作为节点可能的词语作为边赋予权重根据词典和词频统计为每条边赋予权重通常使用负对数概率寻找最短路径使用维特比算法找到从起点到终点的最短路径即概率最大的分词组合让我们用一个简单的例子来说明这个过程。假设我们要分词的句子是经常有意见分歧词典和词频如下word_dict [经常,有,意见,意,见,有意见,分歧,分,歧] word_prob { 经常:0.08, 有:0.04, 意见:0.08, 意:0.01, 见:0.005, 有意见:0.002, 分歧:0.04, 分:0.02, 歧:0.005 }对应的负对数概率可以理解为代价为词语概率-ln(概率)经常0.082.52有0.043.21意见0.082.52有意见0.0026.21分歧0.043.21Python实现维特比分词器现在让我们用Python一步步实现基于维特比算法的中文分词器。我们将从构建DAG开始到实现维特比算法的核心循环最后回溯得到最优分词结果。1. 数据准备与预处理首先我们需要准备词典和词频数据并计算每个词的负对数概率import math # 词典和词频数据 word_dict [经常,有,意见,意,见,有意见,分歧,分,歧] word_prob { 经常:0.08, 有:0.04, 意见:0.08, 意:0.01, 见:0.005, 有意见:0.002, 分歧:0.04, 分:0.02, 歧:0.005 } # 计算负对数概率 def build_prob_ln(prob_dict): return {word: -math.log(prob) for word, prob in prob_dict.items()} prob_ln build_prob_ln(word_prob) print(prob_ln)2. 构建有向无环图(DAG)接下来我们需要构建句子的有向无环图表示。图中的节点对应字符位置边代表可能的词语def build_dag(sentence, word_dict): dag {} n len(sentence) for i in range(n): temp [] for j in range(i1, n1): word sentence[i:j] if word in word_dict: temp.append(j) dag[i] temp if temp else [i1] # 如果没有匹配词单字成词 return dag sentence 经常有意见分歧 dag build_dag(sentence, word_dict) print(DAG:, dag)3. 实现维特比算法现在我们实现维特比算法的核心部分——动态规划求解最短路径def viterbi_segment(sentence, dag, prob_ln): n len(sentence) # 初始化DP表 dp [{prob: float(inf), prev: None, word: None} for _ in range(n1)] dp[0][prob] 0 # 起点的概率为0 # 动态规划填充DP表 for i in range(n): if dp[i][prob] float(inf): continue # 不可达节点跳过 for j in dag[i]: word sentence[i:j] current_prob dp[i][prob] prob_ln.get(word, 20) # 默认代价20 if current_prob dp[j][prob]: dp[j][prob] current_prob dp[j][prev] i dp[j][word] word # 回溯找出最优路径 if dp[n][prob] float(inf): return [] # 没有找到有效分词 seg [] i n while i 0: seg.append(dp[i][word]) i dp[i][prev] seg.reverse() return seg seg_result viterbi_segment(sentence, dag, prob_ln) print(分词结果:, seg_result)4. 完整代码整合将上述各部分整合成一个完整的中文分词器class ViterbiSegmenter: def __init__(self, word_dict, word_prob): self.word_dict word_dict self.word_prob word_prob self.prob_ln self._build_prob_ln() def _build_prob_ln(self): return {word: -math.log(prob) for word, prob in self.word_prob.items()} def _build_dag(self, sentence): dag {} n len(sentence) for i in range(n): temp [] for j in range(i1, n1): word sentence[i:j] if word in self.word_dict: temp.append(j) dag[i] temp if temp else [i1] return dag def segment(self, sentence): dag self._build_dag(sentence) n len(sentence) dp [{prob: float(inf), prev: None, word: None} for _ in range(n1)] dp[0][prob] 0 for i in range(n): if dp[i][prob] float(inf): continue for j in dag[i]: word sentence[i:j] current_prob dp[i][prob] self.prob_ln.get(word, 20) if current_prob dp[j][prob]: dp[j][prob] current_prob dp[j][prev] i dp[j][word] word if dp[n][prob] float(inf): return [] seg [] i n while i 0: seg.append(dp[i][word]) i dp[i][prev] seg.reverse() return seg # 使用示例 segmenter ViterbiSegmenter(word_dict, word_prob) result segmenter.segment(经常有意见分歧) print(分词结果:, result)算法优化与性能分析虽然基础的维特比算法已经能够完成分词任务但在实际应用中我们还需要考虑一些优化策略1. 词典数据结构优化使用Trie树前缀树来存储词典可以显著提高DAG构建的效率class TrieNode: def __init__(self): self.children {} self.is_word False class Trie: def __init__(self): self.root TrieNode() def insert(self, word): node self.root for char in word: if char not in node.children: node.children[char] TrieNode() node node.children[char] node.is_word True def build_dag(self, sentence): dag {} n len(sentence) for i in range(n): dag[i] [] node self.root for j in range(i, n): char sentence[j] if char not in node.children: break node node.children[char] if node.is_word: dag[i].append(j1) if not dag[i]: # 没有匹配词单字成词 dag[i] [i1] return dag2. 概率平滑处理对于未登录词词典中没有的词合理的概率估计很重要。常见的平滑方法有Additive (Laplace) smoothingGood-Turing估计Kneser-Ney平滑3. 性能对比让我们对比不同实现方式的性能实现方式时间复杂度空间复杂度适合场景基础实现O(n²)O(n)短文本、教学示例Trie树优化O(n*m)O(n)长文本、生产环境并行化实现O(n²/p)O(n*p)超长文本、分布式提示在实际应用中当文本长度超过1000字时建议使用Trie树优化的实现方式。实际应用中的挑战与解决方案虽然我们的分词器在小例子中表现良好但在实际应用中还会遇到各种挑战1. 歧义消解中文中存在大量的歧义切分问题例如乒乓球拍卖完了可以有多种切分方式。解决这类问题通常需要融入更多上下文信息使用更大的语言模型结合词性标注等额外信息2. 未登录词识别对于词典中没有的新词如网络流行语、专业术语等可以考虑基于统计的新词发现结合字符级别的特征使用深度学习模型捕捉字符组合模式3. 领域适应不同领域的文本有不同的词汇分布解决方案包括领域词典扩充领域自适应训练混合模型策略进阶方向与扩展思考掌握了基础的维特比分词器后你可以进一步探索以下方向融入更多特征除了词频还可以考虑词性、共现信息等与深度学习结合使用神经网络来估计转移概率和发射概率多模型融合将基于词典的方法与统计方法、深度学习方法结合特定领域优化针对医疗、法律等专业领域定制分词器# 示例融入二元语法特征 def bigram_prob(word1, word2): # 这里需要预先统计词共现频率 return estimated_prob # 在维特比算法中计算路径概率时考虑前一个词的影响 current_prob dp[i][prob] prob_ln.get(word, 20) bigram_prob(dp[i][word], word)中文分词作为NLP的基础环节虽然已经有相对成熟的技术方案但仍然存在许多值得深入研究的问题。通过自己动手实现一个基于维特比算法的分词器不仅能够深入理解动态规划在NLP中的应用还能为后续学习更复杂的序列标注模型如CRF、BiLSTM等打下坚实基础。

从收音机到锁相环：聊聊模拟乘法器这个‘古董’电路为何至今仍在发光发热

从收音机到锁相环：模拟乘法器的跨世纪技术生命力在数字技术席卷全球的今天，一个诞生于上世纪中叶的模拟电路——模拟乘法器，依然活跃在现代电子系统的关键环节。这种能够实现两个连续信号相乘功能的非线性器件，从早期的真空管实现…

2026/6/26 12:10:23 阅读更多

打破物理限制：在Windows上免费创建高性能虚拟显示器的终极指南

打破物理限制：在Windows上免费创建高性能虚拟显示器的终极指南【免费下载链接】parsec-vdd ✨ Perfect virtual display for game streaming 项目地址: https://gitcode.com/gh_mirrors/pa/parsec-vdd 你是否曾因物理显示器数量不足而限制了工作效率&#x…

2026/6/29 8:17:21 阅读更多

Multi-Agent 协作中的“争抢工具”问题：如何设计能力路由与调用仲裁机制

Multi-Agent 协作中的“争抢工具”问题：如何设计能力路由与调用仲裁机制摘要/引言开门见山想象一下：你搭建了一个由5个专家级Multi-Agent组成的超级助手，每个Agent都配备了最先进的工具集——代码解释器（Code Interpreter&…

2026/6/28 21:46:40 阅读更多

解决Mac Boot Camp驱动安装难题：跨平台自动化工具实战指南

解决Mac Boot Camp驱动安装难题：跨平台自动化工具实战指南【免费下载链接】brigadier Fetch and install Boot Camp ESDs with ease. 项目地址: https://gitcode.com/gh_mirrors/bri/brigadier 在Mac上安装Windows系统时，Boot Camp驱动自动下载和…

2026/6/29 13:28:33 阅读更多

FanControl完整指南：三步搞定Windows风扇智能控制，让电脑更安静更高效

FanControl完整指南：三步搞定Windows风扇智能控制，让电脑更安静更高效【免费下载链接】FanControl.Releases This is the release repository for Fan Control, a highly customizable fan controlling software for Windows. 项目地址: https://gitc…

2026/6/29 13:27:32 阅读更多

经典算法实例：从根到叶的二进制数之和

我们先来看题目描述：在二维平面上的 x 轴上，放置着一些方块。给出一棵二叉树，其上每个结点的值都是 0 或 1 。每一条从根到叶的路径都代表一个从最高有效位开始的二进制数。例如，如果路径为 0 -> 1 -> 1 -> 0 -> 1 &a…

2026/6/29 13:27:11 阅读更多

终极指南：5分钟掌握免费开源的PDF差异对比神器diff-pdf

终极指南：5分钟掌握免费开源的PDF差异对比神器diff-pdf 【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本管理而烦恼吗？每次修改后都要…

2026/6/29 13:26:28 阅读更多

MSPM0 ADC实战：时钟同步、窗口比较与DMA-FIFO高效数据采集

1. 项目概述与核心价值在嵌入式系统开发中，模拟信号采集是连接物理世界与数字世界的桥梁。无论是电池电压监控、温度传感器读取，还是电机电流检测，都离不开模数转换器（ADC）。然而，仅仅让ADC“转起来”是远远…

2026/6/29 13:26:28 阅读更多

PBI-从数据到洞察：告别Excel卡顿，三步构建动态商业视图

1. 为什么你的Excel总是卡顿？数据处理的三大痛点每次打开超过10万行的Excel文件时，电脑风扇是不是就开始疯狂转动？我曾经帮一家零售企业分析销售数据，他们的Excel文件包含3年、50万条交易记录，每次打开都要等5分钟&am…

2026/6/29 13:25:22 阅读更多

Java开发者转型安全开发：从代码审计到自动化工具实践

1. 转型背景与核心驱动力最近几年，身边不少做Java后端开发的朋友，都开始或多或少地关注起安全开发这个方向。我自己也是从写了七八年Java业务代码，一步步转向了安全领域，现在主要做代码审计和自动化安全工具开发。这个转变不是一时…

2026/6/29 0:00:05 阅读更多

【TEE从入门到精通及实战】75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证”

75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证” 开篇故事去年夏天，我正帮一家金融科技公司优化他们的TEE内Wasm沙箱。他们的核心业务是在Intel SGX enclave里运行用户提交的Wasm合约，用于实时交易验证。一天下午，运维突然报警：生产环境的enclave进程频繁崩…

2026/6/29 0:00:05 阅读更多

YAML函数动态解析：打造智能接口自动化测试用例

1. 项目概述：为什么YAML测试用例需要函数动态解析？在接口自动化测试的实践中，我们常常会面临一个核心矛盾：测试用例的可维护性与灵活性。早期的测试脚本，无论是用Python的unittest还是pytest，往往将测试数据…

2026/6/29 0:00:05 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/6/29 0:00:05 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/6/29 1:23:10 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/6/29 1:23:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/29 13:06:32 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/28 13:30:24 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/28 13:30:22 阅读更多

相关文章

从收音机到锁相环：聊聊模拟乘法器这个‘古董’电路为何至今仍在发光发热

打破物理限制：在Windows上免费创建高性能虚拟显示器的终极指南

Multi-Agent 协作中的“争抢工具”问题：如何设计能力路由与调用仲裁机制

解决Mac Boot Camp驱动安装难题：跨平台自动化工具实战指南

FanControl完整指南：三步搞定Windows风扇智能控制，让电脑更安静更高效

经典算法实例：从根到叶的二进制数之和

终极指南：5分钟掌握免费开源的PDF差异对比神器diff-pdf

MSPM0 ADC实战：时钟同步、窗口比较与DMA-FIFO高效数据采集

PBI-从数据到洞察：告别Excel卡顿，三步构建动态商业视图

Java开发者转型安全开发：从代码审计到自动化工具实践

【TEE从入门到精通及实战】75 TEE内Wasm沙箱的内存安全：从“段错误”到“编译时保证”

YAML函数动态解析：打造智能接口自动化测试用例

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因