学习文本处理

发布时间：2026/6/11 6:27:52

文本的常见预处理步骤这些步骤通常包括将文本作为字符串加载到内存中。将字符串拆分为词元如单词和字符。建立一个词表将拆分的词元映射到数字索引。将文本转换为数字索引序列方便模型操作。import collections import re from d2l import torch as d2l #save d2l.DATA_HUB[time_machine] (d2l.DATA_URL timemachine.txt, 090b5e7e70c295757f55df93cb0a180b9691891a) def read_time_machine(): #save 将时间机器数据集加载到文本行的列表中 with open(d2l.download(time_machine), r) as f: lines f.readlines() return [re.sub([^A-Za-z], , line).strip().lower() for line in lines]#.strip() 移除字符串开头和结尾的空格 lines read_time_machine() print(f# 文本总行数: {len(lines)}) print(lines[0]) print(lines[10]) Downloading ../data\timemachine.txt from http://d2l-data.s3-accelerate.amazonaws.com/timemachine.txt... # 文本总行数: 3221 the time machine by h g wells twinkled and his usually pale face was flushed and animated there.sub(pattern, replacement, string)[^A-Za-z] 是一个正则表达式模式[^...]表示“否定字符集”即匹配不在这个集合中的任意字符。A-Za-z表示所有英文字母大写和小写。所以 [^A-Za-z]匹配任何非字母的字符如数字、标点、空格、换行等。表示前面的字符出现一次或多次即连续的非字母字符会被当作一个整体匹配。第二个参数是替换内容这里是一个空格。第三个参数 line 是要处理的原始字符串。因此整句的作用是将字符串 line中所有连续的非字母字符包括多个连续的非字母字符都替换成一个空格。例如输入 Hello, World! 123→ 输出 Hello World注意末尾可能有一个空格然后你后面还用了 .strip()去掉首尾空格.lower()转成小写最终得到纯英文单词组成的干净文本。词元化:def tokenize(lines, tokenword): #save 将文本行拆分为单词或字符词元 if token word: return [line.split() for line in lines] elif token char: return [list(line) for line in lines] else: print(错误未知词元类型 token) tokens tokenize(lines) for i in range(11): print(tokens[i]) print(type(tokens)) # class list print(type(tokens[0])) # class list 因为 tokens[0] 也是一个列表 print(type(tokens[0][0])) # class str最终tokens是一个二维列表外层是行索引内层是该行的词元列表单词或字符word和 char的主要区别在于词元化的粒度不同tokenword使用 line.split()将每行文本按空白字符空格、制表符等分割成一个个单词词元。因为前面已经用 re.sub([^A-Za-z], , line)把所有非字母字符替换成了空格所以此时每行只有连续的英文字母和空格split()会返回一个由单词组成的列表。例如the time machine→ [the, time, machine]tokenchar使用 list(line)直接将字符串转换为字符列表每个字符包括空格都是一个独立的词元。例如the time→ [t,h,e, ,t,i,m,e]单词级词元化常用于大多数自然语言处理任务如文本分类、翻译。字符级词元化用于处理拼写错误、罕见词或某些序列建模场景如字符级 RNN。两种处理方式区别:line the time machine by h g wellswords line.split()print(words) # [the, time, machine, by, h, g, wells]它自动识别连续的空格并忽略开头和结尾的空格。每个单词成为一个独立的字符串元素。------------------------------list()是一个内置函数可以将任何可迭代对象如字符串、元组、集合等转换为一个列表。当参数是字符串时它会将字符串中的每个字符包括空格、标点作为列表的一个元素。line the time machine by h g wellschars list(line)print(chars)# 输出[t, h, e, , t, i, m, e, , m, a, c, h, i, n, e, , b, y, , h, , g, , w, e, l, l, s]在列表推导式中[list(line) for line in lines]是一种简写形式等价于result [] for line in lines: result.append(list(line))它遍历lines中的每一行对每一行执行list(line)然后把结果收集到一个新列表result中。2.range(11)是什么意思range(11)生成整数序列0, 1, 2, ..., 10共 11 个数。所以for i in range(11)会执行 11 次循环依次打印tokens[0],tokens[1], …,tokens[10]。词表:构建一个字典通常也叫做词表vocabulary 用来将字符串类型的词元映射到从开始的数字索引中]。我们先将训练集中的所有文档合并在一起对它们的唯一词元进行统计得到的统计结果称之为语料corpus。然后根据每个唯一词元的出现频率为其分配一个数字索引。很少出现的词元通常被移除这可以降低复杂性。另外语料库中不存在或已删除的任何词元都将映射到一个特定的未知词元“unk”。我们可以选择增加一个列表用于保存那些被保留的词元例如填充词元“pad” 序列开始词元“bos” 序列结束词元“eos”。import collections def count_corpus(tokens): #save 统计词元的频率 # 如果tokens是空列表或者第一个元素是列表即二维列表则需要展平 if len(tokens) 0 or isinstance(tokens[0], list): # 使用双重循环列表推导式将二维列表展平为一维列表 # 外层for line in tokens遍历每一行内层for token in line遍历行内每个词元 tokens [token for line in tokens for token in line] # collections.Counter返回一个字典键为词元值为出现次数 return collections.Counter(tokens) class Vocab: #save 文本词表 def __init__(self, tokensNone, min_freq0, reserved_tokensNone): #min_freq的意思是 “最小词频阈值”Minimum Frequency。设置它的主要目的是为了过滤掉罕见词生僻字/词。 # 如果未提供tokens初始化为空列表 if tokens is None: tokens [] # 如果未提供reserved_tokens初始化为空列表 if reserved_tokens is None: reserved_tokens [] # 统计词频并排序按频率降序 counter count_corpus(tokens) # counter.items()返回(key, value)对sorted按value频率降序排列 self._token_freqs sorted(counter.items(), keylambda x: x[1], reverseTrue) # 初始化索引到词元的列表索引0固定为unk未知词元然后追加预留词元 self.idx_to_token [unk] reserved_tokens # 根据idx_to_token建立词元到索引的映射字典 self.token_to_idx {token: idx for idx, token in enumerate(self.idx_to_token)} # 遍历排序后的词频列表已按频率从高到低 for token, freq in self._token_freqs: # 如果当前词元频率小于min_freq由于列表已排序后续频率只会更低直接跳出 if freq min_freq: break # 如果该词元还未添加到词表中即不在token_to_idx中 if token not in self.token_to_idx: # 将词元追加到idx_to_token末尾索引为当前列表长度减1 self.idx_to_token.append(token) self.token_to_idx[token] len(self.idx_to_token) - 1 def __len__(self): 返回词表大小词元总数 return len(self.idx_to_token) def __getitem__(self, tokens): 将词元或词元列表转换为索引 # 如果输入不是列表或元组即单个词元 if not isinstance(tokens, (list, tuple)): # 尝试在token_to_idx中查找找不到则返回self.unk即0对应unk return self.token_to_idx.get(tokens, self.unk) # 如果输入是列表或元组递归地对每个元素调用__getitem__返回索引列表 return [self.__getitem__(token) for token in tokens] def to_tokens(self, indices): 将索引或索引列表转换为词元 # 如果输入不是列表或元组即单个索引 if not isinstance(indices, (list, tuple)): # 直接从idx_to_token中取对应位置的词元 return self.idx_to_token[indices] # 如果输入是列表或元组返回词元列表 return [self.idx_to_token[index] for index in indices] property def unk(self): 未知词元的索引固定为0 return 0 property def token_freqs(self): 返回词频列表按频率降序排列 return self._token_freqs索引建立的核心机制Vocab类使用两个数据结构协同工作列表self.idx_to_token存储所有词元列表的下标就是该词元的索引。字典self.token_to_idx存储每个词元对应的索引用于快速查找。索引的分配过程完全由这两个结构的同步更新来保证唯一性。预留词元已预先占用索引在遍历词频列表之前unk和预留词元已经占据了索引0,1,…后续添加的新词元从下一个空闲索引开始不会覆盖它们。当多个词元出现频率相同时它们的索引分配顺序取决于sorted函数的稳定性和Counter的迭代顺序。关键点sorted是稳定排序在 Python 中sorted采用稳定排序算法Timsort这意味着当比较键此处为频率相等时元素的相对顺序保持不变。也就是说如果两个词元频率相同它们在counter.items()中的原始出现顺序决定了谁先谁后。Counter的顺序Python 3.7 中字典包括Counter保持插入顺序。count_corpus函数中Counter(tokens)会按照词元第一次出现的时间顺序记录。因此频率相同的词元会按照它们在原始语料中首次出现的先后顺序进入排序后的列表。def load_corpus_time_machine(max_tokens-1): #save 返回时光机器数据集的词元索引列表和词表参数: max_tokens (int): 最大词元数量-1表示使用全部返回: corpus (list): 一维整数列表每个元素是字符对应的索引 vocab (Vocab): 词表对象包含字符到索引的映射 # 1. 读取原始文本行已预处理为小写、去除非字母字符 lines read_time_machine() # 2. 将文本行按字符级别分词得到二维列表 tokens # tokens[i] 是第 i 行的字符列表如 [t,h,e, ,t,i,m,e,...] tokens tokenize(lines, char) # 3. 基于所有字符构建词表 Vocab # 自动统计每个字符的频率分配索引0为unk其余按频率降序 vocab Vocab(tokens) # 4. 将二维 tokens 展平为一维 corpus并将每个字符转换为索引 # 双重循环外层遍历每一行内层遍历行内的每个字符 # vocab[token] 调用 __getitem__ 返回字符对应的索引 corpus [vocab[token] for line in tokens for token in line] # 5. 如果指定了 max_tokens正数截取前 max_tokens 个词元 if max_tokens 0: corpus corpus[:max_tokens] # 6. 返回词元索引列表和词表对象 return corpus, vocab # 调用函数使用全部数据max_tokens-1 默认 corpus, vocab load_corpus_time_machine() # 打印结果 # len(corpus)总字符数展平后的长度 # len(vocab)词表大小包含unk在内的不同字符种类数 print(len(corpus), len(vocab)) (170580, 28) len(corpus) 170580整个《时间机器》文本的总字符数包括空格。 len(vocab) 28词表中不同的字符种类数26个小写字母空格 unk。corpus是一个一维整数列表例如 [12, 15, 18, ...]每个数字对应一个字符的索引。vocab是 Vocab类的实例可以通过 vocab.token_to_idx查看字符到索引的映射通过 vocab.idx_to_token查看索引到字符的映射。len(corpus)是整个《时光机器》文本去掉非字母字符后的总字符数。len(vocab)是词表大小通常包括 unk、空格和所有出现过的字母a-z等。

MC9S12XE Flash模块高级功能解析：安全访问、分区与EEPROM仿真

1. 项目概述：深入理解MC9S12XE的Flash模块在嵌入式系统开发，尤其是汽车电子和工业控制领域，MC9S12XE系列微控制器因其高可靠性和丰富的片上资源而被广泛应用。其核心的非易失性存储单元——Flash存储器，不仅是程序代码的“家”&am…

2026/6/11 6:26:11 阅读更多

MATLAB实战：用分段函数可视化自抗扰控制中的fal函数（附完整代码）

MATLAB实战：用分段函数可视化自抗扰控制中的fal函数（附完整代码）在控制系统的设计与分析中，非线性函数扮演着至关重要的角色。自抗扰控制（ADRC）作为一种先进的控制策略，其核心之一就是fal函数—…

2026/6/11 6:26:11 阅读更多

终极指南：如何用Parsec VDD免费创建无限虚拟显示器

终极指南：如何用Parsec VDD免费创建无限虚拟显示器【免费下载链接】parsec-vdd ✨ Perfect virtual display for game streaming 项目地址: https://gitcode.com/gh_mirrors/pa/parsec-vdd Parsec VDD是一款功能强大的虚拟显示驱动技术，它能让Wi…

2026/6/11 6:24:09 阅读更多

终极解决方案：如何用sguard_limit彻底解决腾讯游戏卡顿问题

终极解决方案：如何用sguard_limit彻底解决腾讯游戏卡顿问题【免费下载链接】sguard_limit 限制ACE-Guard Client EXE占用系统资源，支持各种腾讯游戏项目地址: https://gitcode.com/gh_mirrors/sg/sguard_limit 你是否在玩腾讯游戏时经常遇到莫名…

2026/6/11 7:47:42 阅读更多

【时间之外】AI写了2000行代码，你敢点提交吗？

目录场景模拟真相有点扎心怎么解决？ 小PR到底香在哪？ 几个避坑提醒现在的主要工作不是写代码了，但是AI的盛行，让我依然关注代码的优化，前面有些文章研究了如何用AI帮忙写代码。参见这个系列：【开…

2026/6/11 7:47:42 阅读更多

【腾讯位置服务征文大赛】环境搭建篇 —— 基于 CodeBuddy 从零配置开发环境

【腾讯位置服务征文大赛】环境搭建篇 —— 基于 CodeBuddy 从零配置开发环境目录【腾讯位置服务征文大赛】环境搭建篇 —— 基于 CodeBuddy 从零配置开发环境前言 1 为什么推荐新手用 CodeBuddy 做腾讯 LBS 开发？ 2 CodeBuddy IDE 下载与安装&#xff0…

2026/6/11 7:47:22 阅读更多

终极指南：基于计算机视觉的足球比赛智能分析系统架构与实现

终极指南：基于计算机视觉的足球比赛智能分析系统架构与实现【免费下载链接】sports computer vision and sports 项目地址: https://gitcode.com/gh_mirrors/sp/sports 在现代体育分析领域，足球比赛智能分析系统正通过先进的计算机视觉技术彻底改…

2026/6/11 7:46:01 阅读更多

手把手教你用Matlab复刻RTKPlot的天空视图（附源码与数据）

用Matlab打造专业级GNSS卫星天空视图：从数据解析到可视化实战在GNSS数据处理领域，天空视图(Skyplot)是评估卫星空间分布与信号质量的重要工具。这种极坐标可视化将卫星的方位角(azimuth)和高度角(elevation)转化为直观的二维图形，帮助工程师快…

2026/6/11 7:46:01 阅读更多

用51单片机和YL-69传感器DIY一个智能浇花器，再也不用担心出门花枯了

用51单片机和YL-69传感器DIY智能浇花器：从零打造你的植物管家每次出差回家，看到阳台上枯萎的绿植都让人心疼？作为电子爱好者和植物杀手双重身份的我，终于找到了完美解决方案——用最基础的51单片机和YL-69土壤湿度传感器&#xff…

2026/6/11 7:45:01 阅读更多

LLM 多轮对话状态管理：从无状态 API 到有状态会话

LLM 多轮对话状态管理：从无状态 API 到有状态会话一、大模型 API 的无状态困境：上下文窗口的有限性与会话连续性大模型的 Chat API 本质上是无状态的——每次请求都需要发送完整的对话历史。这种设计简化了服务端实现，但给后端架构带来了两个…

2026/6/11 1:00:57 阅读更多

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命一、JVM 冷启动的性能困境：云原生环境下的启动延迟 Java 应用在云原生环境中面临的核心挑战是冷启动延迟。一个典型的 Spring Boot 2 应用，启动时间约 3-8 秒，内存占…

2026/6/11 1:01:58 阅读更多

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践一、Go 错误处理的工程困境：哨兵值与信息丢失 Go 的错误处理采用显式返回值模式，if err ! nil 是每个 Go 开发者最熟悉的代码片段。然而，当项目规模增长后，简…

2026/6/11 1:01:58 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/10 9:56:42 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/10 9:56:39 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/10 9:56:34 阅读更多

相关文章