nlp自然语言处理（2）

发布时间：2026/6/24 8:45:56

1.定义自然语言处理Natural Language Processing, NLP是人工智能领域的一个重要分支。自然语言指人类日常使用的语言如中文、英文NLP的目标是让计算机“理解”或“使用”这些语言。文本表示分词子词级分词是一种介于词级分词与字符级分词之间的分词方法它将词语切分为更小的单元——子词subword例如词根、前缀、后缀或常见词片段。与词级分词相比子词分词可以显著缓解OOV问题与字符级分词相比它能更好地保留一定的语义结构。子词分词的基本思想是即使一个完整的词没有出现在词表中只要它可以被拆分为词表中存在的子词单元就可以被模型识别和表示从而避免整体被替换为。常见的子词分词算法包括BPEByte Pair Encoding 、WordPiece 和 Unigram Language Model。其中BPE是最早被广泛应用的方法其需要先从语料中学习一个子词词表基本原理是首先将所有词语拆分为单个字符然后迭代地统计语料中出现频率最高的字符对将其合并为一个新的子词并加入词表。该过程持续进行直到达到设定的词表大小。然后再根据词表对新输入的文本进行分词其基本原理是从输入文本的第一个字符开始优先选择词表中能够匹配的最长子词单元然后继续处理剩余部分直到完成整个序列的切分。子词级分词已经成为现代英文NLP模型中的主流方法如BERT、GPT等模型均采用了基于子词的分词机制。分词工具基于词典或模型的传统方法主要以“词”为单位进行切分代表工具包括jieba、HanLP等这些工具广泛应用于传统NLP任务中。基于子词建模算法如BPE的方式从数据中自动学习高频字组合构建子词词表。代表工具包括Hugging Face Tokenizer、SentencePiece、tiktoken等常用于大规模预训练语言模型中。GitHub - huggingface/tokenizers: Fast State-of-the-Art Tokenizers optimized for Research and ProductionGitHub - google/sentencepiece: Unsupervised text tokenizer for Neural Network-based text generation.GitHub - openai/tiktoken: tiktoken is a fast BPE tokeniser for use with OpenAI’s models.GitHub - fxsjy/jieba: 结巴中文分词GitHub - hankcs/HanLP: 中文分词词性标注命名实体识别依存句法分析成分句法分析语义依存分析语义角色标注指代消解风格转换语义相似度新词发现关键词短语提取自动摘要文本分类聚类拼音简繁转换自然语言处理词表示语义化词向量传统的one-hot表示虽然结构简单但它无法反映词语之间的语义关系也无法衡量词与词之间的相似度。为了解决这个问题研究者提出了Word2Vec模型它通过对大规模语料的学习为每个词生成一个具有语义意义的稠密向量表示。这些向量能够在连续空间中表达词与词之间的关系使得“意思相近”的词在空间中距离更近。Word2Vec的设计理念源自“分布假设”——即一个词的含义由它周围的词决定。Word2Vec原理Word2Vec不依赖人工标注而是直接利用大规模原始文本如书籍、新闻、网页等作为数据源从中自动构造训练样本。由于两种模型的输入和输出都是词语因此首先需要对原始文本进行分词将连续文本转换为token序列。此外模型无法直接处理文本符号训练时仍需将词语转换为one-hot编码以便作为模型的输入和输出进行计算。:::infoCBOWContinuous Bag-of-Words模型输入是一个词的上下文即前后若干个词模型的目标是预测中间的目标词。:::CBOW模型的前向传播过程如下1.输入上下文词乘坐、上班每个词用one-hot向量表示。2.查找词向量W每个one-hot向量与参数矩阵W相乘查出对应的词向量。W实际上就是词向量矩阵每一行表示一个词的向量3.平均上下文向量将多个上下文词向量取平均得到一个整体的上下文表示。4.预测中心词将平均后的上下文向量与参数矩阵Wout相乘得到对整个词表的预测得分。5.Softmax输出将得分输入Softmax得到每个词作为中心词的概率分布。6.计算损失将预测结果与真实中心词“地铁”的one-hot向量进行比对计算交叉熵损失。之后在进行反向传播时参数矩阵Win中“乘坐”和“上班”对应的词向量就会被更新。模型通过不断训练逐步优化这些向量最终便能得到具有语义的词向量。:::infoSkip-gram模型输入是一个中心词模型的目标是预测其上下文中的所有词即前后若干个词。:::前向传播过程如下1.输入中心词地铁“地铁”用one-hot向量表示2.查找词向量W与参数矩阵W相乘取出“地铁”对应的词向量。W实际上就是词向量矩阵每一行表示一个词的向量3.预测上下文将中心词向量与参数矩阵Wout相乘得到对整个词表的预测得分。4.Softmax输出得分通过Softmax转为概率分布表示各词作为上下文的可能性。5.计算损失与真实上下文词“乘坐”、“上班”进行比对计算交叉熵损失并求和得到总损失。之后在进行反向传播时参数矩阵W中的“地铁”对应的词向量就会被更新模型通过这个过程不断的进行学习最终便能得到具有语义的词向量。2.传统序列模型RNNRNN循环神经网络的核心结构是一个具有循环连接的隐藏层它以时间步time step为单位依次处理输入序列中的每个token。在每个时间步RNN接收当前token的向量和上一个时间步的隐藏状态即隐藏层的输出计算并生成新的隐藏状态并将其传递到下一时间步。其中隐藏层的计算公式为 ℎℎ(ℎ―1ℎ)torch.nn.RNN(input_size,hidden_size,num_layers1,nonlinearitytanh,biasTrue,batch_firstFalse,dropout0.0,bidirectionalFalse,deviceNone,dtypeNone,)参数名类型说明input_sizeint每个时间步输入特征的维度词向量维度hidden_sizeint隐藏状态的维度num_layersintRNN层数默认为1nonlinearitystr激活函数‘tanh’默认或’relu’biasbool是否使用偏置项默认Truebatch_firstbool输入张量是否是(batch, seq, feature)默认False表示(seq, batch, feature)dropoutfloat除最后一层外其余层之间的dropout概率bidirectionalbool是否为双向RNN默认Falsedevicetorch.device or str模块的初始化设备如’cuda’, ‘cpu’dtypetorch.dtype模块初始化时的默认数据类型如torch.float32rnntorch.nn.RNN()output,h_nrnn(input,h_0)input输入序列形状为(seq_len, batch_size, input_size)如batch_firstTrue则为(batch_size, seq_len, input_size)h_0可选初始隐藏状态形状为(num_layers × num_directions, batch_size, hidden_size)outputRNN层的输出包含最后一层每个时间步的隐藏状态形状为(seq_len,batch_size, num_directions × hidden_size )如果batch_firstTrue则为 (batch_size, seq_len, num_directions × hidden_size )h_n最后一个时间步的隐藏状态包含每一层的每个方向形状为(num_layers ×num_directions, batch_size, hidden_size)常见的NLP任务类型有哪些至少说出三种文本分类、序列标注、文本生成、信息抽取、文本转换英文分词有哪些分词粒度词级分词、字符级分词、子词分词双向RNN的意义是什么多层RNN的意义是什么使每个时间步都可以获取上下文的信息每层提取不同的语义例如底层提取局部信息词组短语高层提取更抽象的语义信息句子含义

莫小琳2547102109

#include<iostream> using namespace std; int main() {char a[100];int i 0, j 0;//i表示长度bool flag 1;cout << "2547102109 莫小琳" << endl;cout << "请输入任何字符串或者数字" << endl;cin >> a;int k i …

2026/6/24 8:45:36 阅读更多

进销存软件选型技术分析：简约化设计如何提升中小企业管理效率

背景介绍近年来，随着中小微企业数字化转型加速，进销存软件市场呈现爆发式增长。据《2026年中国中小企业信息化发展报告》显示，约73%的零售贸易型企业已将进销存系统作为日常管理的核心工具。然而，面对市场上数百款功能各异的软件…

2026/6/24 8:44:34 阅读更多

单细胞NMF非负矩阵分解降维及亚群分析应用

单细胞NMF非负矩阵分解降维及亚群分析应用 NMF非负矩阵分解是一种降维技术，可以应用在高维数据如单细胞数据（104基因乘以105细胞）、空转数据邻域分析：squidpystSMENMF分解中的分析方法。以单细胞转录组数据为例，它可以…

2026/6/24 8:43:12 阅读更多

如何永久保存B站视频：m4s-converter完整使用指南

如何永久保存B站视频：m4s-converter完整使用指南【免费下载链接】m4s-converter 一个跨平台小工具，将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 你是否曾经遇到过这样的情况&#x…

2026/6/24 9:58:07 阅读更多

LeagueAkari：英雄联盟玩家的终极本地智能助手指南

LeagueAkari：英雄联盟玩家的终极本地智能助手指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 在英雄联盟的对局中，…

2026/6/24 9:58:07 阅读更多

从零到一：部署基于 FastAPI + ChromaDB + DeepSeek 的 RAG 知识库问答小程序

前言前段时间接到一个需求：为公司开发一款微信小程序，用户输入设备故障现象，系统能够自动匹配知识库并给出对应的原因分析和解决办法。简单说，就是做一个 AI 智能问答助手。经过一个多月的开发，项目终于成功部署上线了…

2026/6/24 9:57:20 阅读更多

解锁Windows网络测速神器：iperf3-win-builds全面指南

解锁Windows网络测速神器：iperf3-win-builds全面指南【免费下载链接】iperf3-win-builds iperf3 binaries for Windows. Benchmark your network limits. 项目地址: https://gitcode.com/gh_mirrors/ip/iperf3-win-builds 还在为网络速度不稳定而烦恼吗&…

2026/6/24 9:55:50 阅读更多

终极指南：如何免费解锁Microsoft 365完整功能

终极指南：如何免费解锁Microsoft 365完整功能【免费下载链接】ohook An universal Office "activation" hook with main focus of enabling full functionality of subscription editions 项目地址: https://gitcode.com/gh_mirrors/oh/ohook 还在…

2026/6/24 9:55:30 阅读更多

如何用libdxfrw轻松实现CAD文件格式转换：打破AutoCAD壁垒的终极指南

如何用libdxfrw轻松实现CAD文件格式转换：打破AutoCAD壁垒的终极指南【免费下载链接】libdxfrw C library to read and write DXF/DWG files 项目地址: https://gitcode.com/gh_mirrors/li/libdxfrw 还在为CAD文件格式转换而烦恼吗？想象一下&…

2026/6/24 9:55:30 阅读更多

软件直方图管理化的分布分析

软件直方图管理化的分布分析：数据洞察的新视角在当今数据驱动的时代，软件直方图管理化的分布分析成为挖掘数据价值的重要工具。直方图通过可视化数据的分布特征，帮助用户快速识别趋势、异常和规律。无论是统计分析、质量管理还是业务决策&a…

2026/6/24 1:02:47 阅读更多

分布式系统一致性算法详解

分布式系统一致性算法详解在当今互联网和大数据时代，分布式系统已成为支撑高并发、高可用的核心技术架构。分布式系统的节点间通信存在延迟、故障等问题，如何保证数据一致性成为关键挑战。一致性算法正是解决这一问题的核心方法，它们确保系…

2026/6/24 1:04:08 阅读更多

Jenkins 管道(Pipeline)脚本编写坑

Jenkins管道(Pipeline)脚本编写坑：避坑指南与实践在现代DevOps实践中，Jenkins管道(Pipeline)因其灵活性和可扩展性成为持续集成与交付的核心工具。编写高效稳定的Pipeline脚本时，开发者常会遇到各种“坑”，轻则导致构建失败&…

2026/6/24 1:04:28 阅读更多

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/24 0:45:51 阅读更多

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程【免费下载链接】diff-pdf A simple tool for visually comparing two PDF files 项目地址: https://gitcode.com/gh_mirrors/di/diff-pdf 还在为PDF文档的版本对比而烦恼吗？diff-pdf这款开…

2026/6/24 0:45:51 阅读更多

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/24 0:45:51 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/23 12:17:43 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/23 12:17:43 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/23 12:17:43 阅读更多

相关文章

莫小琳2547102109

进销存软件选型技术分析：简约化设计如何提升中小企业管理效率

单细胞NMF非负矩阵分解降维及亚群分析应用

如何永久保存B站视频：m4s-converter完整使用指南

LeagueAkari：英雄联盟玩家的终极本地智能助手指南

从零到一：部署基于 FastAPI + ChromaDB + DeepSeek 的 RAG 知识库问答小程序

解锁Windows网络测速神器：iperf3-win-builds全面指南

终极指南：如何免费解锁Microsoft 365完整功能

如何用libdxfrw轻松实现CAD文件格式转换：打破AutoCAD壁垒的终极指南

软件直方图管理化的分布分析

分布式系统一致性算法详解

Jenkins 管道(Pipeline)脚本编写坑

Google AI Studio 300美元额度的真相与实战指南

PDF对比终极指南：用diff-pdf轻松识别文档差异的完整教程

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因