第四章 文本向量化与分段策略4.1 向量化分段的核心目标向量化分段本质是在信息完整性、检索精度、计算成本之间做平衡保证单段内语义完整、不割裂控制段长适配模型上下文窗口便于后续召回、排序和引用4.2 分段通用原则语义优先优先按章节、段落、主题块切分不强行截断句子。长度控制常见区间2561024 token知识库问答偏短256–512精度更高长文档理解偏长512–1024重叠分段Overlap建议重叠32128 token避免关键信息被截断在两段之间。结构化保留标题、层级、列表、表格尽量保留结构信息。4.3 分段方法与实现思路按自然段落分段适合文章、博客、说明书按\n\n分割超过阈值再递归切分按标题层级分段适合文档、手册H1/H2/H3 作为块边界同一标题下内容作为一个整体滑动窗口分段适合无结构长文本固定窗口 重叠简单粗暴、工程上最稳定语义聚类分段进阶方案先做短句 embedding用相似度聚类/分割点检测适合高要求 RAG 场景4.4 工程实现伪代码Python 风格defsplit_document(text,max_tokens512,overlap_tokens64):# 1. 先按自然段落切分paragraphstext.split(\n\n)chunks[]current_chunk[]current_len0forpinparagraphs:tokenscount_tokens(p)ifcurrent_lentokensmax_tokens:# 保存当前块chunks.append(\n\n.join(current_chunk))# 重叠部分保留keepcurrent_chunk[-2:]iflen(current_chunk)2elsecurrent_chunk current_chunkkeep current_lencount_tokens(\n\n.join(current_chunk))current_chunk.append(p)current_lentokensifcurrent_chunk:chunks.append(\n\n.join(current_chunk))returnchunks4.5 向量化模型选型要点通用场景bge-small/base-large、m3e、text-embedding-ada-002垂直领域用领域语料做微调 embedding 效果提升明显维度选择768/1024 主流兼顾精度与向量库压力4.6 常见坑与规避只按字符长度切强行截断句子→ 语义破碎无重叠 → 关键信息落在两段之间检索不到段太长 → embedding 泛化召回不准段太短 → 上下文不足语义太碎
【AI大模型】----大模型后端工程实战:从架构落地到业务赋能---【第四章 】 文本向量化与分段策略
发布时间:2026/6/8 15:10:02
第四章 文本向量化与分段策略4.1 向量化分段的核心目标向量化分段本质是在信息完整性、检索精度、计算成本之间做平衡保证单段内语义完整、不割裂控制段长适配模型上下文窗口便于后续召回、排序和引用4.2 分段通用原则语义优先优先按章节、段落、主题块切分不强行截断句子。长度控制常见区间2561024 token知识库问答偏短256–512精度更高长文档理解偏长512–1024重叠分段Overlap建议重叠32128 token避免关键信息被截断在两段之间。结构化保留标题、层级、列表、表格尽量保留结构信息。4.3 分段方法与实现思路按自然段落分段适合文章、博客、说明书按\n\n分割超过阈值再递归切分按标题层级分段适合文档、手册H1/H2/H3 作为块边界同一标题下内容作为一个整体滑动窗口分段适合无结构长文本固定窗口 重叠简单粗暴、工程上最稳定语义聚类分段进阶方案先做短句 embedding用相似度聚类/分割点检测适合高要求 RAG 场景4.4 工程实现伪代码Python 风格defsplit_document(text,max_tokens512,overlap_tokens64):# 1. 先按自然段落切分paragraphstext.split(\n\n)chunks[]current_chunk[]current_len0forpinparagraphs:tokenscount_tokens(p)ifcurrent_lentokensmax_tokens:# 保存当前块chunks.append(\n\n.join(current_chunk))# 重叠部分保留keepcurrent_chunk[-2:]iflen(current_chunk)2elsecurrent_chunk current_chunkkeep current_lencount_tokens(\n\n.join(current_chunk))current_chunk.append(p)current_lentokensifcurrent_chunk:chunks.append(\n\n.join(current_chunk))returnchunks4.5 向量化模型选型要点通用场景bge-small/base-large、m3e、text-embedding-ada-002垂直领域用领域语料做微调 embedding 效果提升明显维度选择768/1024 主流兼顾精度与向量库压力4.6 常见坑与规避只按字符长度切强行截断句子→ 语义破碎无重叠 → 关键信息落在两段之间检索不到段太长 → embedding 泛化召回不准段太短 → 上下文不足语义太碎