第3章:Tokenizer 入门与文本预处理实战 1 项目背景业务场景客服中心运营主管王姐发现一个诡异现象:智能工单分类系统的准确率在内部测试集上高达 92%,但上线两周后实际准确率只有 71%。她找来算法工程师小陈排查原因。小陈对比了训练数据和线上数据,发现三个致命差异:用户输入不规范:"为撒子我的单子还没有到"(含方言、错别字)、"昨天上午9:30下的单,今天下午3:00还没发货😡"(含时间、数字、emoji)、"商品描述说颜色是【雾霾蓝】,收到的是【天空蓝】,我就想问客服这TM叫雾霾蓝???"(含标点滥用、敏感词)。长度分布偏差:训练数据平均长度 50 tokens,但线上用户投诉工单平均 180 tokens,超过 15% 的工单超过模型最大输入长度 512 tokens,被直接截断。特殊字符处理不一致:训练时的 tokenizer 对 emoji 和全角符号做了特殊处理,但线上用的 tokenizer 配置不同,同一句"亲,东西不错🙂"被编码为完全不同的 token 序列。Tokenization(分词)是文本进入模型的第一道工序,却最容易被忽视。三个核心痛点:┌──────────────────┐ │ 原始文本 │ "亲,东西不错🙂,但物流太慢😡" └───────┬──────────┘ │ Tokenizer