第13章:模型保存、导出与本地推理封装 1 项目背景业务场景算法团队训练好客服工单分类模型后,后端工程师小李需要把这个模型集成到 Spring Boot 服务中。小陈把模型文件打包发给了小李——一个文件夹,里面有config.json、pytorch_model.bin、tokenizer_config.json、vocab.txt等 7 个文件。小李打开一看就懵了:"这些文件哪个是模型?怎么在 Java 里加载 Python 写的模型?"小陈提议用 Python 写一个推理脚本,暴露 HTTP 接口给 Java 调用。于是小陈写了一个predict.py,每次调用都AutoModel.from_pretrained()加载一次模型——结果首次调用耗时 8 秒(加载模型),后续每次调用耗时 200ms,生产流量一上来,P95 延迟直接飙到 5 秒。测试团队也在抱怨:每次运行自动化测试都要重新下载模型(Github Actions 上网络不稳定),测试经常因模型下载超时而失败。痛点模型从训练完成到可以稳定被业务系统调用,中间有一道"最后一公里"工程难题:加载慢:from_pretrained()每次调用都重新加载,8 秒的冷启动在生产中不可接受文件散乱:7 个文件缺一不可,部