第七章指令微调学习（五）Extracting and saving responses

发布时间：2026/5/23 13:18:22

第七章指令微调学习五7.7 Extracting and saving responses在对指令数据集的训练部分完成LLM的微调后现在评估其在保留测试集上的性能。首先我们提取测试集中每个输入对应的模型生成响应并进行人工分析随后通过图7.18所示方法对LLM进行评估以量化响应的质量。1.测试集指令响应为完成响应指令步骤我们使用 generate 函数。随后我们将模型的响应结果与前三个测试集条目对应的预期测试集答案并排输出以便进行对比torch.manual_seed(123)forentryintest_data[:3]:input_textformat_input(entry)token_idsgenerate(modelmodel,idxtext_to_token_ids(input_text,tokenizer).to(device),max_new_tokens256,context_sizeBASE_CONFIG[context_length],eos_id50256)generated_texttoken_ids_to_text(token_ids,tokenizer)response_text(generated_text[len(input_text):].replace(### Response:,).strip())print(input_text)print(f\nCorrect response:\n{entry[output]})print(f\nModel response:\n{response_text.strip()})print(print(-------------------------------------))如前所述generate函数会返回输入文本与输出文本的组合结果因此我们通过对generated_text内容进行切片处理并使用.replace()方法来提取模型的响应。结果Below is an instruction that describes a task. Write a response that appropriately completes the request.### Instruction:Rewrite the sentence using a simile.### Input:The car is very fast. Correct response:The car is as fast as lightning. Model response:The car is as fast as a cheetah. ------------------------------------- None Below is an instruction that describes a task. Write a response that appropriately completes the request.### Instruction:Whattypeof cloud is typically associated with thunderstorms? Correct response:Thetypeof cloud typically associated with thunderstorms is cumulonimbus. Model response:Thetypeof cloud associated with thunderstorms is a cumulus cloud.### Instruction:Name the author ofPride and Prejudice.Correct response:Jane Austen. Model response:The author ofPride and Prejudiceis Jane Austen. -------------------------------------从结果可以看出该模型表现相对良好。首条和末条指令的答案明显正确而第二条答案虽接近正确但并不完全准确——模型选择了“积云”而非“积雨云”。不过需要指出的是积云确实可能发展为积雨云而积雨云具备引发雷暴的能力。1.最重要的是模型评估并不像完成度微调那样简单直接在完成度微调中我们只需计算正确分类垃圾邮件/非垃圾邮件标签的比例即可得出分类准确率。2.模型评估在实际应用中经过指令微调的大语言模型LLM会通过多种方法进行评估1简答题与多项选择题基准测试例如衡量大规模多任务语言理解能力的 MMLU https://arxiv.org/abs/2009.03300用于评估模型的通用知识水平2人类对其他大语言模型LLM的偏好比较如 LMSYS 聊天机器人竞赛平台https://arena.lmsys.org3自动化对话基准测试其中使用GPT-4等大语言模型来评估对话响应质量例如AlpacaEvalhttps://tatsu-lab.github.io/alpaca_eval/。在实际应用中综合考虑三种评估方法会更为有效多项选择题作答、人工评估以及衡量对话表现的自动化指标。然而由于我们的主要关注点在于评估对话表现本身而非单纯考察回答多项选择题的能力因此人工评估和自动化指标可能更具参考价值。但人工评估耗时所以使用自动化评估。3.自动化评估让我们采用一种受AlpacaEval启发的方法使用另一个大语言模型来评估我们微调后的模型响应。不过与依赖公开基准数据集不同我们采用了自定义测试集。这种定制化设计使得我们能够更精准、相关地评估模型在目标应用场景即我们的指令数据集中所体现的场景下的性能表现。为准备本次评估所需的响应数据我们将生成的模型响应追加到test_set字典中并将更新后的数据保存为“instruction-data-with-response.json”文件以供记录。此外通过保存该文件可以加载并分析这些响应。以下代码清单沿用之前的generate方法但此次我们遍历了整个test_set集合。同时我们不再直接打印模型响应而是将其添加到test_set字典中。最后输出字典中的一个条目查看是否正确添加。fromtqdmimporttqdmfori,entryintqdm(enumerate(test_data),totallen(test_data)):input_textformat_input(entry)token_idsgenerate(modelmodel,idxtext_to_token_ids(input_text,tokenizer).to(device),max_new_tokens256,context_sizeBASE_CONFIG[context_length],eos_id50256)generated_texttoken_ids_to_text(token_ids,tokenizer)response_text(generated_text[len(input_text):].replace(### Response:,).strip())test_data[i][model_response]response_textwithopen(instruction-data-with-response.json,w)asfile:json.dump(test_data,file,indent4)print(test_data[0])结果最后保存模型importre file_namef{re.sub(r[ ()],,CHOOSE_MODEL)}-sft.pthtorch.save(model.state_dict(),file_name)print(fModel saved as{file_name})输出总结完整代码如下#Insturction_fine-tuning_pretrained_LLM_5_20importjsonimporttorchfrompre_trainingimportcalc_loss_loaderfromDownload_instruction_dataset5_9importtrain_loader,val_loaderfromTraining_an_LLM_3_16importtrain_model_simplefromload_pretrained_model5_20importval_data,test_data,CHOOSE_MODELfromload_pretrained_model5_20importmodel,generate,text_to_token_ids,token_ids_to_text,BASE_CONFIGimporttiktoken devicetorch.device(cudaiftorch.cuda.is_available()elsecpu)model.to(device)torch.manual_seed(123)withtorch.no_grad():train_losscalc_loss_loader(train_loader,model,device,num_batches5)val_losscalc_loss_loader(val_loader,model,device,num_batches5)print(Training loss:,train_loss)print(Validation loss:,val_loss)defformat_input(entry):instruction_text(fBelow is an instruction that describes a task. fWrite a response that appropriately completes the request.f\n\n### Instruction:\n{entry[instruction]})input_text(f\n\n### Input:\n{entry[input]}ifentry[input]else)returninstruction_textinput_textimporttime start_timetime.time()torch.manual_seed(123)optimizertorch.optim.AdamW(model.parameters(),lr0.00005,weight_decay0.1)num_epochs2tokenizertiktoken.get_encoding(gpt2)train_losses,val_losses,tokens_seentrain_model_simple(model,train_loader,val_loader,optimizer,device,num_epochsnum_epochs,eval_freq5,eval_iter5,start_contextformat_input(val_data[0]),tokenizertokenizer)end_timetime.time()execution_time_minutes(end_time-start_time)/60print(fTraining completed in{execution_time_minutes:.2f}minutes.)importmatplotlib.pyplotaspltfrommatplotlib.tickerimportMaxNLocatordefplot_losses(epochs_seen,tokens_seen,train_losses,val_losses):fig,ax1plt.subplots(figsize(5,3))ax1.plot(epochs_seen,train_losses,labelTraining loss)ax1.plot(epochs_seen,val_losses,linestyle-.,labelValidation loss)ax1.set_xlabel(Epochs)ax1.set_ylabel(Loss)ax1.legend(locupper right)ax1.xaxis.set_major_locator(MaxNLocator(integerTrue))ax2ax1.twiny()ax2.plot(tokens_seen,train_losses,alpha0)ax2.set_xlabel(Tokens seen)fig.tight_layout()plt.show()epochs_tensortorch.linspace(0,num_epochs,len(train_losses))plot_losses(epochs_tensor,tokens_seen,train_losses,val_losses)#5.22torch.manual_seed(123)forentryintest_data[:3]:input_textformat_input(entry)token_idsgenerate(modelmodel,idxtext_to_token_ids(input_text,tokenizer).to(device),max_new_tokens256,context_sizeBASE_CONFIG[context_length],eos_id50256)generated_texttoken_ids_to_text(token_ids,tokenizer)response_text(generated_text[len(input_text):].replace(### Response:,).strip())print(input_text)print(f\nCorrect response:\n{entry[output]})print(f\nModel response:\n{response_text.strip()})print(print(-------------------------------------))fromtqdmimporttqdmfori,entryintqdm(enumerate(test_data),totallen(test_data)):input_textformat_input(entry)token_idsgenerate(modelmodel,idxtext_to_token_ids(input_text,tokenizer).to(device),max_new_tokens256,context_sizeBASE_CONFIG[context_length],eos_id50256)generated_texttoken_ids_to_text(token_ids,tokenizer)response_text(generated_text[len(input_text):].replace(### Response:,).strip())test_data[i][model_response]response_textwithopen(instruction-data-with-response.json,w)asfile:json.dump(test_data,file,indent4)print(test_data[0])importre file_namef{re.sub(r[ ()],,CHOOSE_MODEL)}-sft.pthtorch.save(model.state_dict(),file_name)print(fModel saved as{file_name})完成了1生成测试集的响应2并进行人工分析3自动化评估。

贴吧Lite：重新定义移动端贴吧体验的开源轻量化客户端

贴吧Lite：重新定义移动端贴吧体验的开源轻量化客户端【免费下载链接】TiebaLite 贴吧 Lite 项目地址: https://gitcode.com/gh_mirrors/tieb/TiebaLite 贴吧Lite是一款基于现代Android技术栈构建的第三方贴吧客户端，专为追求纯净、高效贴吧浏览体…

2026/5/23 13:17:41 阅读更多

2026上海App开发公司实力榜：一线大厂与定制专家全解读

在数字经济时代，App已成为企业数字化转型的核心载体。上海作为全国科技创新中心，汇聚了众多技术实力雄厚的App开发企业。为帮助企业精准选择合作伙伴，我们结合企业规模、技术能力、行业口碑等多维度指标，推出上海App开发公司排行&…

2026/5/23 13:17:21 阅读更多

10分钟掌握Illustrator批量替换脚本：ReplaceItems.jsx终极指南

10分钟掌握Illustrator批量替换脚本：ReplaceItems.jsx终极指南【免费下载链接】illustrator-scripts Adobe Illustrator scripts 项目地址: https://gitcode.com/gh_mirrors/il/illustrator-scripts 还在为Illustrator中重复的设计修改工作烦恼吗&#xff1…

2026/5/23 13:14:56 阅读更多

LeetCode 724：寻找数组的中心下标 | 前缀和的平衡点

LeetCode 724：寻找数组的中心下标 | 前缀和的平衡点引言寻找数组的中心下标（Find Pivot Index）是 LeetCode 第 724 题，难度为 Easy。题目要求在数组中找到某个索引，使得该索引左侧所有元素的和等于右侧所有元素的和。…

2026/5/24 4:13:22 阅读更多

LeetCode 523：连续的子数组和 | 前缀和同余定理

LeetCode 523：连续的子数组和 | 前缀和同余定理引言连续的子数组和（Continuous Subarray Sum）是 LeetCode 第 523 题，难度为 Medium。题目要求判断数组中是否存在长度至少为 2 的连续子数组，其元素和是 K 的倍数。这…

2026/5/24 4:13:22 阅读更多

别再花钱买云服务器了！手把手教你用闲置旧电脑搭建CentOS 7本地开发环境（附TitanIDE一键部署脚本）

零成本打造高性能开发环境：闲置电脑变身云原生工作站的终极指南你是否曾盯着角落里那台积灰的旧笔记本，思考它最后的归宿？在云计算大行其道的今天，我们往往忽略了身边触手可及的计算资源。本文将颠覆你对旧硬件的认知——只需两小…

2026/5/24 4:12:21 阅读更多

告别纯命令行：给openEuler 22.03 LTS装上GNOME桌面，打造你的国产化开发工作站

从零打造openEuler图形化工作站：GNOME桌面安装与优化全指南对于习惯了Windows或macOS图形界面的开发者来说，纯命令行环境可能会成为体验openEuler的障碍。本文将带你一步步将openEuler 22.03 LTS SP1从命令行服务器转变为功能完备的图形化开发工作站。1.…

2026/5/24 4:12:21 阅读更多

量子数据中心：分布式量子计算架构与技术解析

1. 量子数据中心：分布式量子计算的新范式量子计算正经历从实验室走向产业化的关键转折期。在NISQ（Noisy Intermediate-Scale Quantum）时代，单个量子处理器受限于物理尺寸和环境噪声，难以突破50-100量子比特的规模瓶颈。…

2026/5/24 4:12:21 阅读更多

SMGI框架：通用人工智能的结构元模型与实现路径解析

1. 项目概述：从“智能拼图”到“统一蓝图”最近几年，AI领域的热词层出不穷，从大语言模型到多模态，再到通用人工智能（AGI），大家似乎都在朝着同一个方向狂奔，但脚下的路却千差万别。这…

2026/5/24 4:11:20 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

更多请点击： https://codechina.net 第一章：施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录在华北某大型地铁盾构施工现场，一套轻量化AI Agent系统于2024年Q2完成全栈部署&#xff…

2026/5/24 0:01:12 阅读更多

附录 B：术语表

本术语表面向“从 MM 到 HMM”专栏阅读过程中的快速查阅。它不是内核 API 手册，而是把文章中反复出现的概念放到同一张地图上：先给出直观含义，再说明它在 Linux MM/HMM 语境里的作用。建议阅读方式： 初读专栏时，把它当…

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

更多请点击： https://kaifayun.com 第一章：Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表行业首曝） Midjourney 的渐变美学并非传统插值实现，而是由其隐式神经渲染器（Implicit Neu…

2026/5/24 0:02:33 阅读更多

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

2026/5/24 0:01:12 阅读更多

附录 B：术语表

2026/5/24 0:01:32 阅读更多

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

2026/5/24 0:02:33 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/23 15:04:07 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/23 12:38:32 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/23 4:55:00 阅读更多

相关文章

贴吧Lite：重新定义移动端贴吧体验的开源轻量化客户端

2026上海App开发公司实力榜：一线大厂与定制专家全解读

10分钟掌握Illustrator批量替换脚本：ReplaceItems.jsx终极指南

LeetCode 724：寻找数组的中心下标 | 前缀和的平衡点

LeetCode 523：连续的子数组和 | 前缀和同余定理

别再花钱买云服务器了！手把手教你用闲置旧电脑搭建CentOS 7本地开发环境（附TitanIDE一键部署脚本）

告别纯命令行：给openEuler 22.03 LTS装上GNOME桌面，打造你的国产化开发工作站

量子数据中心：分布式量子计算架构与技术解析

SMGI框架：通用人工智能的结构元模型与实现路径解析

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

施工现场安全事故预警准确率达94.6%？——解密某央企AI Agent边缘计算部署架构与3个月落地实录

附录 B：术语表

Midjourney渐变美学的神经渲染原理（附RGB-HSV-LCH三空间渐变映射对照表·行业首曝）

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥