自动化测试新助手：InternLM2-Chat-1.8B在软件测试用例生成中的应用

发布时间：2026/6/9 4:03:24

自动化测试新助手InternLM2-Chat-1.8B在软件测试用例生成中的应用最近和几个做测试的朋友聊天他们都在抱怨同一个问题写测试用例太费时间了。尤其是面对一个新功能或者一个复杂的接口要从零开始构思各种正常场景、异常场景、边界条件经常一坐就是半天头发都薅掉不少。更头疼的是有时候绞尽脑汁也难免有遗漏上线后还是可能出问题。这让我想起之前接触过的一个小模型——InternLM2-Chat-1.8B。它虽然参数不大但在理解指令和生成结构化文本方面表现不错。我当时就在想能不能让它来帮测试同学分担点压力呢比如我们只需要把功能需求或者接口文档扔给它它就能自动帮我们生成一堆测试点我们在这个基础上进行筛选、补充和优化效率会不会高很多抱着这个想法我花了一些时间做了些尝试。结果发现这个小助手还真能派上大用场。它不仅能快速生成基础测试场景还能想到一些我们可能忽略的边界情况。今天这篇文章我就来分享一下怎么把InternLM2-Chat-1.8B变成一个得力的“测试用例生成助手”以及在实际工作中它能怎么用。1. 为什么需要AI来生成测试用例在聊具体怎么做之前我们先看看测试同学日常面临的几个典型痛点这也是我们引入AI助手的出发点。1.1 测试工作的现实挑战首先测试用例的创作本身是高度依赖经验和思维的。一个好的测试用例需要覆盖功能点、考虑正常和异常流程、挖掘边界条件。这对测试人员的要求很高新手往往无从下手老手也可能因为思维定式而遗漏某些角落。其次效率是个大问题。特别是在敏捷开发模式下需求迭代快留给测试的时间窗口很紧张。手动编写大量、高质量的测试用例时间成本非常高。再者覆盖率难以保证。完全依靠人工很难确保所有可能的输入组合、状态流转都被考虑到尤其是对于逻辑复杂的状态机或者有大量参数组合的接口。最后文档维护也是个负担。需求变更时对应的测试用例也需要同步更新这个过程繁琐且容易出错。1.2 AI助手的价值所在引入像InternLM2-Chat-1.8B这样的AI模型并不是要取代测试工程师而是作为一个强大的辅助脑力工具。它的核心价值在于快速发散和结构化。当我们给出一个明确的需求描述后模型可以基于其庞大的知识库快速生成一系列相关的测试场景和用例草稿。这相当于瞬间拥有了一个不知疲倦的“头脑风暴伙伴”能为我们提供丰富的初始素材。我们可以把更多精力放在评审、优化、补充和设计更复杂的测试策略上而不是消耗在基础的、重复性的用例编写上。这样既能提升效率又能借助AI的“另类视角”发现一些潜在的测试盲区。2. 搭建你的测试用例生成助手要让InternLM2-Chat-1.8B为我们工作第一步是把它部署起来。整个过程并不复杂我们一步步来。2.1 环境准备与快速启动这里我们以在个人电脑或测试服务器上通过Python环境快速运行为例。首先确保你的环境里安装了较新版本的Python比如3.8以上和pip。第一步是安装必要的依赖库。我们主要需要模型运行框架和对话交互的库。打开你的终端或命令行执行以下命令pip install transformers torchtransformers是Hugging Face提供的库里面包含了加载和运行各种预训练模型的工具。torch是PyTorch深度学习框架模型运行需要它。安装完成后我们就可以写一个简单的Python脚本来加载模型并和它对话了。创建一个新文件比如叫test_case_helper.py。2.2 编写第一个对话脚本在test_case_helper.py文件中输入以下代码from transformers import AutoTokenizer, AutoModelForCausalLM import torch # 指定模型名称这里使用InternLM2-Chat-1.8B model_name internlm/internlm2-chat-1_8b # 加载分词器和模型 print(正在加载模型和分词器请稍候...) tokenizer AutoTokenizer.from_pretrained(model_name, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained( model_name, torch_dtypetorch.float16, # 使用半精度浮点数节省显存 device_mapauto, # 自动分配模型层到可用的设备GPU/CPU trust_remote_codeTrue ) print(模型加载完成) # 定义对话历史 history [] def chat_with_model(query): 与模型进行单轮对话 global history # 将用户输入和对话历史一起编码 inputs tokenizer(query, return_tensorspt).to(model.device) # 生成回复 with torch.no_grad(): outputs model.generate( **inputs, max_new_tokens1024, # 生成的最大长度 temperature0.7, # 控制随机性越低越确定 do_sampleTrue ) # 解码生成结果 response tokenizer.decode(outputs[0], skip_special_tokensTrue) # 更新历史简单处理实际可根据模型支持的格式调整 # 这里我们只保留最新一轮对于多轮对话需要更复杂的处理 history [(query, response)] return response # 测试一下 if __name__ __main__: test_prompt 你好请介绍一下你自己。 answer chat_with_model(test_prompt) print(模型回复, answer)运行这个脚本 (python test_case_helper.py)它会从Hugging Face下载模型第一次运行需要一些时间然后打印出模型的自我介绍。看到回复就说明你的测试助手已经准备就绪了。不过上面的代码是一个基础版本对于多轮对话和复杂的指令遵循可能不够优化。InternLM2-Chat系列模型有自己推荐的对话模板。为了获得更好的效果我们可以使用其官方建议的交互方式。下面是一个改进版的示例from transformers import AutoTokenizer, AutoModelForCausalLM import torch model_name internlm/internlm2-chat-1_8b tokenizer AutoTokenizer.from_pretrained(model_name, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained(model_name, torch_dtypetorch.float16, device_mapauto, trust_remote_codeTrue).eval() # InternLM2 推荐的对话构建函数 def build_conversation_input(prompt, history[]): system You are an AI assistant whose name is InternLM (书生·浦语). conversation [{role: system, content: system}] for user_query, bot_response in history: conversation.append({role: user, content: user_query}) conversation.append({role: assistant, content: bot_response}) conversation.append({role: user, content: prompt}) return tokenizer.apply_chat_template(conversation, tokenizeFalse, add_generation_promptTrue) def get_response(prompt, history[]): # 构建符合格式的输入 formatted_input build_conversation_input(prompt, history) inputs tokenizer([formatted_input], return_tensorspt).to(model.device) # 生成 with torch.no_grad(): outputs model.generate( **inputs, max_new_tokens1024, temperature0.7, do_sampleTrue ) # 解码并提取本轮回复 output_text tokenizer.decode(outputs[0][inputs[input_ids].shape[1]:], skip_special_tokensTrue) return output_text # 让我们试试让它生成测试用例 test_req 为一个用户登录功能生成测试用例。功能描述用户输入用户名和密码点击登录按钮。用户名要求6-12位字母数字密码要求8-16位至少包含字母和数字。登录成功跳转到首页失败则提示具体错误信息。 print(用户需求, test_req) print(\n--- AI生成的测试用例 ---\n) response get_response(f请根据以下功能描述生成详细的软件测试用例{test_req}) print(response)运行改进后的脚本你会看到模型根据我们提供的登录功能描述生成了一份结构化的测试用例列表包括正向、反向和边界测试点。这比简单的对话前进了一大步。3. 实战让AI助手处理真实测试需求模型跑起来了接下来我们看看怎么把它用在实际工作中。关键在于我们如何给它“布置任务”。好的提示词能引导模型输出我们真正想要的内容。3.1 设计高效的提示词直接扔一段需求文档给模型它可能不知道你要什么。我们需要给它一个明确的角色和指令。下面是一个比较通用的提示词模板你可以根据实际情况调整你是一个经验丰富的软件测试工程师。请根据我提供的功能需求描述生成一份详细的测试用例列表。测试用例需要包含以下部分 1. 测试场景概述。 2. 正向测试用例验证功能正常工作的用例。 3. 反向测试用例验证异常处理和错误提示的用例。 4. 边界条件测试点。请用清晰的条目列出每条用例包含“用例编号”、“前置条件”、“测试步骤”、“预期结果”。功能需求描述如下 [这里粘贴你的需求文档]我们可以把这个模板做到代码里让调用更简单def generate_test_cases(requirement_doc): 根据需求文档生成测试用例 prompt_template 你是一个经验丰富的软件测试工程师。请根据我提供的功能需求描述生成一份详细的测试用例列表。测试用例需要包含以下部分 1. 测试场景概述。 2. 正向测试用例验证功能正常工作的用例。 3. 反向测试用例验证异常处理和错误提示的用例。 4. 边界条件测试点。请用清晰的条目列出每条用例包含“用例编号”、“前置条件”、“测试步骤”、“预期结果”。功能需求描述如下 {requirement} full_prompt prompt_template.format(requirementrequirement_doc) return get_response(full_prompt) # 示例测试一个简单的“计算器加法功能” calc_req 功能计算器加法运算。输入两个数值整数或小数。操作点击‘’号按钮或选择加法运算后输入两个数点击‘’。输出显示两数之和。要求能处理正数、负数、零、小数。输入非数字时应给出错误提示。 print(需求计算器加法\n) test_cases generate_test_cases(calc_req) print(test_cases)运行这段代码模型会输出针对计算器加法功能的测试用例你会发现它甚至考虑到了“超大数相加可能溢出”这种边界情况虽然实际是否溢出取决于实现这已经超出了我们需求描述中明确提到的点。3.2 处理更复杂的接口文档对于后端API测试我们往往有更结构化的接口文档。我们可以让AI助手直接读取类似OpenAPISwagger格式的文档片段来生成测试用例。虽然InternLM2-Chat-1.8B不是专门的代码解析器但它理解JSON和自然语言混合的内容能力不错。假设我们有一个用户查询API的文档api_doc API端点GET /api/v1/users 功能分页查询用户列表。请求参数 - page: 整数页码从1开始。可选默认为1。 - size: 整数每页大小范围1-100。可选默认为20。 - status: 字符串用户状态过滤。可选值active, inactive。默认为空查询全部。响应体成功时200 { code: 0, data: { list: [ ...用户对象数组... ], total: 100, page: 1, size: 20 } } 错误响应400 { code: 400, message: 参数校验失败 } prompt_for_api f你是一个API测试专家。请根据以下接口文档生成针对该API接口的测试用例。重点关注参数组合、参数边界、错误处理、返回数据结构。请按以下分类列出用例 A. 正向功能测试合法参数组合。 B. 参数边界与异常测试。 C. 错误请求测试非法参数。 D. 性能与安全考虑点可选。接口文档 {api_doc} print(针对分页查询API的测试用例\n) api_test_cases get_response(prompt_for_api) print(api_test_cases)模型会生成包括“测试默认参数”、“测试page和size的各种合法组合”、“测试status过滤”、“测试size超过100”、“测试page为负数”、“测试非整数参数”等一系列用例这为我们设计API测试套件提供了一个很好的起点。4. 在实际工作流中应用与优化生成测试用例只是第一步更重要的是如何把它融入团队现有的测试流程并让它发挥最大价值。4.1 集成到测试管理流程我们不可能每次手动运行脚本。一个可行的办法是创建一个简单的Web服务或者脚本工具。测试人员或开发人员在编写需求文档或接口文档后运行一下这个工具就能得到一份基础的测试用例草稿。例如可以做一个命令行工具# 文件test_case_generator.py import sys import argparse from your_model_module import generate_test_cases # 假设封装好了生成函数 def main(): parser argparse.ArgumentParser(descriptionAI测试用例生成助手) parser.add_argument(input_file, help包含需求描述的文件路径) parser.add_argument(-o, --output, help输出文件路径默认stdout) args parser.parse_args() with open(args.input_file, r, encodingutf-8) as f: requirement f.read() cases generate_test_cases(requirement) if args.output: with open(args.output, w, encodingutf-8) as f: f.write(cases) print(f测试用例已生成至{args.output}) else: print(cases) if __name__ __main__: main()这样使用起来就很简单了python test_case_generator.py feature_requirement.txt -o draft_test_cases.md。生成的Markdown格式的草稿可以直接导入到TestRail、Xray等测试管理平台或者粘贴到Confluence、语雀等文档中供测试团队进行评审和细化。4.2 人工评审与迭代优化必须强调AI生成的是“草稿”而不是“终稿”。它的价值在于提供思路和覆盖基础场景但无法理解业务上下文、系统内部状态和复杂的交互逻辑。因此建立一个人工评审环节至关重要有效性筛选删除AI生成的无关或错误的用例。业务逻辑补充添加AI可能遗漏的、与特定业务规则相关的用例。例如对于“转账”功能AI可能生成金额边界测试但测试工程师需要补充“转出账户余额不足”、“转入账户状态异常”等业务用例。场景深化将AI生成的简单步骤细化为包含具体测试数据、环境准备、后置清理的可执行用例。提示词调优如果发现AI总是遗漏某一类测试点比如安全性测试可以在提示词中特别强调“请务必包含安全性测试考虑如SQL注入、XSS等”。这个过程也是一个双向训练的过程。我们通过不断优化提示词让AI助手越来越懂我们的测试风格和深度要求。5. 总结尝试把InternLM2-Chat-1.8B用到测试用例生成上给我的感觉是它确实是一个能提升效率的“副驾驶”。对于逻辑相对清晰、描述明确的功能点它能快速地产出一份覆盖比较全面的测试点清单特别是那些常规的正向、反向和边界测试能省去我们很多机械构思的时间。但它也不是万能的。最大的体会是它无法替代测试工程师的核心价值——对业务深刻的理解、对系统架构的把握、以及设计复杂交互场景和探索性测试的能力。AI生成的用例更像是一个“检查清单”能保证基础的覆盖但那些真正能发现深层次Bug的、巧妙的测试场景依然需要人的智慧和经验。所以最有效的用法是把它当作一个“超级实习生”或者“头脑风暴启动器”。由它来打草稿我们来审核、深化和升华。这样既能解放我们的一部分生产力又能确保最终测试用例的质量。对于测试团队来说尤其是面对大量回归测试或者新功能快速迭代时引入这样一个助手性价比还是挺高的。如果你也在为测试用例设计效率发愁不妨找个类似的模型试试从一个小功能开始看看它能不能成为你们团队的新帮手。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

NotaGen作品分享：AI生成的浪漫主义时期艺术歌曲案例

NotaGen作品分享：AI生成的浪漫主义时期艺术歌曲案例 1. 引言：当AI遇见浪漫主义音乐在音乐创作领域，浪漫主义时期（约1820-1900年）以其丰富的情感表达和个性化的艺术风格著称。从舒伯特到舒曼，从肖邦到李斯…

2026/6/9 16:21:57 阅读更多

踩下电门踏板的瞬间，电动车模型里的代码洪流开始奔涌。咱们今天不聊公式推导，直接扒开Simulink模型的机械骨骼，看看这些模块怎么像变形金刚似的组合运作

电动汽车模型的各模块的Simulink模型包括 1.驾驶员模块 2.整车控制器模块 3.电机模块，变速器模块主减速器模块 5.车轮模块 6.车速模块以及BMS模块附有说明文档，文档详细的描述了模型的建模过程及功能（因文件具有性，&#xff0c…

2026/6/6 21:30:09 阅读更多

3分钟上手：如何用res-downloader轻松下载全网视频和音乐资源？

3分钟上手：如何用res-downloader轻松下载全网视频和音乐资源？ 【免费下载链接】res-downloader 资源下载器、网络资源嗅探，支持微信视频号下载、网页抖音无水印下载、网页快手无水印视频下载、酷狗音乐下载等网络资源拦截下载! 项目地址: h…

2026/6/9 18:14:29 阅读更多

Old‘aVista：提供多语言搜索、热门目录，还有最新动态及多种支持方式！

OldaVista 搜索功能OldaVista 支持在其上进行搜索，可输入英文、葡萄牙文、西班牙文、法文、意大利文或德文单词。还有常见问题解答和高级搜索选项，示例搜索如《侏罗纪公园》粉丝网站。热门搜索内容热门搜索包括 Youtube、Myspace、Https://myspace.com/n…

2026/6/9 23:43:54 阅读更多

ARM Cortex-M4与Kinetis K10低功耗嵌入式开发实战指南

1. 项目概述：为什么是K10与Cortex-M4？在嵌入式开发领域，选型往往决定了项目的天花板和地板。天花板是性能上限，地板则是功耗底线。当你的项目需要在实时控制、信号处理与超长续航之间找到平衡点时，基于ARM Cortex-M4内…

2026/6/9 23:43:54 阅读更多

i.MX 7Solo异构多核SoC：Linux与RTOS融合的嵌入式设计实战

1. 项目概述：为何选择i.MX 7Solo？在嵌入式项目里选型，尤其是涉及到需要复杂人机交互、多媒体处理和实时控制的场景，比如智能医疗设备、工业HMI面板或者高端智能家电，我们常常会陷入一个两难境地。一方面，用…

2026/6/9 23:43:54 阅读更多

【Zephyr|ESP32-S3】基础学习：用LEDC外设实现PWM呼吸灯效果

【Zephyr|ESP32-S3】基础学习：用LEDC外设实现PWM呼吸灯效果哈喽，我是余火，一个普通的牛马打工人，目前正在学如何使用Zephyr RTOS。上篇用定时器做了消抖和灯效节奏控制，定时器的本质是"算时间"&#xff0c…

2026/6/9 23:43:13 阅读更多

豆瓣电影TOP250数据采集、清洗与多维可视化实战（含源码+文档+可运行环境）

本文还有配套的精品资源，点击获取简介：直接跑起来的Python电影数据分析项目，自动抓取豆瓣电影TOP250页面的片名、导演、类型、评分、评论数、上映年份等字段；内置反爬适配逻辑，支持请求头轮换和基础延时控制&#…

2026/6/9 23:43:13 阅读更多

Kaiwa: 一个开源的WebRTC聊天应用，让沟通更自由

Kaiwa: 一个开源的WebRTC聊天应用，让沟通更自由【免费下载链接】kaiwa [UNMAINTAINED] A modern XMPP Web client 项目地址: https://gitcode.com/gh_mirrors/ka/kaiwa 是一个基于WebRTC技术的开源即时通讯平台，专为那些希望在自己的环境中拥有完…

2026/6/9 23:42:13 阅读更多

5分钟上手：BilibiliDown——你的B站视频下载全能助手

5分钟上手：BilibiliDown——你的B站视频下载全能助手【免费下载链接】BilibiliDown (GUI-多平台支持) B站哔哩哔哩视频下载器。支持稍后再看、收藏夹、UP主视频批量下载|Bilibili Video Downloader 😳 项目地址: https://gitcode.com/gh_mirrors/bi…

2026/6/9 0:00:38 阅读更多

【AI】服务化部署：把AI Agent变成API服务

服务化部署：把AI Agent变成API服务📝 本章学习目标：本章聚焦安全与工程化，确保AI Agent稳定可靠运行。通过本章学习，你将全面掌握"服务化部署：把AI Agent变成API服务"这一核心主题。一、引言&…

2026/6/9 0:01:41 阅读更多

Playnite：一站式游戏库管理器，告别多平台切换烦恼

Playnite：一站式游戏库管理器，告别多平台切换烦恼【免费下载链接】Playnite Video game library manager with support for wide range of 3rd party libraries and game emulation support, providing one unified interface for your games. 项目地…

2026/6/9 0:01:41 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/9 0:23:00 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/9 0:23:12 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/9 0:15:30 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/9 9:53:26 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/9 9:53:26 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/9 9:53:22 阅读更多

相关文章

NotaGen作品分享：AI生成的浪漫主义时期艺术歌曲案例

踩下电门踏板的瞬间，电动车模型里的代码洪流开始奔涌。咱们今天不聊公式推导，直接扒开Simulink模型的机械骨骼，看看这些模块怎么像变形金刚似的组合运作

3分钟上手：如何用res-downloader轻松下载全网视频和音乐资源？

Old‘aVista：提供多语言搜索、热门目录，还有最新动态及多种支持方式！

ARM Cortex-M4与Kinetis K10低功耗嵌入式开发实战指南

i.MX 7Solo异构多核SoC：Linux与RTOS融合的嵌入式设计实战

【Zephyr|ESP32-S3】基础学习：用LEDC外设实现PWM呼吸灯效果

豆瓣电影TOP250数据采集、清洗与多维可视化实战（含源码+文档+可运行环境）

Kaiwa: 一个开源的WebRTC聊天应用，让沟通更自由

5分钟上手：BilibiliDown——你的B站视频下载全能助手

【AI】服务化部署：把AI Agent变成API服务

Playnite：一站式游戏库管理器，告别多平台切换烦恼

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因