大模型|开源大模型和大模型微调 欢迎来到人工智能的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年5月19日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录开源大模型开源大模型和闭源大模型开源大模型对比开源大模型的应用场景大模型微调模型微调效果和简介模型微调的流程数据收集模型选择模型微调模型评估开源大模型开源大模型和闭源大模型闭源大模型的局限性缺乏灵活性无法自定义限制业务创新和优化。依赖供应商受制于第三方存在价格波动和服务中断风险。隐私风险数据上传到外部可能不符合法规要求。成本高按量计费长期使用费用较高。开源大模型的优势可定制可以灵活调整满足业务需求。低成本减少对高价 API 的依赖。数据安全可以私有部署防止数据泄露符合合规要求。开源大模型可以私有化部署成为垂直领域的专有大模型开源大模型对比开源大模型的应用场景开源大模型在医疗健康领域的应用表现对比开源大模型如 LLaMA在医疗场景下 专业性不足专业医疗大模型通过 领域微调或知识增强能提供更精准、可执行的医疗建议大模型微调模型微调效果和简介微调的核心就是给大模型大量“指令-输入-输出”示例让它学会在指定场景下产生专业且高质量的输出。通过这种方式模型能够从通用大模型转变为 垂直领域专家模型例如医疗、环境、金融等专业领域。数据格式包含三部分instruction → 模型要做的任务策略和目标input → 模型执行任务的具体信息上下文可为空output → 模型的目标输出训练/微调的参考答案模型微调的流程数据收集01收集领域相关的指令-输入-输出数据用于微调大模型。模型选择02选择适合微调的基础大模型如 LLaMA、Qwen 等。模型微调03使用收集的数据对模型进行微调训练使模型掌握领域知识和特定任务能力。模型评估04对微调后的模型进行性能评估确保生成内容符合预期并具备专业性。微调比例影响模型的能力平衡同时保留通用能力和提升领域能力需要合理混合通用数据与领域数据领域微调必须注意避免灾难性遗忘通用数据 : 领域数据微调效果1 : 0只具备通用问答能力无法处理领域任务1 : 1保持通用能力同时可以完成领域相关任务0 : 1仅能完成领域任务但通用能力丢失灾难性遗忘通用数据 : 领域数据能力类型微调前微调后1 : 0通用能力评估大学各科测试80-9090医疗能力评估中文临床测试60-7020-301 : 1通用能力评估80-9080-90医疗能力评估60-7080-900 : 1通用能力评估80-9020-30医疗能力评估60-7080-90数据收集通用微调数据集的收集收集的通用微调数据既有问答、翻译、对话任务也有编程和多模态任务。英文数据和代码数据在微调中承担保护基础能力和增强专业能力的双重作用。名称语言数据量数据内容质量alpaca_dataset中/英文52K常规问答数据集高COIG中文191K通用翻译指令、考试指令、代码指令数据集等高ShareGPT中/英文90K中英文平行双语优质人机问答数据集中HC3中/英文40K/8.4K人类真实回复结果与 ChatGPT 回复结果的 QA 数据集中firefly中文1.1M23 种常见中文 NLP 任务高ultrachat英文1.4M英文多轮对话数据中领域微调数据集的收集网页爬取从行业相关网站、论坛、文档中爬取结构化或非结构化数据形成训练数据。大模型蒸馏:使用已有的大模型生成高质量领域问答或文本通过“教师模型→学生模型”方式获取微调数据。基于下游任务的数据集构造:针对具体任务如医疗问答、环境监测报告分析、金融风控文本理解构造训练数据确保数据与实际业务场景高度相关。网页爬取提取网页数据→数据清洗→构建数据模型选择基于模型榜单能力选型、微调多语言聊天机器人优先选多语言评分最优的处理中文医疗问答需复杂知识查询与推理选择知识、推理评分双高的。微调医疗领域大模型流程明确临床医疗问答、术语标准化等微调任务选定 chatglm3‑6B、qwen‑7B 等候选模型收集 10 道相关测试题通过答题打分评估模型性能择优确定微调基模型。任务模型人工平均打分回复质量临床医疗问答chatglm3-6B8.4分分点回答质量较高qwen-7B9.0分分点回答质量高术语标准化chatglm3-6B8.0分格式正确qwen-7B8.0分格式正确模型微调全参数微调更新模型全部参数缺点显存成本高、训练效率低、小样本易过拟合适用场景算力充足、拥有大规模训练数据PEFT 参数高效微调冻结大部分参数仅训练少量参数添加型方法适配器Adapters代表 BN Adapter在 Transformer 层插入可训练模块软提示Soft Prompts代表 Prefix‑Tuning在输入嵌入中增加可训练张量选择型方法冻结法Freeze冻结模型浅层仅训练深层语义层重参数化法LoRA 低秩适配主流 PEFT 方法增设低秩旁路矩阵参数与显存消耗大幅降低效果接近全参数微调。Swift 工具适合有一定模型训练经验的用户追求极致速度和效率。LLaMA-Factory 工具适合没有模型训练经验的人提供可视化操作界面快速上手。全栈微调工具LLaMA-Factoryhttps://github.com/hiyouga/LLaMA-Factory轻量级微调工具Swifthttps://github.com/modelscope/ms-swift模型评估自动化评估偏向客观、量化适合可标准化测量的任务。人工/大模型评估偏向主观、质量多维度评价适合创意或复杂文本生成。