Qwen3.5 0.8B/2B/4B/9B 小模型本地部署指南，微调教程

发布时间：2026/6/11 7:10:47

今天这篇是Qwen3.5 小型模型系列0.8B / 2B / 4B / 9B的专属本地部署教程重点讲 Unsloth 团队第一时间放出的 GGUF 量化版本怎么玩如何免费微调自己的Qwen3.5手把手教你从下载到运行Mac、PC、Linux 全覆盖。为什么要关注 Unsloth 的 GGUF先说一个背景Qwen 官方发布的是 HuggingFace 格式的权重safetensors这种格式主要面向 GPU 推理vLLM、SGLang、Transformers 等框架。对于没有高端 GPU 的普通玩家来说GGUF 格式才是本地部署的真正入口。而 Unsloth 就是目前开源社区做 GGUF 量化做得最好的团队之一他们有一套叫 Dynamic 2.0 的量化方案——核心思路是把模型中重要的层比如注意力层的关键权重保留更高精度8-bit 甚至 16-bit不重要的层大胆压缩。这样做的好处是4-bit 量化下的表现几乎逼近 FP16 原始精度。这次 Qwen3.5 小模型系列一发布Unsloth 就同步放出了全系 GGUF效率拉满。Unsloth GGUF 下载地址每个模型都提供了从 2-bit 到 8-bit 的多种量化版本你可以根据自己的设备内存来选。内存需求速查表这是 Unsloth 官方给出的硬件需求参考总内存 RAM VRAM 或统一内存简单来说0.8B / 2B几乎任何设备都能跑3GB 内存就够4BQ4 量化7GB 内存MacBook Air M1 8GB 版就能玩9BQ4 量化9GB 内存MacBook Pro 16GB 或 12GB 显存 GPU 轻松搞定对比一下 9B 模型 Q4 量化只需要 9GB 内存——你的旧款 MacBook Pro 16GB 就能满血运行一个在多项 benchmark 上吊打 80B 大模型的小钢炮这波性价比简直了。量化版本怎么选Unsloth 提供了一堆量化版本初学者可能看花眼。我帮你简化一下量化版本推荐场景精度损失UD-Q4_K_XL推荐日常使用首选精度和体积最佳平衡极小Q4_K_M经典 4-bit 量化兼容性最好小UD-Q2_K_XL极致省内存适合内存紧张的设备可接受Q8_0追求精度内存充足时使用几乎无**我的建议闭眼选UD-Q4_K_XL或Q4_K_M**。Unsloth 官方的 KL Divergence 测试显示UD-Q4_K_XL在 Pareto 前沿上表现 SOTAState of the Art精度损失可以忽略不计。方法一llama.cpp 直接跑最推荐1. 编译 llama.cpp首先你需要最新版 llama.cpp。如果你还没装过# 克隆最新代码 git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp # macOS / CPU 编译 cmake -B build -DGGML_CUDAOFF cmake --build build --config Release -j # 如果有 NVIDIA GPU改成 # cmake -B build -DGGML_CUDAON # cmake --build build --config Release -j2. 下载模型推荐用 HuggingFace Hub 下载pip install huggingface_hub hf_transfer # 下载 9B 的 Q4_K_M 量化版本 huggingface-cli download unsloth/Qwen3.5-9B-GGUF \ --include Qwen3.5-9B-Q4_K_M.gguf \ --local-dir ./models如果你要换其他型号把9B改成0.8B、2B或4B即可。3. 交互式对话Non-Thinking 模式默认./build/bin/llama-cli \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ -cnv就这么简单直接开聊。4. 启用 Thinking 模式⚠️划重点Qwen3.5 小模型系列0.8B - 9B默认关闭了 Thinking推理思考模式这和大模型27B不一样。如果你想让小模型也输出think.../think推理过程需要通过llama-server启动并传入额外参数./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --chat-template-kwargs {enable_thinking:true}这样你就能在本地获得一个拥有完整思考链路的 9B 小钢炮了。方法二llama-server 部署为 API 服务如果你想把模型部署成 OpenAI 兼容的 API 服务比如给 Claude Code、Cursor 等工具用推荐这种方式1. 启动 llama-server# Non-Thinking 模式默认推荐日常使用 ./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --port 8080 \ --n-gpu-layers 35 # Thinking 模式 ./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --port 8080 \ --n-gpu-layers 35 \ --chat-template-kwargs {enable_thinking:true}2. 用 Python 调用from openai import OpenAI client OpenAI( base_urlhttp://localhost:8080/v1, api_keyEMPTY ) response client.chat.completions.create( modelQwen3.5-9B, messages[ {role: user, content: 用 Python 写一个快速排序} ], temperature0.7, top_p0.8, max_tokens4096 ) print(response.choices[0].message.content)API 就是标准的 OpenAI 格式任何支持 OpenAI SDK 的客户端都能直接对接。方法三GPU 玩家的选择vLLM / SGLang如果你有独立 GPU哪怕是一张 3060 12GB可以直接用 vLLM 或 SGLang 跑原始精度权重不需要 GGUF 量化# vLLM 部署 vllm serve Qwen/Qwen3.5-9B \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --reasoning-parser qwen3 # SGLang 部署 python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-9B \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 32768 \ --reasoning-parser qwen3相比 GGUFvLLM/SGLang 的优势是零精度损失推理速度更快GPU 加速支持更高并发支持多 GPU 张量并行但前提是你得有显卡。推荐采样参数Unsloth 和 Qwen 官方都给了推荐参数进阶用 Unsloth 免费微调 Qwen3.5 小模型光能跑推理还不过瘾Unsloth 还提供了完整的Qwen3.5 微调方案而且小模型0.8B / 2B / 4B / 9B可以直接在Google Colab 免费 T4 GPU上完成微调这意味着你不需要任何本地 GPU打开浏览器就能训练自己的专属模型。免费 Colab Notebook一键运行Unsloth 为每个小模型都准备了现成的 Colab Notebook模型Colab 链接Qwen3.5-0.8B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(0.8B 打开 Colab).ipynb)Qwen3.5-2B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(2B 打开 Colab).ipynb)Qwen3.5-4B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B 打开 Colab).ipynb)Qwen3.5-9B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(9B 打开 Colab).ipynb)点开就能跑零配置完全免费。本地微调代码示例如果你更喜欢在自己机器上跑或者需要更大的数据集和更长的训练时间也可以本地微调。先装好 Unslothpip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo然后是一个最简的 SFT监督微调脚本from unsloth import FastLanguageModel import torch from datasets import load_dataset from trl import SFTTrainer, SFTConfig max_seq_length 2048# 先从小的开始跑通再加大 # 加载示例数据集替换成你自己的 url https://huggingface.co/datasets/laion/OIG/resolve/main/unified_chip2.jsonl dataset load_dataset(json, data_files{train: url}, splittrain) # 加载 Qwen3.5-9B可以换成 0.8B/2B/4B model, tokenizer FastLanguageModel.from_pretrained( model_name Qwen/Qwen3.5-9B, max_seq_length max_seq_length, load_in_4bit True, # 4-bit QLoRA省显存 full_finetuning False, ) # 挂上 LoRA 适配器 model FastLanguageModel.get_peft_model( model, r 16, target_modules [ q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj, ], lora_alpha 16, lora_dropout 0, bias none, use_gradient_checkpointing unsloth, # 降低显存支持更长上下文 random_state 3407, max_seq_length max_seq_length, ) # 开始训练 trainer SFTTrainer( model model, train_dataset dataset, tokenizer tokenizer, args SFTConfig( max_seq_length max_seq_length, per_device_train_batch_size 1, gradient_accumulation_steps 4, warmup_steps 10, max_steps 100, # 先跑 100 步看看效果 logging_steps 1, output_dir outputs_qwen35, optim adamw_8bit, seed 3407, ), ) trainer.train()代码看着长但核心逻辑就三步加载模型 → 挂 LoRA → 训练。Unsloth 把底层复杂的优化全封装好了。显存不够怎么办Unsloth 给了几个实用建议把per_device_train_batch_size降到 1**减小max_seq_length**比如从 2048 降到 1024)保持use_gradient_checkpointing unsloth开启—— 这是 Unsloth 的独家优化能显著降低显存占用同时支持更长的上下文实测 9B 模型用 4-bit QLoRA在一张 12GB 显卡比如 3060/4060上就能跑起来。视觉微调也支持还记得 Qwen3.5 是原生多模态模型吗Unsloth 同样支持视觉微调你可以用图文对数据来训练模型的视觉理解能力from unsloth import FastVisionModel model FastVisionModel.get_peft_model( model, finetune_vision_layers True, # 微调视觉层 finetune_language_layers True, # 微调语言层 finetune_attention_modules True, # 微调注意力层 finetune_mlp_modules True, # 微调 MLP 层 r 16, lora_alpha 16, lora_dropout 0, bias none, random_state 3407, target_modules all-linear, )你可以灵活控制只微调视觉层、只微调语言层、或者全部一起微调非常灵活。微调完怎么导出训练完的模型可以导出为多种格式直接用于本地部署导出为 GGUF给 llama.cpp / Ollama / LM Studio 用# 导出为 Q4_K_M 量化的 GGUF model.save_pretrained_gguf(my_model, tokenizer, quantization_methodq4_k_m) # 或者导出为 Q8 量化 model.save_pretrained_gguf(my_model, tokenizer, quantization_methodq8_0) # 想上传到 HuggingFace model.push_to_hub_gguf(你的用户名/my_model, tokenizer, quantization_methodq4_k_m)导出为 16-bit给 vLLM 用model.save_pretrained_merged(finetuned_model, tokenizer, save_methodmerged_16bit) # 或者上传到 HuggingFace model.push_to_hub_merged(你的用户名/model, tokenizer, save_methodmerged_16bit, token)只保存 LoRA 适配器体积小方便分享model.save_pretrained(finetuned_lora) tokenizer.save_pretrained(finetuned_lora)整个工作流Colab 免费训练 → 导出 GGUF → 本地 llama.cpp 跑起来一分钱不花完全免费。微调的关键注意事项想保留推理能力训练数据中至少保留 75% 的带 thinking推理思考的样本其余可以是直接回答导出后效果变差最常见的原因是推理时用的 chat template / EOS token 和训练时不一致。Unsloth 会自动提醒你vLLM 版本注意截至目前 vLLM 0.16.0 尚不支持 Qwen3.5需要等 0.17.0 或使用 Nightly 版本进阶搭配 Claude Code / OpenAI Codex 使用Unsloth 官方文档特别提到你可以用 llama-server 搭建本地模型服务后直接对接Claude Code或OpenAI Codex实现免费的本地 AI 编程助手。操作思路用上面的方法启动 llama-server设置OPENAI_BASE_URLhttp://localhost:8080/v1在 Claude Code 或 Codex 中配置使用本地端点一个 9B 模型就能驱动你的本地 Coding Agent不花一分钱 API 费用。进阶超长文本处理YaRN 扩展到 100万 tokensQwen3.5-9B 原生支持 262,144 tokens 上下文但如果你需要处理更长的文本比如整本书可以通过 YaRN 技术扩展到1,010,000 tokens。在 vLLM 中启用VLLM_ALLOW_LONG_MAX_MODEL_LEN1 vllm serve Qwen/Qwen3.5-9B \ --hf-overrides {text_config: {rope_parameters: {mrope_interleaved: true, mrope_section: [11, 11, 10], rope_type: yarn, rope_theta: 10000000, partial_rotary_factor: 0.25, factor: 4.0, original_max_position_embeddings: 262144}}} \ --max-model-len 1010000一个 9B 模型处理百万 token 上下文想想就觉得离谱。我的建议四个型号怎么选你的场景推荐型号推荐量化需要内存树莓派 / IoT 嵌入式0.8BQ4_K_M5 GB手机端 / 轻薄本2BQ4_K_M5 GBMacBook Air 8GB4BUD-Q4_K_XL7 GBMacBook Pro 16GB / 12GB GPU9BUD-Q4_K_XL9 GB追求极致轻量0.8BUD-Q2_K_XL3 GB我个人最推荐 9B 的 Q4 量化版本。在 GPQA Diamond 上拿到 81.7 的 9B 模型能装进一台普通笔记本还要什么自行车总结Unsloth 这次围绕 Qwen3.5 小模型的支持可以说是全链路覆盖从 GGUF 量化推理到 LoRA 微调再到模型导出一站式搞定。对于我们这些本地部署玩家来说基本上打通了最后一公里门槛极低3GB 内存就能跑 0.8B9GB 内存就能跑 9B精度靠谱Dynamic 2.0 方案下的 Q4 量化几乎无损工具链齐全llama.cpp、vLLM、SGLang 全线支持场景丰富从对话到 Agent 到代码生成到百万 token 长文档处理免费微调Google Colab T4 GPU 就能训练你自己的专属模型闭环导出微调完直接导出 GGUF本地跑起来还等什么赶紧把你的 MacBook 武装起来吧。相关链接Unsloth 本地部署指南https://unsloth.ai/docs/models/qwen3.5Unsloth 微调指南https://unsloth.ai/docs/models/qwen3.5/fine-tuneUnsloth GGUF 合集https://huggingface.co/collections/unsloth/qwen35Qwen3.5-9B 模型卡https://huggingface.co/Qwen/Qwen3.5-9Bllama.cpp 项目地址https://github.com/ggml-org/llama.cpp#Qwen3.5 #Unsloth #GGUF #本地部署 #微调 #llama.cpp #开源

5分钟快速搭建Uptime Kuma：打造专业级自托管监控系统

5分钟快速搭建Uptime Kuma：打造专业级自托管监控系统【免费下载链接】uptime-kuma A fancy self-hosted monitoring tool 项目地址: https://gitcode.com/GitHub_Trending/up/uptime-kuma 在当今数字化时代，确保网站和服务的可用性至关重要。Upt…

2026/6/11 7:10:26 阅读更多

个人微信如何快速连接 OpenClaw 工具（含安装包）

OpenClaw 绑定微信完整操作教程一、软件准备本次使用 Openclaw Windows (虾壳云) v2.7.9 版本，安装包大小为 45.8MB，大家可根据设备系统选择对应安装包下载： 安卓版本：https://xiake.yun/api/download/package/18?promoCode…

2026/6/11 7:10:06 阅读更多

【内存管理与高并发内存池系列】从 malloc 到 ObjectPool：定长内存池的原理、对齐处理与空闲链表复用

🔥 本文专栏：内存管理与高并发内存池 🌸作者主页：努力努力再努力wz 💪 今日博客励志语录：你现在走得慢没关系，怕的是你明明还有火，却因为一时看不到结果就把自己熄灭了。 ★★★ 本文…

2026/6/11 7:10:06 阅读更多

FPGA网络调试避坑指南：如何为你的纯Verilog UDP协议栈添加Ping和ARP功能

FPGA网络调试实战：为Verilog UDP协议栈集成Ping与ARP的工程方法论当你的FPGA设备在网络中"失联"时，最令人抓狂的莫过于面对一个黑箱系统——既无法确认物理连接是否正常，也看不到底层的数据交互。本文将从工程实用角度，…

2026/6/11 8:37:06 阅读更多

电波监测站 OM-036 频谱仪维系能源产业通信网络

当下能源行业正全面迈向数字化与智能化，电力、石油、石化、新能源等板块不断搭建起完善的无线通信、智能测控、远程调度体系。从城市核心变电站、分布式光伏电站，到偏远野外油田、海上钻井平台与大型炼化厂区，各类传感设备、无线终端、自动化…

2026/6/11 8:37:06 阅读更多

基于51单片机的病床呼叫系统(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_可以扫码或者私信

目录摘要 2 Abstract 2 引言 2 1 系统方案设计 3 1.1 系统整体方案设计 3 1.2 主控制器的选择 3 1.3 显示模块的选择 3 1.4 报警模块的选择 4 1.5 无线通信的选择 4 2 硬件设计 4 2.1 单片机最小系统设计 4 2.1.1 概述 4 2.1.2 晶振电路 4 2.1.3 复位电路 4 2.2 显示电路 5 …

2026/6/11 8:37:06 阅读更多

告别Office依赖！在Umi+React项目中用pptx.js实现PPT在线预览（附完整代码）

告别Office依赖！在UmiReact项目中用pptx.js实现PPT在线预览（附完整代码）在企业内部系统或知识管理平台中，PPT文档的在线预览一直是刚需功能。传统方案要么依赖后端转换服务，要么要求用户安装Office软件，不仅…

2026/6/11 8:36:05 阅读更多

Steam Deck模拟器终极指南：EmuDeck一键搞定30+游戏平台

Steam Deck模拟器终极指南：EmuDeck一键搞定30游戏平台【免费下载链接】EmuDeck Emulator configurator for Steam Deck 项目地址: https://gitcode.com/gh_mirrors/em/EmuDeck 还在为Steam Deck上的模拟器配置头疼吗？每个模拟器都要单独下载、设…

2026/6/11 8:35:04 阅读更多

3分钟搭建全栈后端：InsForge让你的AI编码代理拥有完整后端能力

3分钟搭建全栈后端：InsForge让你的AI编码代理拥有完整后端能力【免费下载链接】InsForge The all-in-one, open-source backend platform for agentic coding. InsForge gives your coding agent database, auth, storage, compute, hosting, and AI gateway to sh…

2026/6/11 8:34:04 阅读更多

LLM 多轮对话状态管理：从无状态 API 到有状态会话

LLM 多轮对话状态管理：从无状态 API 到有状态会话一、大模型 API 的无状态困境：上下文窗口的有限性与会话连续性大模型的 Chat API 本质上是无状态的——每次请求都需要发送完整的对话历史。这种设计简化了服务端实现，但给后端架构带来了两个…

2026/6/11 1:00:57 阅读更多

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命一、JVM 冷启动的性能困境：云原生环境下的启动延迟 Java 应用在云原生环境中面临的核心挑战是冷启动延迟。一个典型的 Spring Boot 2 应用，启动时间约 3-8 秒，内存占…

2026/6/11 1:01:58 阅读更多

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践一、Go 错误处理的工程困境：哨兵值与信息丢失 Go 的错误处理采用显式返回值模式，if err ! nil 是每个 Go 开发者最熟悉的代码片段。然而，当项目规模增长后，简…

2026/6/11 1:01:58 阅读更多

LED驱动技术全解析：从核心架构到实战选型与避坑指南

1. 从一颗灯珠到千亿市场：LED驱动的技术演进与商业逻辑十几年前，当我第一次从料盘上拿起一颗0603封装的白色LED时，它微弱的光晕和高达几块钱的单颗成本，让我很难想象今天它几乎照亮了我们生活的每一个角落。从手机屏幕的一抹背光&…

2026/6/11 0:58:15 阅读更多

索引堆及其优化

索引堆及其优化引言索引堆是一种数据结构，广泛应用于计算机科学和软件工程领域。它主要用于解决优先队列问题，如最小堆和最大堆。本文将详细介绍索引堆的概念、实现方法以及优化策略。索引堆的定义索引堆是一种基于堆数据结构的索引机制。它通过维护一个堆来存储数据…

2026/6/11 0:58:13 阅读更多

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

更多请点击： https://intelliparadigm.com 第一章：CSDN AI 数字营销的官方引流卡片是什么功能？ CSDN AI 数字营销平台推出的「官方引流卡片」，是一种面向技术创作者的轻量级、可嵌入式内容分发组件，专为提升博文、教程…

2026/6/11 0:58:10 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/10 9:56:42 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/10 9:56:39 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/10 9:56:34 阅读更多

相关文章

5分钟快速搭建Uptime Kuma：打造专业级自托管监控系统

个人微信如何快速连接 OpenClaw 工具（含安装包）

【内存管理与高并发内存池系列】从 malloc 到 ObjectPool：定长内存池的原理、对齐处理与空闲链表复用

FPGA网络调试避坑指南：如何为你的纯Verilog UDP协议栈添加Ping和ARP功能

电波监测站 OM-036 频谱仪 维系能源产业通信网络

基于51单片机的病床呼叫系统(设计源文件+万字报告+讲解)（支持资料、图片参考_相关定制）_可以扫码或者私信

告别Office依赖！在Umi+React项目中用pptx.js实现PPT在线预览（附完整代码）

Steam Deck模拟器终极指南：EmuDeck一键搞定30+游戏平台

3分钟搭建全栈后端：InsForge让你的AI编码代理拥有完整后端能力

LLM 多轮对话状态管理：从无状态 API 到有状态会话

Spring Boot 3 与 GraalVM 原生镜像：从 JIT 到 AOT 的启动革命

Go 错误处理与错误链：从哨兵错误到自定义错误类型的工程实践

LED驱动技术全解析：从核心架构到实战选型与避坑指南

索引堆及其优化

从零到日增237精准粉丝，我靠CSDN这张AI卡片爆了！手把手复刻全流程，含配置避坑清单

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

电波监测站 OM-036 频谱仪维系能源产业通信网络