今天这篇是Qwen3.5 小型模型系列0.8B / 2B / 4B / 9B的专属本地部署教程重点讲 Unsloth 团队第一时间放出的 GGUF 量化版本怎么玩如何免费微调自己的Qwen3.5手把手教你从下载到运行Mac、PC、Linux 全覆盖。为什么要关注 Unsloth 的 GGUF先说一个背景Qwen 官方发布的是 HuggingFace 格式的权重safetensors这种格式主要面向 GPU 推理vLLM、SGLang、Transformers 等框架。对于没有高端 GPU 的普通玩家来说GGUF 格式才是本地部署的真正入口。而 Unsloth 就是目前开源社区做 GGUF 量化做得最好的团队之一他们有一套叫 Dynamic 2.0 的量化方案——核心思路是把模型中重要的层比如注意力层的关键权重保留更高精度8-bit 甚至 16-bit不重要的层大胆压缩。这样做的好处是4-bit 量化下的表现几乎逼近 FP16 原始精度。这次 Qwen3.5 小模型系列一发布Unsloth 就同步放出了全系 GGUF效率拉满。Unsloth GGUF 下载地址每个模型都提供了从 2-bit 到 8-bit 的多种量化版本你可以根据自己的设备内存来选。内存需求速查表这是 Unsloth 官方给出的硬件需求参考总内存 RAM VRAM 或统一内存简单来说0.8B / 2B几乎任何设备都能跑3GB 内存就够4BQ4 量化7GB 内存MacBook Air M1 8GB 版就能玩9BQ4 量化9GB 内存MacBook Pro 16GB 或 12GB 显存 GPU 轻松搞定对比一下 9B 模型 Q4 量化只需要 9GB 内存——你的旧款 MacBook Pro 16GB 就能满血运行一个在多项 benchmark 上吊打 80B 大模型的小钢炮这波性价比简直了。量化版本怎么选Unsloth 提供了一堆量化版本初学者可能看花眼。我帮你简化一下量化版本推荐场景精度损失UD-Q4_K_XL推荐日常使用首选精度和体积最佳平衡极小Q4_K_M经典 4-bit 量化兼容性最好小UD-Q2_K_XL极致省内存适合内存紧张的设备可接受Q8_0追求精度内存充足时使用几乎无**我的建议闭眼选UD-Q4_K_XL或Q4_K_M**。Unsloth 官方的 KL Divergence 测试显示UD-Q4_K_XL在 Pareto 前沿上表现 SOTAState of the Art精度损失可以忽略不计。方法一llama.cpp 直接跑最推荐1. 编译 llama.cpp首先你需要最新版 llama.cpp。如果你还没装过# 克隆最新代码 git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp # macOS / CPU 编译 cmake -B build -DGGML_CUDAOFF cmake --build build --config Release -j # 如果有 NVIDIA GPU改成 # cmake -B build -DGGML_CUDAON # cmake --build build --config Release -j2. 下载模型推荐用 HuggingFace Hub 下载pip install huggingface_hub hf_transfer # 下载 9B 的 Q4_K_M 量化版本 huggingface-cli download unsloth/Qwen3.5-9B-GGUF \ --include Qwen3.5-9B-Q4_K_M.gguf \ --local-dir ./models如果你要换其他型号把9B改成0.8B、2B或4B即可。3. 交互式对话Non-Thinking 模式默认./build/bin/llama-cli \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ -cnv就这么简单直接开聊。4. 启用 Thinking 模式⚠️划重点Qwen3.5 小模型系列0.8B - 9B默认关闭了 Thinking推理思考模式这和大模型27B不一样。如果你想让小模型也输出think.../think推理过程需要通过llama-server启动并传入额外参数./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --chat-template-kwargs {enable_thinking:true}这样你就能在本地获得一个拥有完整思考链路的 9B 小钢炮了。方法二llama-server 部署为 API 服务如果你想把模型部署成 OpenAI 兼容的 API 服务比如给 Claude Code、Cursor 等工具用推荐这种方式1. 启动 llama-server# Non-Thinking 模式默认推荐日常使用 ./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --port 8080 \ --n-gpu-layers 35 # Thinking 模式 ./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --port 8080 \ --n-gpu-layers 35 \ --chat-template-kwargs {enable_thinking:true}2. 用 Python 调用from openai import OpenAI client OpenAI( base_urlhttp://localhost:8080/v1, api_keyEMPTY ) response client.chat.completions.create( modelQwen3.5-9B, messages[ {role: user, content: 用 Python 写一个快速排序} ], temperature0.7, top_p0.8, max_tokens4096 ) print(response.choices[0].message.content)API 就是标准的 OpenAI 格式任何支持 OpenAI SDK 的客户端都能直接对接。方法三GPU 玩家的选择vLLM / SGLang如果你有独立 GPU哪怕是一张 3060 12GB可以直接用 vLLM 或 SGLang 跑原始精度权重不需要 GGUF 量化# vLLM 部署 vllm serve Qwen/Qwen3.5-9B \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --reasoning-parser qwen3 # SGLang 部署 python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-9B \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 32768 \ --reasoning-parser qwen3相比 GGUFvLLM/SGLang 的优势是零精度损失推理速度更快GPU 加速支持更高并发支持多 GPU 张量并行但前提是你得有显卡。推荐采样参数Unsloth 和 Qwen 官方都给了推荐参数进阶用 Unsloth 免费微调 Qwen3.5 小模型光能跑推理还不过瘾Unsloth 还提供了完整的Qwen3.5 微调方案而且小模型0.8B / 2B / 4B / 9B可以直接在Google Colab 免费 T4 GPU上完成微调这意味着你不需要任何本地 GPU打开浏览器就能训练自己的专属模型。免费 Colab Notebook一键运行Unsloth 为每个小模型都准备了现成的 Colab Notebook模型Colab 链接Qwen3.5-0.8B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(0.8B 打开 Colab).ipynb)Qwen3.5-2B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(2B 打开 Colab).ipynb)Qwen3.5-4B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B 打开 Colab).ipynb)Qwen3.5-9B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(9B 打开 Colab).ipynb)点开就能跑零配置完全免费。本地微调代码示例如果你更喜欢在自己机器上跑或者需要更大的数据集和更长的训练时间也可以本地微调。先装好 Unslothpip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo然后是一个最简的 SFT监督微调脚本from unsloth import FastLanguageModel import torch from datasets import load_dataset from trl import SFTTrainer, SFTConfig max_seq_length 2048# 先从小的开始跑通再加大 # 加载示例数据集替换成你自己的 url https://huggingface.co/datasets/laion/OIG/resolve/main/unified_chip2.jsonl dataset load_dataset(json, data_files{train: url}, splittrain) # 加载 Qwen3.5-9B可以换成 0.8B/2B/4B model, tokenizer FastLanguageModel.from_pretrained( model_name Qwen/Qwen3.5-9B, max_seq_length max_seq_length, load_in_4bit True, # 4-bit QLoRA省显存 full_finetuning False, ) # 挂上 LoRA 适配器 model FastLanguageModel.get_peft_model( model, r 16, target_modules [ q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj, ], lora_alpha 16, lora_dropout 0, bias none, use_gradient_checkpointing unsloth, # 降低显存 支持更长上下文 random_state 3407, max_seq_length max_seq_length, ) # 开始训练 trainer SFTTrainer( model model, train_dataset dataset, tokenizer tokenizer, args SFTConfig( max_seq_length max_seq_length, per_device_train_batch_size 1, gradient_accumulation_steps 4, warmup_steps 10, max_steps 100, # 先跑 100 步看看效果 logging_steps 1, output_dir outputs_qwen35, optim adamw_8bit, seed 3407, ), ) trainer.train()代码看着长但核心逻辑就三步加载模型 → 挂 LoRA → 训练。Unsloth 把底层复杂的优化全封装好了。显存不够怎么办Unsloth 给了几个实用建议把per_device_train_batch_size降到 1**减小max_seq_length**比如从 2048 降到 1024)保持use_gradient_checkpointing unsloth开启—— 这是 Unsloth 的独家优化能显著降低显存占用同时支持更长的上下文实测 9B 模型用 4-bit QLoRA在一张 12GB 显卡比如 3060/4060上就能跑起来。视觉微调也支持还记得 Qwen3.5 是原生多模态模型吗Unsloth 同样支持视觉微调你可以用图文对数据来训练模型的视觉理解能力from unsloth import FastVisionModel model FastVisionModel.get_peft_model( model, finetune_vision_layers True, # 微调视觉层 finetune_language_layers True, # 微调语言层 finetune_attention_modules True, # 微调注意力层 finetune_mlp_modules True, # 微调 MLP 层 r 16, lora_alpha 16, lora_dropout 0, bias none, random_state 3407, target_modules all-linear, )你可以灵活控制只微调视觉层、只微调语言层、或者全部一起微调非常灵活。微调完怎么导出训练完的模型可以导出为多种格式直接用于本地部署导出为 GGUF给 llama.cpp / Ollama / LM Studio 用# 导出为 Q4_K_M 量化的 GGUF model.save_pretrained_gguf(my_model, tokenizer, quantization_methodq4_k_m) # 或者导出为 Q8 量化 model.save_pretrained_gguf(my_model, tokenizer, quantization_methodq8_0) # 想上传到 HuggingFace model.push_to_hub_gguf(你的用户名/my_model, tokenizer, quantization_methodq4_k_m)导出为 16-bit给 vLLM 用model.save_pretrained_merged(finetuned_model, tokenizer, save_methodmerged_16bit) # 或者上传到 HuggingFace model.push_to_hub_merged(你的用户名/model, tokenizer, save_methodmerged_16bit, token)只保存 LoRA 适配器体积小方便分享model.save_pretrained(finetuned_lora) tokenizer.save_pretrained(finetuned_lora)整个工作流Colab 免费训练 → 导出 GGUF → 本地 llama.cpp 跑起来一分钱不花完全免费。微调的关键注意事项想保留推理能力训练数据中至少保留 75% 的带 thinking推理思考的样本其余可以是直接回答导出后效果变差最常见的原因是推理时用的 chat template / EOS token 和训练时不一致。Unsloth 会自动提醒你vLLM 版本注意截至目前 vLLM 0.16.0 尚不支持 Qwen3.5需要等 0.17.0 或使用 Nightly 版本进阶搭配 Claude Code / OpenAI Codex 使用Unsloth 官方文档特别提到你可以用 llama-server 搭建本地模型服务后直接对接Claude Code或OpenAI Codex实现免费的本地 AI 编程助手。操作思路用上面的方法启动 llama-server设置OPENAI_BASE_URLhttp://localhost:8080/v1在 Claude Code 或 Codex 中配置使用本地端点一个 9B 模型就能驱动你的本地 Coding Agent不花一分钱 API 费用。进阶超长文本处理YaRN 扩展到 100万 tokensQwen3.5-9B 原生支持 262,144 tokens 上下文但如果你需要处理更长的文本比如整本书可以通过 YaRN 技术扩展到1,010,000 tokens。在 vLLM 中启用VLLM_ALLOW_LONG_MAX_MODEL_LEN1 vllm serve Qwen/Qwen3.5-9B \ --hf-overrides {text_config: {rope_parameters: {mrope_interleaved: true, mrope_section: [11, 11, 10], rope_type: yarn, rope_theta: 10000000, partial_rotary_factor: 0.25, factor: 4.0, original_max_position_embeddings: 262144}}} \ --max-model-len 1010000一个 9B 模型处理百万 token 上下文想想就觉得离谱。我的建议四个型号怎么选你的场景推荐型号推荐量化需要内存树莓派 / IoT 嵌入式0.8BQ4_K_M5 GB手机端 / 轻薄本2BQ4_K_M5 GBMacBook Air 8GB4BUD-Q4_K_XL7 GBMacBook Pro 16GB / 12GB GPU9BUD-Q4_K_XL9 GB追求极致轻量0.8BUD-Q2_K_XL3 GB我个人最推荐 9B 的 Q4 量化版本。在 GPQA Diamond 上拿到 81.7 的 9B 模型能装进一台普通笔记本还要什么自行车总结Unsloth 这次围绕 Qwen3.5 小模型的支持可以说是全链路覆盖从 GGUF 量化推理到 LoRA 微调再到模型导出一站式搞定。对于我们这些本地部署玩家来说基本上打通了最后一公里门槛极低3GB 内存就能跑 0.8B9GB 内存就能跑 9B精度靠谱Dynamic 2.0 方案下的 Q4 量化几乎无损工具链齐全llama.cpp、vLLM、SGLang 全线支持场景丰富从对话到 Agent 到代码生成到百万 token 长文档处理免费微调Google Colab T4 GPU 就能训练你自己的专属模型闭环导出微调完直接导出 GGUF本地跑起来还等什么赶紧把你的 MacBook 武装起来吧。相关链接Unsloth 本地部署指南https://unsloth.ai/docs/models/qwen3.5Unsloth 微调指南https://unsloth.ai/docs/models/qwen3.5/fine-tuneUnsloth GGUF 合集https://huggingface.co/collections/unsloth/qwen35Qwen3.5-9B 模型卡https://huggingface.co/Qwen/Qwen3.5-9Bllama.cpp 项目地址https://github.com/ggml-org/llama.cpp#Qwen3.5 #Unsloth #GGUF #本地部署 #微调 #llama.cpp #开源
Qwen3.5 0.8B/2B/4B/9B 小模型本地部署指南,微调教程
发布时间:2026/6/11 7:10:47
今天这篇是Qwen3.5 小型模型系列0.8B / 2B / 4B / 9B的专属本地部署教程重点讲 Unsloth 团队第一时间放出的 GGUF 量化版本怎么玩如何免费微调自己的Qwen3.5手把手教你从下载到运行Mac、PC、Linux 全覆盖。为什么要关注 Unsloth 的 GGUF先说一个背景Qwen 官方发布的是 HuggingFace 格式的权重safetensors这种格式主要面向 GPU 推理vLLM、SGLang、Transformers 等框架。对于没有高端 GPU 的普通玩家来说GGUF 格式才是本地部署的真正入口。而 Unsloth 就是目前开源社区做 GGUF 量化做得最好的团队之一他们有一套叫 Dynamic 2.0 的量化方案——核心思路是把模型中重要的层比如注意力层的关键权重保留更高精度8-bit 甚至 16-bit不重要的层大胆压缩。这样做的好处是4-bit 量化下的表现几乎逼近 FP16 原始精度。这次 Qwen3.5 小模型系列一发布Unsloth 就同步放出了全系 GGUF效率拉满。Unsloth GGUF 下载地址每个模型都提供了从 2-bit 到 8-bit 的多种量化版本你可以根据自己的设备内存来选。内存需求速查表这是 Unsloth 官方给出的硬件需求参考总内存 RAM VRAM 或统一内存简单来说0.8B / 2B几乎任何设备都能跑3GB 内存就够4BQ4 量化7GB 内存MacBook Air M1 8GB 版就能玩9BQ4 量化9GB 内存MacBook Pro 16GB 或 12GB 显存 GPU 轻松搞定对比一下 9B 模型 Q4 量化只需要 9GB 内存——你的旧款 MacBook Pro 16GB 就能满血运行一个在多项 benchmark 上吊打 80B 大模型的小钢炮这波性价比简直了。量化版本怎么选Unsloth 提供了一堆量化版本初学者可能看花眼。我帮你简化一下量化版本推荐场景精度损失UD-Q4_K_XL推荐日常使用首选精度和体积最佳平衡极小Q4_K_M经典 4-bit 量化兼容性最好小UD-Q2_K_XL极致省内存适合内存紧张的设备可接受Q8_0追求精度内存充足时使用几乎无**我的建议闭眼选UD-Q4_K_XL或Q4_K_M**。Unsloth 官方的 KL Divergence 测试显示UD-Q4_K_XL在 Pareto 前沿上表现 SOTAState of the Art精度损失可以忽略不计。方法一llama.cpp 直接跑最推荐1. 编译 llama.cpp首先你需要最新版 llama.cpp。如果你还没装过# 克隆最新代码 git clone https://github.com/ggml-org/llama.cpp.git cd llama.cpp # macOS / CPU 编译 cmake -B build -DGGML_CUDAOFF cmake --build build --config Release -j # 如果有 NVIDIA GPU改成 # cmake -B build -DGGML_CUDAON # cmake --build build --config Release -j2. 下载模型推荐用 HuggingFace Hub 下载pip install huggingface_hub hf_transfer # 下载 9B 的 Q4_K_M 量化版本 huggingface-cli download unsloth/Qwen3.5-9B-GGUF \ --include Qwen3.5-9B-Q4_K_M.gguf \ --local-dir ./models如果你要换其他型号把9B改成0.8B、2B或4B即可。3. 交互式对话Non-Thinking 模式默认./build/bin/llama-cli \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ -cnv就这么简单直接开聊。4. 启用 Thinking 模式⚠️划重点Qwen3.5 小模型系列0.8B - 9B默认关闭了 Thinking推理思考模式这和大模型27B不一样。如果你想让小模型也输出think.../think推理过程需要通过llama-server启动并传入额外参数./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --chat-template-kwargs {enable_thinking:true}这样你就能在本地获得一个拥有完整思考链路的 9B 小钢炮了。方法二llama-server 部署为 API 服务如果你想把模型部署成 OpenAI 兼容的 API 服务比如给 Claude Code、Cursor 等工具用推荐这种方式1. 启动 llama-server# Non-Thinking 模式默认推荐日常使用 ./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --port 8080 \ --n-gpu-layers 35 # Thinking 模式 ./build/bin/llama-server \ -m ./models/Qwen3.5-9B-Q4_K_M.gguf \ --ctx-size 16384 \ --port 8080 \ --n-gpu-layers 35 \ --chat-template-kwargs {enable_thinking:true}2. 用 Python 调用from openai import OpenAI client OpenAI( base_urlhttp://localhost:8080/v1, api_keyEMPTY ) response client.chat.completions.create( modelQwen3.5-9B, messages[ {role: user, content: 用 Python 写一个快速排序} ], temperature0.7, top_p0.8, max_tokens4096 ) print(response.choices[0].message.content)API 就是标准的 OpenAI 格式任何支持 OpenAI SDK 的客户端都能直接对接。方法三GPU 玩家的选择vLLM / SGLang如果你有独立 GPU哪怕是一张 3060 12GB可以直接用 vLLM 或 SGLang 跑原始精度权重不需要 GGUF 量化# vLLM 部署 vllm serve Qwen/Qwen3.5-9B \ --port 8000 \ --tensor-parallel-size 1 \ --max-model-len 32768 \ --reasoning-parser qwen3 # SGLang 部署 python -m sglang.launch_server \ --model-path Qwen/Qwen3.5-9B \ --port 8000 \ --tp-size 1 \ --mem-fraction-static 0.8 \ --context-length 32768 \ --reasoning-parser qwen3相比 GGUFvLLM/SGLang 的优势是零精度损失推理速度更快GPU 加速支持更高并发支持多 GPU 张量并行但前提是你得有显卡。推荐采样参数Unsloth 和 Qwen 官方都给了推荐参数进阶用 Unsloth 免费微调 Qwen3.5 小模型光能跑推理还不过瘾Unsloth 还提供了完整的Qwen3.5 微调方案而且小模型0.8B / 2B / 4B / 9B可以直接在Google Colab 免费 T4 GPU上完成微调这意味着你不需要任何本地 GPU打开浏览器就能训练自己的专属模型。免费 Colab Notebook一键运行Unsloth 为每个小模型都准备了现成的 Colab Notebook模型Colab 链接Qwen3.5-0.8B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(0.8B 打开 Colab).ipynb)Qwen3.5-2B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(2B 打开 Colab).ipynb)Qwen3.5-4B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(4B 打开 Colab).ipynb)Qwen3.5-9B[打开 Colab](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_5_(9B 打开 Colab).ipynb)点开就能跑零配置完全免费。本地微调代码示例如果你更喜欢在自己机器上跑或者需要更大的数据集和更长的训练时间也可以本地微调。先装好 Unslothpip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo然后是一个最简的 SFT监督微调脚本from unsloth import FastLanguageModel import torch from datasets import load_dataset from trl import SFTTrainer, SFTConfig max_seq_length 2048# 先从小的开始跑通再加大 # 加载示例数据集替换成你自己的 url https://huggingface.co/datasets/laion/OIG/resolve/main/unified_chip2.jsonl dataset load_dataset(json, data_files{train: url}, splittrain) # 加载 Qwen3.5-9B可以换成 0.8B/2B/4B model, tokenizer FastLanguageModel.from_pretrained( model_name Qwen/Qwen3.5-9B, max_seq_length max_seq_length, load_in_4bit True, # 4-bit QLoRA省显存 full_finetuning False, ) # 挂上 LoRA 适配器 model FastLanguageModel.get_peft_model( model, r 16, target_modules [ q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj, ], lora_alpha 16, lora_dropout 0, bias none, use_gradient_checkpointing unsloth, # 降低显存 支持更长上下文 random_state 3407, max_seq_length max_seq_length, ) # 开始训练 trainer SFTTrainer( model model, train_dataset dataset, tokenizer tokenizer, args SFTConfig( max_seq_length max_seq_length, per_device_train_batch_size 1, gradient_accumulation_steps 4, warmup_steps 10, max_steps 100, # 先跑 100 步看看效果 logging_steps 1, output_dir outputs_qwen35, optim adamw_8bit, seed 3407, ), ) trainer.train()代码看着长但核心逻辑就三步加载模型 → 挂 LoRA → 训练。Unsloth 把底层复杂的优化全封装好了。显存不够怎么办Unsloth 给了几个实用建议把per_device_train_batch_size降到 1**减小max_seq_length**比如从 2048 降到 1024)保持use_gradient_checkpointing unsloth开启—— 这是 Unsloth 的独家优化能显著降低显存占用同时支持更长的上下文实测 9B 模型用 4-bit QLoRA在一张 12GB 显卡比如 3060/4060上就能跑起来。视觉微调也支持还记得 Qwen3.5 是原生多模态模型吗Unsloth 同样支持视觉微调你可以用图文对数据来训练模型的视觉理解能力from unsloth import FastVisionModel model FastVisionModel.get_peft_model( model, finetune_vision_layers True, # 微调视觉层 finetune_language_layers True, # 微调语言层 finetune_attention_modules True, # 微调注意力层 finetune_mlp_modules True, # 微调 MLP 层 r 16, lora_alpha 16, lora_dropout 0, bias none, random_state 3407, target_modules all-linear, )你可以灵活控制只微调视觉层、只微调语言层、或者全部一起微调非常灵活。微调完怎么导出训练完的模型可以导出为多种格式直接用于本地部署导出为 GGUF给 llama.cpp / Ollama / LM Studio 用# 导出为 Q4_K_M 量化的 GGUF model.save_pretrained_gguf(my_model, tokenizer, quantization_methodq4_k_m) # 或者导出为 Q8 量化 model.save_pretrained_gguf(my_model, tokenizer, quantization_methodq8_0) # 想上传到 HuggingFace model.push_to_hub_gguf(你的用户名/my_model, tokenizer, quantization_methodq4_k_m)导出为 16-bit给 vLLM 用model.save_pretrained_merged(finetuned_model, tokenizer, save_methodmerged_16bit) # 或者上传到 HuggingFace model.push_to_hub_merged(你的用户名/model, tokenizer, save_methodmerged_16bit, token)只保存 LoRA 适配器体积小方便分享model.save_pretrained(finetuned_lora) tokenizer.save_pretrained(finetuned_lora)整个工作流Colab 免费训练 → 导出 GGUF → 本地 llama.cpp 跑起来一分钱不花完全免费。微调的关键注意事项想保留推理能力训练数据中至少保留 75% 的带 thinking推理思考的样本其余可以是直接回答导出后效果变差最常见的原因是推理时用的 chat template / EOS token 和训练时不一致。Unsloth 会自动提醒你vLLM 版本注意截至目前 vLLM 0.16.0 尚不支持 Qwen3.5需要等 0.17.0 或使用 Nightly 版本进阶搭配 Claude Code / OpenAI Codex 使用Unsloth 官方文档特别提到你可以用 llama-server 搭建本地模型服务后直接对接Claude Code或OpenAI Codex实现免费的本地 AI 编程助手。操作思路用上面的方法启动 llama-server设置OPENAI_BASE_URLhttp://localhost:8080/v1在 Claude Code 或 Codex 中配置使用本地端点一个 9B 模型就能驱动你的本地 Coding Agent不花一分钱 API 费用。进阶超长文本处理YaRN 扩展到 100万 tokensQwen3.5-9B 原生支持 262,144 tokens 上下文但如果你需要处理更长的文本比如整本书可以通过 YaRN 技术扩展到1,010,000 tokens。在 vLLM 中启用VLLM_ALLOW_LONG_MAX_MODEL_LEN1 vllm serve Qwen/Qwen3.5-9B \ --hf-overrides {text_config: {rope_parameters: {mrope_interleaved: true, mrope_section: [11, 11, 10], rope_type: yarn, rope_theta: 10000000, partial_rotary_factor: 0.25, factor: 4.0, original_max_position_embeddings: 262144}}} \ --max-model-len 1010000一个 9B 模型处理百万 token 上下文想想就觉得离谱。我的建议四个型号怎么选你的场景推荐型号推荐量化需要内存树莓派 / IoT 嵌入式0.8BQ4_K_M5 GB手机端 / 轻薄本2BQ4_K_M5 GBMacBook Air 8GB4BUD-Q4_K_XL7 GBMacBook Pro 16GB / 12GB GPU9BUD-Q4_K_XL9 GB追求极致轻量0.8BUD-Q2_K_XL3 GB我个人最推荐 9B 的 Q4 量化版本。在 GPQA Diamond 上拿到 81.7 的 9B 模型能装进一台普通笔记本还要什么自行车总结Unsloth 这次围绕 Qwen3.5 小模型的支持可以说是全链路覆盖从 GGUF 量化推理到 LoRA 微调再到模型导出一站式搞定。对于我们这些本地部署玩家来说基本上打通了最后一公里门槛极低3GB 内存就能跑 0.8B9GB 内存就能跑 9B精度靠谱Dynamic 2.0 方案下的 Q4 量化几乎无损工具链齐全llama.cpp、vLLM、SGLang 全线支持场景丰富从对话到 Agent 到代码生成到百万 token 长文档处理免费微调Google Colab T4 GPU 就能训练你自己的专属模型闭环导出微调完直接导出 GGUF本地跑起来还等什么赶紧把你的 MacBook 武装起来吧。相关链接Unsloth 本地部署指南https://unsloth.ai/docs/models/qwen3.5Unsloth 微调指南https://unsloth.ai/docs/models/qwen3.5/fine-tuneUnsloth GGUF 合集https://huggingface.co/collections/unsloth/qwen35Qwen3.5-9B 模型卡https://huggingface.co/Qwen/Qwen3.5-9Bllama.cpp 项目地址https://github.com/ggml-org/llama.cpp#Qwen3.5 #Unsloth #GGUF #本地部署 #微调 #llama.cpp #开源