小模型推理能力提升实践:以越南语数学任务为例 1. 项目概述当小模型遇上大难题如何跨越越南语数学的“推理鸿沟”在AI模型日益庞大的今天动辄数百亿甚至万亿参数的大模型LLM在复杂推理任务上风光无限。然而现实世界的部署场景往往充满限制一台普通的手机、一个嵌入式的教育平板或是需要实时响应的在线辅导应用它们没有足够的算力去承载这些“庞然大物”。这时参数规模通常在70亿以下尤其是我们这次聚焦的“微”级别小于20亿参数的小语言模型SLM就成了我们必须依赖的“轻骑兵”。但一个公认的挑战也随之而来小模型在需要多步逻辑推导、符号运算和连贯思维链的任务上常常表现得力不从心这就是所谓的“推理鸿沟”Reasoning Gap。这个问题在英语以外的语言环境中尤为突出因为高质量的训练数据和针对性的研究都相对匮乏。我们的工作正是瞄准了这个痛点如何让一个仅有17亿参数的“小个子”模型在越南语小学数学这种极具挑战性的任务上也能像模像样地“思考”起来我们选择了通义千问的Qwen3-1.7B作为实验对象它虽然体积小但得益于在数万亿token上的“过度训练”其知识密度和潜力不容小觑。核心的突破口在于“测试时扩展”Test-Time Scaling策略。简单来说这不是在训练时给模型“增肌”而是在推理时教它“如何更好地运用已有的肌肉”。通过引导模型在输出最终答案前先生成一系列中间推理步骤即链式思维Chain-of-Thought我们相当于给了模型更多的“思考时间”和计算资源来分解复杂问题。为了系统地解决这个问题我们做了三件关键的事第一我们构建并开源了Vi-S1K一个通过先进流程本地化的高质量越南语数学推理数据集专门用于“教会”模型如何一步步推理。第二我们创建了Vi-Elementary-Bench一个包含1010道题目的综合性评测基准覆盖从经典应用题到数学诗歌等六类题型用于严谨评估模型的语言理解和逻辑能力。第三我们设计了一套基于大模型Gemini 2.5 Flash Lite作为裁判的自动化评估协议它能从准确性、完整性、解释清晰度、逻辑性和文化契合度五个维度进行打分远超简单的答案匹配。实验结果表明监督微调SFT扮演了至关重要的“推理解锁器”角色。经过Vi-S1K数据微调后模型的解释质量提升了惊人的77%从一个只会“闷头计算”的计算器转变为一个能清晰阐述步骤的“小老师”。更重要的是我们深入比较了多种提示策略发现了一个关键权衡对于1.7B这样的小模型过于结构化的框架如ReAct会带来显著的“认知税”消耗其宝贵的注意力资源来维持格式反而损害了推理性能。最终链式思维结合自洽性采样CoT-SC被证明是精度和效率的最佳平衡点。如果你是一名AI应用开发者、教育科技从业者或是对在资源受限环境下部署智能体感兴趣的研究者这篇详尽的实践记录将为你展示如何通过精心的数据工程、针对性的微调和明智的推理策略充分挖掘小模型的潜力让智能推理不再是大模型的专属。2. 核心原理与方案设计拆解“推理”的黑箱要让小模型“学会”推理我们首先得理解“推理”在语言模型中究竟意味着什么。它并非一个神秘的突发能力而是一种可诱导、可扩展的生成行为模式。我们的整体方案设计正是围绕如何系统性地激发和优化这种模式展开的。2.1 理论基础从链式思维到测试时扩展传统上我们让模型解决数学题是直接输入问题期望它输出一个答案比如“输入15 - 8 ? 输出7”。这种方式对于简单记忆或单步计算有效但对于“哥哥今年15岁去年哥哥的年龄是弟弟的2倍问弟弟今年几岁”这类多步问题模型很容易出错。链式思维Chain-of-Thought, CoT的提出改变了这一范式。它的核心思想是“局部性推理”将一个复杂问题P分解为一系列子步骤S1 - S2 - ... - Sn最终得到答案A。模型不需要一次性解决整个P而只需在每一步解决从当前状态到下一个状态的过渡。这大大降低了每一步的认知负荷。在技术上这通过一个简单的提示触发如“请逐步思考解决这个问题”引导模型生成中间推理文本。测试时扩展Test-Time Scaling是这一思想的深化。它指出模型的推理性能可以与在测试时分配给问题的计算量即生成的token数量成比例地扩展。换句话说允许模型“多想一会儿”生成更长的思维链其表现可能会显著提升。这为小模型超越其参数规模的限制提供了理论可能。我们的研究就是将这一理念应用在参数规模的极端下限——1.7B模型上。2.2 模型选型为什么是Qwen3-1.7B在众多小模型中我们选择了Qwen3-1.7B主要基于其架构和训练策略上的独特优势“过度训练”策略该模型在约36万亿token的庞大数据集上进行了预训练这个数据量远超其参数规模对应的传统缩放定律建议值。这种策略旨在用海量数据“饱和”模型的容量使其编码通常只有更大模型才具备的知识深度和模式。针对推理的架构优化Qwen3系列采用了三阶段预训练流程其中第二阶段专门聚焦于STEM、编程和逻辑数据。这为模型打下了良好的数理逻辑基础。此外它采用了分组查询注意力GQA机制在生成长思维链时能有效降低内存带宽需求提升推理速度。适中的上下文窗口支持32K token的上下文长度足以容纳少样本示例和多个自洽性采样所需的冗长推理轨迹。注意选择小模型时不能只看参数大小。其预训练数据的质量、广度以及架构是否针对推理任务如长上下文、注意力优化进行过设计往往是更关键的因素。Qwen3-1.7B在这几点上取得了较好的平衡。2.3 整体方案蓝图数据、训练与评估的三位一体我们的方案是一个紧密耦合的闭环系统如下图所示概念图[高质量英文推理数据 S1K] - [基于Gemini的上下文感知翻译与本地化管道] - [越南语高质量数据集 Vi-S1K] | | | v [模型潜力评估] ---------------------- [监督微调 (SFT) 与 LoRA] ------ [用于训练] | | v v [多样化评测集 Vi-Elementary-Bench] - [多策略提示推理] - [LLM-as-a-Judge 自动化评估] - [性能分析与结论]数据工程Vi-S1K构建这是解锁模型推理能力的关键。我们没有使用简单的机器翻译而是设计了一个基于Gemini 2.5 Flash-Lite API的自动化管道。这个管道能理解上下文保留数学逻辑和LaTeX格式同时将术语如小数点“point”转为越南语“dấu phẩy”逗号和文化元素货币、人名本地化确保数据符合越南教育部标准成为模型有效的训练信号。模型训练监督微调SFT使用LoRA低秩适应技术在Vi-S1K上对Qwen3-1.7B进行微调。LoRA只训练模型权重中注入的一小部分低秩矩阵既能高效适配新任务又极大节省显存并保留预训练知识。我们将数据格式化为ChatML格式明确区分系统指令、用户问题和助手模型的推理链回答。评估体系Vi-Elementary-Bench LLM-as-a-Judge构建一个涵盖六类题型的1010道题目的测试集全面考察能力。评估上我们摒弃了脆弱的精确匹配Exact Match采用Gemini 2.5 Flash-Lite作为裁判从5个维度进行1-5分的细致评分。这种评估方式成本可控且与人类专家评分有较高相关性能真正衡量推理的“质量”而不仅仅是“结果”。这个方案的核心逻辑是用高质量、任务特定的数据Vi-S1K对齐模型的输出分布用科学的评估方法LLM-as-a-Judge量化改进用不同的测试时策略CoT, ReAct等探索模型能力边界。3. 实操细节全解析从数据构建到模型调优理论需要落地下面我将拆解整个过程中最关键的操作细节、配置参数和那些容易踩坑的地方。这部分是项目复现的核心请务必注意其中的参数选择和操作意图。3.1 Vi-S1K数据集构建超越简单翻译的本地化艺术直接翻译英文数学题到越南语常常会丢失逻辑连贯性或引入术语错误。我们的管道分为三个阶段上下文感知翻译工具调用Gemini 2.5 Flash-Lite API。选择它是因为其超长的100万token上下文窗口可以容纳复杂的系统提示和批量任务。提示工程系统提示System Prompt是关键。我们不会只说“翻译这段文字”而是会详细指示“你是一位精通越南语小学数学教育的专家。请将以下数学问题及其分步解答翻译成地道、准确的越南语。务必注意1. 保留所有数学逻辑和推理步骤的完整性2. 数学公式和符号如LaTeX原样保留3. 将‘decimal point’译为‘dấu phẩy’4. 将‘dividend’译为‘số bị chia’5. 人名、地名等文化元素酌情越南语化。”实操心得批量处理时将多个QA对放在同一个API调用中利用其长上下文优势比多次调用单条翻译更稳定、成本更低且能保持术语一致性。术语规范化后处理即使有好的提示翻译结果仍可能出现不一致。我们编写了一个简单的规则过滤层进行二次校准。例如用正则表达式确保所有表示“小数点”的地方都是“dấu phẩy”检查“除以”等短语的用法。注意事项这个步骤不能太死板避免将正确的口语化表达错误“纠正”。最好人工抽查一批数据确定规则的有效性。文化适配将问题中的“美元”转为“越南盾”并将人名如“John”改为“Nam”等常见的越南名字。这一步虽小但能显著降低模型在理解问题时的认知负担使其更专注于数学逻辑本身。数据格式最终每条数据都整理为标准的指令微调格式{ instruction: Giải bài toán sau bằng tiếng Việt, trình bày từng bước một., input: Hiện nay mẹ hơn con 18 tuổi. 1 năm trước, tổng số tuổi của hai mẹ con là 40. Hỏi hiện nay mỗi người bao nhiêu tuổi?, output: Bài giải:\n1. Gọi tuổi mẹ hiện nay là M, tuổi con hiện nay là C.\n2. Theo đề bài: M - C 18. (1)\n3. Một năm trước, tuổi mẹ là M-1, tuổi con là C-1.\n4. Tổng số tuổi khi đó: (M-1) (C-1) 40 M C - 2 40 M C 42. (2)\n5. Từ (1) và (2), ta có hệ phương trình...\n6. Giải hệ được M 30, C 12.\nĐáp số: Mẹ 30 tuổi, con 12 tuổi. }3.2 监督微调配置用LoRA高效解锁潜力我们使用Hugging Face的TRL库和Unsloth优化进行LoRA微调。以下是具体的配置参数及其考量# 关键训练参数 from transformers import TrainingArguments training_args TrainingArguments( output_dir./qwen3-1.7b-sft-math-vi, per_device_train_batch_size8, # 在A100上根据显存调整 gradient_accumulation_steps4, # 增大有效批次大小 num_train_epochs3, # 对于1K的高质量数据3个epoch通常足够避免过拟合 learning_rate2e-5, # 对于LoRA这是一个常用的起点不算大 lr_scheduler_typecosine, # 余弦退火让学习率平滑下降 warmup_ratio0.03, # 小幅预热稳定训练初期 logging_steps10, save_strategyepoch, bf16True, # 使用BF16精度在Ampere架构GPU上兼顾速度和精度 tf32True, # 启用TF32加速 gradient_checkpointingTrue, # 用时间换空间节省显存 optimpaged_adamw_8bit, # 使用8-bit优化器进一步节省显存 ) # LoRA 配置 from peft import LoraConfig lora_config LoraConfig( r64, # LoRA秩。我们选择了较高的64因为要学习的是复杂的“推理轨迹”格式需要更强的表达能力。 lora_alpha16, # 缩放参数通常设置为r的2倍或相近值。 target_modules[q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj], # 针对Qwen架构注意力层和FFN层都适配 lora_dropout0.1, biasnone, task_typeCAUSAL_LM, )为什么选择LoRA全参数微调一个1.7B模型需要约34GB的显存BF16精度而使用上述LoRA配置显存占用可降至10GB左右使得在消费级显卡如RTX 3090/4090上进行微调成为可能。秩r64的选择通常对于简单指令跟随r8或16可能就够了。但我们微调的目标是让模型学会生成结构化的、多步骤的推理链这比简单分类或问答更复杂。更高的秩赋予了LoRA适配器更强的表达能力来学习这种新模式。这是一个经验性选择我们通过小规模实验验证了r64比r32能带来更稳定的推理链生成。Batch Size与Epoch由于Vi-S1K只有1000条高质量数据我们采用了较小的per_device_batch_size8并通过gradient_accumulation_steps4将有效批次大小提高到32。训练3个epoch足以让模型充分学习数据分布而不至于记住过拟合具体的题目。实操心得在开始大规模训练前务必用1%的数据跑一个快速验证如1个epoch。检查损失曲线是否正常下降并抽样生成结果看模型是在学习“推理格式”还是在死记硬背答案。如果模型在验证集上的表现过早停滞或下降可能需要降低学习率或减少epoch。3.3 提示策略的工程实现五种策略的详细对比在推理阶段我们系统比较了五种策略。以下是它们的实现模板和核心机制1. 零样本提示Zero-shot机制完全依赖模型内部权重和对齐后的行为。是评估模型原始能力的基线。模板Câu hỏi: {Vietnamese_Question} Trả lời:2. 少样本提示Few-shot机制利用Transformer的注意力机制通过上下文中的示例“激活”模型生成类似格式答案的能力。它提供了输出分布的“先验”。模板k3示例Ví dụ 1: Câu hỏi: [题目1] Giải: [分步解答1] Ví dụ 2: Câu hỏi: [题目2] Giải: [分步解答2] Ví dụ 3: Câu hỏi: [题目3] Giải: [分步解答3] Câu hỏi: {当前问题} Giải:注意事项示例的选择至关重要。应覆盖不同类型的题目算术、逻辑、应用题且解答格式要统一、清晰。示例太多k5会挤占上下文窗口可能影响性能。3. 链式思维提示CoT机制显式触发模型在微调中学到的“逐步推理”行为。通过生成中间步骤的token模型获得了更多的“计算时间”来推导最终答案。模板Câu hỏi: {Vietnamese_Question} Hãy suy nghĩ từng bước một để giải quyết vấn đề này. Trả lời:关键指令“Hãy suy nghĩ từng bước một”必须清晰明确。这是我们实现“测试时扩展”的核心。4. 链式思维自洽性采样CoT-SC机制为了抵消小模型的随机性偶尔的“幻觉”或计算错误我们使用温度采样Temperature0.7为同一个问题生成N个不同的推理路径然后对最终答案进行多数投票。这相当于对“推理路径”这个隐变量进行了边际化。配置# 使用 vLLM 生成 from vllm import SamplingParams sampling_params SamplingParams(temperature0.7, top_p0.95, max_tokens512) # 对同一个问题用相同的参数生成N次例如N5 outputs llm.generate([prompt] * N, sampling_params) # 提取每个输出的最终答案通常位于“Đáp số:”之后 answers [extract_answer(output.outputs[0].text) for output in outputs] # 多数投票 final_answer max(set(answers), keyanswers.count)权衡N越大结果越可靠但推理成本时间和计算线性增加。我们的实验表明对于1.7B模型N5相比N3有稳定提升但边际效益递减。5. ReAct框架隐式动作交错机制强制模型以“思考Thought-行动Action-观察Observation”的严格结构输出。在封闭环境无外部工具中“行动”被建模为内部认知步骤如“计算12*5”。这旨在帮助模型显式地管理状态。模板Câu hỏi: {Vietnamese_Question} Giải quyết bài toán bằng cách đan xen Suy nghĩ, Hành động và Quan sát. Suy nghĩ 1: Tôi cần xác định các dữ kiện đã cho. Hành động 1: Trích xuất số liệu từ đề bài. Quan sát 1: [模型生成] Suy nghĩ 2: [模型生成] ...潜在问题对于小模型维持这种严格格式需要消耗额外的注意力资源可能导致其在复杂计算时“分心”我们称之为“认知税”。4. 评估与结果深度分析数据背后的故事我们使用Gemini 2.5 Flash Lite作为裁判对微调前后的模型在五种提示策略下的表现进行了全面评估。评分维度包括准确性Accuracy、完整性Completeness、解释质量Explanation、论证逻辑Argumentation和文化语言适切性Cultural/Linguistic Appropriateness均为1-5分制。4.1 基准模型表现潜力与短板下表展示了未微调的基础模型Base Model的表现提示策略准确性完整性解释质量论证逻辑文化/语言综合得分零样本 (Zero-shot)3.552.101.952.203.102.58少样本 3例 (Few-shot k3)3.752.452.302.503.402.88少样本 5例 (Few-shot k5)3.822.602.502.653.553.02链式思维 (CoT)4.052.802.602.903.603.19CoT 自洽性 (k3)4.182.902.703.003.653.29CoT 自洽性 (k5)4.253.002.803.103.703.37ReAct3.201.801.601.903.002.30关键发现强大的潜在计算能力即使在零样本下基础模型的准确性也有3.55分CoT-SC (k5) 更是达到了4.25。这说明Qwen3-1.7B从其海量预训练中学到了扎实的数学计算知识。明显的“格式化鸿沟”与较高的准确性形成鲜明对比的是其完整性、解释质量和论证逻辑得分普遍偏低2-3分。裁判反馈指出模型经常“只给答案不给过程”或者使用英语术语、缺乏教学结构。这印证了我们的假设模型有知识但缺乏有效“表达”知识即推理的协议。ReAct的灾难性表现ReAct的综合得分最低2.30。模型常常陷入格式混乱如JSON语法错误或迷失在维护“思考/行动”标签中导致推理崩溃。这直观地展示了小模型在处理复杂结构化输出时的“认知过载”。4.2 微调后的蜕变从“计算器”到“小老师”经过在Vi-S1K数据集上的监督微调后模型表现发生了质的飞跃。下表展示了微调后模型的得分括号内为相比基础模型的提升值Δ。提示策略准确性完整性解释质量论证逻辑文化/语言综合得分零样本4.10 (0.55)3.90 (1.80)3.80 (1.85)3.95 (1.75)4.60 (1.50)4.07 (1.49)少样本 k34.25 (0.50)4.10 (1.65)4.05 (1.75)4.15 (1.65)4.75 (1.35)4.26 (1.38)少样本 k54.30 (0.48)4.20 (1.60)4.15 (1.65)4.20 (1.55)4.80 (1.25)4.33 (1.31)链式思维 (CoT)4.55 (0.50)4.50 (1.70)4.60 (2.00)4.45 (1.55)4.85 (1.25)4.59 (1.40)CoT 自洽性 k34.62 (0.44)4.55 (1.65)4.65 (1.95)4.50 (1.50)4.88 (1.23)4.64 (1.35)CoT 自洽性 k54.68 (0.43)4.60 (1.60)4.70 (1.90)4.58 (1.48)4.90 (1.20)4.69 (1.32)ReAct4.05 (0.85)4.10 (2.30)4.00 (2.40)3.90 (2.00)4.50 (1.50)4.11 (1.81)核心结论SFT是“推理解锁器”准确性有稳健提升0.5左右但最惊人的进步体现在解释质量2.00和完整性1.70。微调后的模型能够生成清晰、分步、符合越南数学教材风格的解答。它不再是一个黑箱计算器而是一个能进行教学沟通的“辅导者”。CoT-SC (k5) 是最佳策略综合得分达到4.69是可靠性的天花板。自洽性采样有效平滑了小模型的随机错误。ReAct的改进与局限微调后ReAct各项指标大幅提升尤其是解释和完整性说明模型学会了遵循该格式。但其综合得分4.11仍显著低于纯CoT4.59。这证实了我们的“认知税”假设对于1.7B模型ReAct的严格格式开销仍然会挤占用于核心数学推理的“思维”资源。性能天花板即使是最好的配置得分也未达到满分4.9或5.0。模型在复杂的逻辑谜题上仍会偶尔出现“幻觉”这反映了1.7B参数规模固有的能力上限。4.3 定性分析一个ReAct失败的典型案例让我们看一个具体例子理解ReAct为何会失败问题 “Hiện nay anh 15 tuổi. Năm trước tuổi anh gấp đôi tuổi em. Hỏi năm nay em bao nhiêu tuổi?” (哥哥今年15岁。去年哥哥的年龄是弟弟的2倍。问弟弟今年几岁)微调后CoT模型的输出Giải: Hãy suy nghĩ từng bước: 1. Năm trước, tuổi của anh là: 15 - 1 14 (tuổi). 2. Năm trước, tuổi của em là: 14 : 2 7 (tuổi). 3. Năm nay, tuổi của em là: 7 1 8 (tuổi). Đáp số: 8 tuổi.分析 模型专注于算术逻辑解答简洁、符合教学结构并得出正确答案。ReAct模型的输出失败Suy nghĩ 1: Tôi cần tìm tuổi của anh năm trước. Hành động 1: Tính 15 - 1. Quan sát 1: 14. Suy nghĩ 2: Bây giờ tôi cần tìm tuổi của em năm trước. Hành động 2: Chia 14 cho 2. Quan sát 2: 7. Suy nghĩ 3: Kiểm tra xem định dạng đã đúng chưa... ồ tôi cần xuất JSON... Hành động 3: {answer: 7} Quan sát 3: Định dạng Hành động không hợp lệ. Suy nghĩ 4: Tôi đã mắc lỗi. Tôi cần tính tuổi hiện tại. Hành động 4: 7 1 8 ... (模型陷入循环或达到生成长度限制)分析 模型在前两步正确识别了逻辑但随后开始纠结于输出格式误以为要输出JSON产生了“上下文拥挤”最终要么格式错误要么无法完成推理。这清晰地展示了结构化框架给小模型带来的额外负担。5. 经验总结与部署建议基于以上实验我们可以为小语言模型在类似推理任务上的应用总结出一套清晰的部署层次和实操建议。5.1 小模型推理能力提升的核心逻辑我们的工作揭示了一个重要观点对于像Qwen3-1.7B这样经过高质量预训练的小模型其推理知识在很大程度上是“潜在”存在的。监督微调的核心作用往往不是“注入”新的知识而是进行风格迁移Style Transfer和协议对齐Protocol Alignment。我们通过Vi-S1K数据集教会了模型如何将内部已有的计算知识以一种人类可读的、符合教学规范的、分步推理的格式“表达”出来。这解释了为什么解释质量的提升远大于准确性的提升。5.2 策略选择指南精度、效率与成本的权衡根据不同的应用场景推荐以下策略策略综合得分适用场景优点缺点CoT 自洽性 (k5)4.69离线批处理、自动评分、高可靠性要求场景精度最高抗随机错误能力强结果最稳定。推理成本高需生成5次延迟大不适合实时交互。标准链式思维 (CoT)4.59实时交互、聊天助手、在线辅导精度高延迟低在速度与准确性间取得最佳平衡。仍可能因单次推理错误而失败。少样本提示 (k3-5)4.26-4.33快速原型验证、上下文学习能力测试无需微调利用模型固有的上下文学习能力灵活。性能低于微调后的CoT且占用上下文窗口。零样本4.07极限低延迟场景、资源极度受限速度最快计算开销最小。输出不稳定缺乏解释用户体验差。ReAct框架4.11谨慎使用需要严格结构化输出的实验性场景输出高度结构化易于后续程序解析。对小模型负担重易导致格式错误和推理崩溃性价比低。核心建议对于绝大多数面向用户的推理应用经过SFT微调后的标准CoT提示是最佳起点。如果对可靠性有极致要求且能接受更高的计算成本则升级到CoT-SC (k5)。5.3 避坑指南与实操心得数据质量高于数据数量1000条高质量的、经过精心本地化和格式化的推理数据Vi-S1K其效果远胜于10万条粗糙翻译或格式不一的数据。在构建数据时宁可花三倍时间做好一条也不要快速产出三条劣质数据。微调时警惕过拟合小模型小数据集极易过拟合。务必保留一个独立的验证集监控验证集损失。如果验证集损失在几个epoch后开始上升而训练集损失持续下降应立即停止训练或大幅降低学习率。使用LoRA时可以尝试更低的秩r或更高的dropout。提示词需用目标语言我们的实验全部使用越南语提示词。如果你为中文模型做微调推理时也一定要用中文提示词如“请逐步思考”而不是英文“Let‘s think step by step”这能激活模型在对应语言上的最佳表现。自洽性采样的温度设置温度Temperature是控制多样性的关键。温度太低如0.1生成的多个路径可能过于相似失去了投票的意义温度太高如1.0路径可能过于随机甚至荒谬。0.6-0.8是一个经验上的甜点区间能产生既有差异性又不失相关性的推理路径。评估需多维度永远不要只依赖最终答案的正确率Accuracy。一个能给出正确步骤但最终计算抄错答案的模型比一个直接蒙对答案的模型更有价值。使用LLM-as-a-Judge等多维度评估能更全面地衡量模型的“教学能力”。5.4 未来可探索的方向本次实践为我们打开了多扇门后续可以深入以下几个方向训练轻量级验证器CoT-SC (k5)需要5倍计算。可以尝试训练一个极小的“验证器”模型例如几百兆参数专门用于给不同的推理路径打分从而用更少的采样次数如k2验证器达到接近的可靠性。扩展任务类型当前数据集集中于算术和文字逻辑。可以引入几何需要空间推理、图表解析等更复杂的题型进一步挑战和提升模型的综合推理能力。边缘部署优化为了在手机或IoT设备上运行需要研究量化如INT4对模型推理能力的影响。我们的实验使用了BF16全精度量化可能会对脆弱的推理链生成产生意想不到的影响需要仔细评估。探索其他小模型架构除了Qwen可以测试Phi、Gemma等不同架构的小模型比较它们在相同数据和方法下的表现寻找更高效的“推理解锁”范式。通过这一整套从数据构建、模型微调到推理策略优化的完整流程我们证明了即使是一个1.7B参数的小模型也能在特定领域如越南语小学数学通过精心设计的方法展现出令人满意的结构化推理能力。这为在资源受限环境下部署可解释、可交互的AI助手提供了切实可行的技术路径。