8B模型榨出极限战力!本地LLM胜率狂飙86% 今天我们要讲的是一个工程方法通过这个Forge框架来增强本地运行的8B模型让这个小模型可以在复杂的agent任务上面有更好的表现。Q本地小模型在做这些复杂任务的时候经常会出现哪些让人抓狂的问题A在本地跑这种复杂的 agent 的时候你会非常紧张因为显存随时都有可能爆掉。所以你只能上一个8B的这种量化的小模型然后再给他配上一堆工具函数。但是他经常会像一个多动症的实习生一样无中生有一些 API调用或者是说他把本应该是一个 JSON 格式的输出写成了散文或者是说他做着做着任务就忘了他本来要干嘛了导致整个流程就直接崩掉。QForge 框架到底是怎么通过工程手段来解决这些小模型执行任务时容易失控的问题的AForge 其实它完全没有去碰模型的权重它更像是给本地的语言模型套上了一副非常坚固的逻辑装甲。它会用这种底层的工程手段去纠正模型的一些错误比如当你的模型要输出一个残缺的代码或者是调用一个不存在的函数的时候Forge 就会立刻拦住它并且把报错信息反馈给模型强制要求它进行重试和修正所以它会让整个推理的过程变得可控。QForge 框架具体是怎么做到让本地小模型看起来像是一个在云端的大模型它是怎么实现这种伪装的AForge 里面有一个特别狡猾的东西叫代理模式它会像一个透明的拦截网一样挡在你的编程客户端和本地服务器之间。比如说像 Aider 或者 Continue 这种高级的编程客户端它其实以为自己在跟一个参数巨多的云端模型交流但实际上背后真正在干活的只是一个被 Forge 疯狂优化过的8B量化小模型。每一次有这种输出的时候代理就会帮小模型把一些瑕疵都处理掉所以整个过程对客户端来说是完全无感知的。QForge 框架到底是用什么手段能够解决8B模型经常会在工具调用和自由文本生成之间反复横跳这个让人非常头疼的问题AForge 用了一个非常绝的方法它直接把模型自由发言的这个能力给拿掉了它在底层注入了一个叫做 respond 的虚拟工具然后它会强迫模型在整个生命周期里面都只能通过调用工具来进行输出。所以它想要回复的时候也必须要走这个工具这样的话就彻底避免了模型在两种模式之间的切换带来的混乱。Q在本地有限的显存下面Forge 框架到底是怎么通过一些手段能够让8B模型把多步的 agent 任务做得这么好的A这个框架它有一个非常冷血的上下文管理和层级压缩的机制它会时刻的去关注你的显存还剩多少然后就像给特工分配弹药一样它只允许最关键的任务信息进入到模型里面它会把所有的冗余对话全部都剔除掉所以它就会避免出现这种上下文的雪崩。在包含二十六个高难度场景的多步 agent 评估里面它的胜率直接飙升到了百分之八十六点五它就是完全靠这种工程的手段把一个小模型活生生的拉到了一个顶级选手的水平。https://github.com/antoinezambelli/forge