这项由美国伊利诺伊大学厄巴纳-香槟分校UIUC与微软研究院联合开展的研究于2026年6月发布在预印本平台arXiv上论文编号为arXiv:2606.02031。有兴趣深入了解的读者可以通过该编号查询完整论文。**一场关于会用浏览器的AI的竞赛**每天全球有数十亿人打开浏览器在网页上搜索商品、填写表单、比价购物、查阅信息。这些操作对人类来说轻而易举但对AI来说却是一座难以翻越的山。网页是动态的、混乱的、充满弹窗和验证码的而且每隔一段时间就会改版——这对需要看懂网页、点对地方、完成任务的AI智能体来说简直是噩梦般的训练场。目前最厉害的网页AI智能体基本都掌握在OpenAI、Google这样的科技巨头手中属于不对外公开训练细节的黑箱系统。开源社区虽然也在努力但普遍依赖一种叫做监督学习的方式——也就是先收集大量人类操作网页的示范录像再让AI模仿。这种方式有个致命短板录像拍摄既昂贵又费时而且录制完成的一刻起就开始过时根本跟不上互联网日新月异的变化节奏。正是在这样的背景下UIUC与微软的研究团队决定另辟蹊径。他们的核心思路是与其让AI死记硬背人类的操作示范不如让AI直接在真实网站上自己去试从成功和失败中学习。这个方向被称为在线强化学习对于视觉化的网页智能体来说它此前几乎还是一片空白地带。研究团队将这套完整的训练框架命名为OpenWebRL并在此基础上训练出了一个4B参数规模的模型OpenWebRL-4B。这个模型仅凭400条初始示范轨迹和2200个在线训练任务就在三个顶级网页智能体测评基准上刷新了开源最高分部分指标甚至超越了OpenAI和Google的商业系统。**一、为什么自己去试比死记硬背更难**在正式介绍这套方法之前有必要先理解为什么让AI在真实网页上边干边学是一件极其困难的事。一个人学骑自行车会从摔倒中体验到平衡的重要性并在下次调整姿势。这个反馈是即时的、清晰的。但让AI在网页上学习完成任务面临的反馈环境要复杂得多。网页是活的——今天还能正常显示的按钮明天可能被移走今天能跑通的登录流程明天可能多了一道验证码某些网站会把频繁的自动化操作识别为机器人并直接封锁访问。这些都是环境噪声很容易让AI误以为是自己做错了从而学偏。更难的问题在于网页任务的成功与否往往要等到整个任务完成后才能判断。你无法在AI点击第三个按钮的时候告诉它这一步做得对只能在它最终回答出这款鞋的最低价是299元之后才能评判整个过程对不对。这种事后才知道结果的反馈机制对训练算法的设计提出了很高的要求。与此同时视觉信息的处理代价极高。每一步操作AI都要看一张网页截图——这张截图可能包含数百个元素消耗大量计算资源。如果每一步历史截图都保留在AI的记忆中一个30步的任务轨迹甚至会超出大多数模型的上下文承载上限。研究团队在论文中系统性地梳理了这些挑战并为每一个挑战设计了具体的解决方案这些方案共同构成了OpenWebRL框架的核心。**二、搭建一个真实网页训练场**OpenWebRL的第一块基石是一套能在真实网站上稳定运行的浏览器环境基础设施。可以把这套系统理解为给AI搭建了一个沙盒游乐场——每个训练任务都在独立的虚拟浏览器窗口中运行互不干扰就像每位学员都有自己专属的训练跑道不会因为别人的失误影响自己。这套基础设施基于Playwright和Chromium构建运行在Kubernetes容器化环境中支持上百个浏览器实例同时并行运作。但真实网页的麻烦在于即便环境搭好了各种意外随时会发生某个网站加载太慢、某次网络请求超时、某页面突然弹出验证码、某个按钮因为反自动化机制而拒绝被点击。研究团队为此设计了完善的容错机制——系统会自动区分是AI做错了还是是网站出问题了并将失败原因详细记录下来以便后续分析。对于那些反复出现网络故障的网站系统还会自动将其列入黑名单避免训练资源浪费在根本无法访问的地址上。**三、让AI看见自己的每一步操作结果**仅靠截图AI很难知道自己的操作是否真的生效了。点了一个按钮之后页面可能看起来没什么变化但实际上可能已经悄悄导航到新页面、或者填写进去的内容根本没被接受。OpenWebRL解决这个问题的方式是给每一次操作都附上一条文字反馈相当于给AI配备了一个实时助理在它每次操作后耳语提示刚才你点的那个按钮成功了页面跳转到了xxx或者你输入的文字和实际接受的内容不一致注意看。这条文字反馈是通过分析操作前后的网页DOM树网页结构树变化来生成的内容简洁但信息密度高。这条反馈的重要性在后续实验中得到了明确验证——去掉这个文字反馈AI在多个基准测试上的成功率会下降5到8个百分点。尤其是在需要多步操作的长程任务中少了这个反馈AI就像在黑暗中摸索很容易在一个已经失败的操作上反复纠缠或者没意识到某个关键步骤已经出错。**四、给AI的操作工具箱和多任务并行能力**OpenWebRL为AI配备了一套由13个基础操作工具组成的工具箱涵盖鼠标点击单击、双击、右键、键盘输入、页面滚动、网址跳转、前进后退、标签页管理以及最重要的完成并报告操作——这是AI告诉系统任务做完了我的答案是xxx的唯一方式。更有趣的是AI每次不需要只调用一个工具。研究团队允许AI在一次思考-行动周期中连续调用多个工具。比如AI可以在一次输出中同时完成点击搜索框、输入关键词、按回车这三个连续动作而不需要经历三次截图→思考→操作→等待截图的完整循环。这个设计大大提高了训练效率减少了不必要的模型与环境之间的来回交互。**五、解决记忆过载的聪明妙招**一个30步的网页操作任务如果把每一步的截图都保留在AI的记忆中数据量之大足以撑爆大多数模型的上下文限制。研究团队的解决方案既简洁又高效只保留最近一张截图但完整保留历史文字信息。道理其实很朴素人在做复杂任务时不需要同时盯着之前每一步的操作界面只需要记住之前做了什么、结果怎样以及当前屏幕上看到的内容就够了。AI也是如此。历史截图被丢弃但每一步的操作记录、环境反馈和AI自己的思考过程都完整保留作为文字形式的工作记忆。实验结果表明只保留最近一张截图K1与保留最近两张相比效果几乎没有差异但计算成本却显著降低——保留两张截图会让训练时长从约240 GPU小时增加到400 GPU小时。这个发现告诉我们在多模态智能体的长程任务中语言记忆的价值往往比视觉历史更为关键。**六、家教先打好基础再放手自学**OpenWebRL的训练分为两个阶段这两个阶段的设计思路很像人类学习新技能的经典路径先跟着老师学基本功再独立上场实战提升。第一阶段是监督微调也就是让AI先模仿高手操作。研究团队使用Qwen3-VL-235B一个拥有2350亿参数的超大模型可以理解为行业顶尖水平的老师来完成一批网页任务筛选出成功的轨迹然后从中精心挑选412条最具代表性的轨迹让4B的小模型来模仿学习。之所以只选412条而不是用几十万条是有深思熟虑的理由的。研究团队发现如果喂太多示范数据小模型会把老师的操作风格学得过于死板反而在后续的实战训练中缺乏可塑性难以被进一步调整优化。就像一个从小被逼着照本宣科的学生反而不如那个只学了基本原则、但保留了自主探索能力的学生进步更快。实验中研究团队对比了四种不同的初始化方式完全不做监督训练、少量训练1轮、适量训练3轮以及大量数据训练3轮。结果发现适量的监督预热412条数据、3轮训练带来的后续强化学习效果最好而大量数据预热反而会拖累最终表现。这个结论有重要的实践指导意义初始化的目的是让AI能开始探索而不是把AI调教成一个完美的模仿者。**七、在试错中成长的强化学习核心算法**第二阶段是OpenWebRL真正的核心让4B模型在真实网站上自己做任务根据最终的成功或失败来更新自己的决策策略。这套训练算法的名字叫做MM-GRPO多模态多轮群体相对策略优化但不用被这个名字吓到。它的基本逻辑其实非常直觉化。每次训练系统会给AI同一个任务让它独立尝试5次一组生成5条不同的操作轨迹。有些轨迹成功完成了任务有些失败了。系统随后计算这5次尝试的平均成功率然后告诉AI比平均水平高的那些轨迹应该更多去模仿比平均水平低的那些轨迹应该避免重蹈覆辙。这种组内相对比较的方式让系统不需要一个外部的完美标准答案只需要自己内部的成败对比就能持续进步。有一个细节非常值得关注如果某个任务的5次尝试结果完全一样比如全部成功或全部失败这组数据会被直接丢弃不参与训练更新。道理很简单——全部成功意味着这个任务太简单AI已经掌握了全部失败意味着这个任务当前太难暂时无法从中学到有效信号。只有那些有时成功、有时失败的任务才能提供最有价值的学习素材。这相当于为AI自动构建了一个难度适中的动态课程。训练采用了两阶段滚动步长的策略先用最多15步的短程任务训练90轮让模型在较短的任务中建立基础探索能力再切换到最多30步的长程任务再训练50轮让模型学会应对真正的长程规划挑战。实验表明这种由短到长的课程式训练比一开始就直接上30步任务的效果要好得多尤其在WebVoyager这个需要较多步骤的基准上差距高达7.4个百分点。**八、谁来当评判官从昂贵到平价的进化**网页任务完成之后如何判断AI的答案是否正确这是整个系统中最难标准化的一环。一些任务可以用规则判断比如找到这款手机的最低价格只要核对数字就行。但很多任务的评判需要理解语义比如找到一家评分最高且离我最近的五星级牙医答案可能因网页状态不同而有合理差异不是简单对比字符串就能判断对错的。研究团队的默认方案是用GPT-4.1作为评判官但这会产生显著的费用一次完整的训练实验需要调用约4.32万次GPT-4.1评判API总费用约545.5美元。对于许多学术研究组来说这是不小的负担。为了解决这个问题研究团队专门从1.25万条带有GPT-4.1评判标签的真实轨迹数据中蒸馏训练出了一个8B规模的开源评判模型OpenWebRL-Judge-8B。实验证明这个评判模型与GPT-4.1的判断吻合度高达89.8%综合F1分数达到92.1%超越了WebJudge-7B、Qwen3-VL-32B甚至GPT-4o等竞争者。用这个本地评判模型替换GPT-4.1之后最终模型的性能几乎没有损失平均成功率从68.4%仅微降到68.3%——几乎可以忽略不计。研究团队还对比了直接用Qwen3-VL-8B未经专门训练的通用模型作为评判官的效果结果令人警惕训练奖励分数看起来越来越高但实际测试成功率却在持续下滑——这是典型的奖励欺骗现象AI学会了如何让评判官满意而不是真正完成任务。这进一步说明专门训练的评判模型对于整个训练系统的稳定性至关重要。**九、成绩单小模型打败大系统**OpenWebRL的最终成绩相当亮眼。研究团队在三个顶级网页智能体基准上进行了全面评测。WebVoyager是一个覆盖15个主流网站的综合型基准共595个任务Online-Mind2Web则包含136个网站的300个长程任务难度更高DeepShop专注于电商购物场景要求AI在多重约束下完成商品搜索与选择共150个任务。OpenWebRL-4B在这三个基准上分别取得了74.1%、67.0%和64.0%的成功率平均成功率68.4%成为同等规模开源模型中的最高水平。横向对比来看它不仅大幅超越了FARA-7B后者在Online-Mind2Web和DeepShop上分别只有34.1%和26.2%、MolmoWeb-8B35.3%和42.3%甚至超越了拥有2350亿参数的Qwen3-VL-235B-A22B。更值得关注的是OpenWebRL-4B在Online-Mind2Web和DeepShop两个基准上还压过了商业系统OpenAI CUA58.3%和24.7%和GPT-5的SoM版本57.7%和49.1%。扩展到8B参数规模的OpenWebRL-8B表现更加稳健平均成功率达到68.7%与商业系统Gemini CUA57.3%和62.0%在两个基准上的对比中展现出明显优势。这些成绩的获得仅使用了412条初始示范轨迹和2200个强化学习训练任务而竞争对手如MolmoWeb则使用了超过27.85万条数据——相差了整整两个数量级。这表明高质量的在线交互训练所带来的提升完全可以弥补初始数据量上的巨大差距。**十、AI在训练中到底学会了什么**研究团队没有满足于发布成绩单而是进一步分析了训练过程中AI行为的变化试图理解强化学习究竟改变了什么。一个有趣的发现是随着训练的推进AI每一步的输出确实变长了但总体任务完成所需的步骤数却在减少——平均步数从第0轮的14步下降到了第80轮的8.9步整个轨迹的总长度也相应缩短。这说明AI并不是在无效地啰嗦而是在更少的步骤内做更充分的思考。研究团队对AI的思考内容进行了深入分析定义了四种常见的思维模式历史总结回顾之前做过什么、去过哪些页面、什么方法失败了、障碍诊断发现验证码、页面封锁等拦截、重试规划制定新的替代策略和条件验证逐一核查任务要求是否满足。训练前后这四种模式的出现频率都有显著提升历史总结的出现率从14.5%提升到21.4%障碍诊断从14.2%提升到23.7%。而且出现这些思维模式的步骤其响应长度增长更为显著从平均332 token增加到542 token历史总结从273增加到440障碍诊断相比之下不包含这些模式的普通步骤长度增长非常有限从282增加到325。这说明AI学会了有选择地深度思考在关键决策节点上投入更多认知资源而不是均匀地在每一步上平摊思考量。这种行为模式与人类专家的认知方式高度吻合——遇到卡点时深度分析熟悉操作时快速执行。**归根结底这套方法改变了什么**说到底OpenWebRL证明了一件在AI研究领域颇具争议的事对于网页智能体这类需要在复杂、动态环境中做长程决策的任务让AI在真实世界里边做边学不仅是可行的而且比堆砌大量人类示范数据要高效得多。这对普通用户意味着未来我们可能会看到更多能真正理解网页、完成复杂在线任务的AI助手而这些AI不再需要依赖科技巨头掌握的海量私有数据而是可以通过开放的框架和有限的初始训练在公开的互联网上持续自我提升。从研究本身的局限性来看有51%的失败案例源于网页本身的访问问题——验证码封锁、网络连接失败、反自动化机制等——这些都不是模型能力的问题而是开放互联网上AI智能体必须面对的基础设施挑战。另外27%的失败来自模型在长程多约束任务中的规划和跟踪能力不足13%来自视觉定位的精度问题。这些方向也正是接下来研究努力的重心所在。研究团队已宣布将公开发布训练数据、模型权重和完整代码让学术界和独立研究者都能在此基础上继续探索。对视觉AI、智能体技术或强化学习感兴趣的读者可以通过arXiv编号2606.02031找到这篇完整论文或者访问项目主页openwebrl.github.io获取更多资源。---QAQ1OpenWebRL-4B为什么只用400条训练数据就能打败用了27万条数据的模型A这主要归功于在线强化学习的训练方式。OpenWebRL-4B不是靠死记硬背人类示范来学习而是在真实网站上自己动手做任务从成功和失败的结果中总结经验。400条数据只是用于打基础的初始监督训练真正让模型突飞猛进的是后续2200个任务的在线实战练习。简单说质量高的真实交互经验比数量大的静态示范数据更有学习价值。Q2OpenWebRL-Judge-8B评判模型和直接用GPT-4.1有什么区别A两者的评判准确率非常接近但成本差异巨大。用GPT-4.1作评判官一次完整训练需要花费约545美元的API费用而OpenWebRL-Judge-8B是一个可以本地运行的开源模型训练完成后不需要额外付费。更重要的是实验证明用GPT-4.1训练出来的模型和用OpenWebRL-Judge-8B训练出来的模型最终测评成绩几乎完全相同平均成功率仅差0.1个百分点。Q3OpenWebRL训练框架为什么要把历史截图丢弃只保留文字记录A因为截图的信息量极大保存所有历史截图会超出模型的处理上限。实验发现保留最近两张截图和只保留一张相比效果几乎没有差异但计算成本从240 GPU小时增加到400 GPU小时。AI真正需要的历史记忆其实通过保存每步的文字反馈和AI自己的推理记录就已经足够这些文字信息比历史截图更紧凑、更高效地传递了关键信息。
当AI学会“边干边学“:UIUC与微软联合打造的网页智能体训练新范式
发布时间:2026/6/7 9:27:06
这项由美国伊利诺伊大学厄巴纳-香槟分校UIUC与微软研究院联合开展的研究于2026年6月发布在预印本平台arXiv上论文编号为arXiv:2606.02031。有兴趣深入了解的读者可以通过该编号查询完整论文。**一场关于会用浏览器的AI的竞赛**每天全球有数十亿人打开浏览器在网页上搜索商品、填写表单、比价购物、查阅信息。这些操作对人类来说轻而易举但对AI来说却是一座难以翻越的山。网页是动态的、混乱的、充满弹窗和验证码的而且每隔一段时间就会改版——这对需要看懂网页、点对地方、完成任务的AI智能体来说简直是噩梦般的训练场。目前最厉害的网页AI智能体基本都掌握在OpenAI、Google这样的科技巨头手中属于不对外公开训练细节的黑箱系统。开源社区虽然也在努力但普遍依赖一种叫做监督学习的方式——也就是先收集大量人类操作网页的示范录像再让AI模仿。这种方式有个致命短板录像拍摄既昂贵又费时而且录制完成的一刻起就开始过时根本跟不上互联网日新月异的变化节奏。正是在这样的背景下UIUC与微软的研究团队决定另辟蹊径。他们的核心思路是与其让AI死记硬背人类的操作示范不如让AI直接在真实网站上自己去试从成功和失败中学习。这个方向被称为在线强化学习对于视觉化的网页智能体来说它此前几乎还是一片空白地带。研究团队将这套完整的训练框架命名为OpenWebRL并在此基础上训练出了一个4B参数规模的模型OpenWebRL-4B。这个模型仅凭400条初始示范轨迹和2200个在线训练任务就在三个顶级网页智能体测评基准上刷新了开源最高分部分指标甚至超越了OpenAI和Google的商业系统。**一、为什么自己去试比死记硬背更难**在正式介绍这套方法之前有必要先理解为什么让AI在真实网页上边干边学是一件极其困难的事。一个人学骑自行车会从摔倒中体验到平衡的重要性并在下次调整姿势。这个反馈是即时的、清晰的。但让AI在网页上学习完成任务面临的反馈环境要复杂得多。网页是活的——今天还能正常显示的按钮明天可能被移走今天能跑通的登录流程明天可能多了一道验证码某些网站会把频繁的自动化操作识别为机器人并直接封锁访问。这些都是环境噪声很容易让AI误以为是自己做错了从而学偏。更难的问题在于网页任务的成功与否往往要等到整个任务完成后才能判断。你无法在AI点击第三个按钮的时候告诉它这一步做得对只能在它最终回答出这款鞋的最低价是299元之后才能评判整个过程对不对。这种事后才知道结果的反馈机制对训练算法的设计提出了很高的要求。与此同时视觉信息的处理代价极高。每一步操作AI都要看一张网页截图——这张截图可能包含数百个元素消耗大量计算资源。如果每一步历史截图都保留在AI的记忆中一个30步的任务轨迹甚至会超出大多数模型的上下文承载上限。研究团队在论文中系统性地梳理了这些挑战并为每一个挑战设计了具体的解决方案这些方案共同构成了OpenWebRL框架的核心。**二、搭建一个真实网页训练场**OpenWebRL的第一块基石是一套能在真实网站上稳定运行的浏览器环境基础设施。可以把这套系统理解为给AI搭建了一个沙盒游乐场——每个训练任务都在独立的虚拟浏览器窗口中运行互不干扰就像每位学员都有自己专属的训练跑道不会因为别人的失误影响自己。这套基础设施基于Playwright和Chromium构建运行在Kubernetes容器化环境中支持上百个浏览器实例同时并行运作。但真实网页的麻烦在于即便环境搭好了各种意外随时会发生某个网站加载太慢、某次网络请求超时、某页面突然弹出验证码、某个按钮因为反自动化机制而拒绝被点击。研究团队为此设计了完善的容错机制——系统会自动区分是AI做错了还是是网站出问题了并将失败原因详细记录下来以便后续分析。对于那些反复出现网络故障的网站系统还会自动将其列入黑名单避免训练资源浪费在根本无法访问的地址上。**三、让AI看见自己的每一步操作结果**仅靠截图AI很难知道自己的操作是否真的生效了。点了一个按钮之后页面可能看起来没什么变化但实际上可能已经悄悄导航到新页面、或者填写进去的内容根本没被接受。OpenWebRL解决这个问题的方式是给每一次操作都附上一条文字反馈相当于给AI配备了一个实时助理在它每次操作后耳语提示刚才你点的那个按钮成功了页面跳转到了xxx或者你输入的文字和实际接受的内容不一致注意看。这条文字反馈是通过分析操作前后的网页DOM树网页结构树变化来生成的内容简洁但信息密度高。这条反馈的重要性在后续实验中得到了明确验证——去掉这个文字反馈AI在多个基准测试上的成功率会下降5到8个百分点。尤其是在需要多步操作的长程任务中少了这个反馈AI就像在黑暗中摸索很容易在一个已经失败的操作上反复纠缠或者没意识到某个关键步骤已经出错。**四、给AI的操作工具箱和多任务并行能力**OpenWebRL为AI配备了一套由13个基础操作工具组成的工具箱涵盖鼠标点击单击、双击、右键、键盘输入、页面滚动、网址跳转、前进后退、标签页管理以及最重要的完成并报告操作——这是AI告诉系统任务做完了我的答案是xxx的唯一方式。更有趣的是AI每次不需要只调用一个工具。研究团队允许AI在一次思考-行动周期中连续调用多个工具。比如AI可以在一次输出中同时完成点击搜索框、输入关键词、按回车这三个连续动作而不需要经历三次截图→思考→操作→等待截图的完整循环。这个设计大大提高了训练效率减少了不必要的模型与环境之间的来回交互。**五、解决记忆过载的聪明妙招**一个30步的网页操作任务如果把每一步的截图都保留在AI的记忆中数据量之大足以撑爆大多数模型的上下文限制。研究团队的解决方案既简洁又高效只保留最近一张截图但完整保留历史文字信息。道理其实很朴素人在做复杂任务时不需要同时盯着之前每一步的操作界面只需要记住之前做了什么、结果怎样以及当前屏幕上看到的内容就够了。AI也是如此。历史截图被丢弃但每一步的操作记录、环境反馈和AI自己的思考过程都完整保留作为文字形式的工作记忆。实验结果表明只保留最近一张截图K1与保留最近两张相比效果几乎没有差异但计算成本却显著降低——保留两张截图会让训练时长从约240 GPU小时增加到400 GPU小时。这个发现告诉我们在多模态智能体的长程任务中语言记忆的价值往往比视觉历史更为关键。**六、家教先打好基础再放手自学**OpenWebRL的训练分为两个阶段这两个阶段的设计思路很像人类学习新技能的经典路径先跟着老师学基本功再独立上场实战提升。第一阶段是监督微调也就是让AI先模仿高手操作。研究团队使用Qwen3-VL-235B一个拥有2350亿参数的超大模型可以理解为行业顶尖水平的老师来完成一批网页任务筛选出成功的轨迹然后从中精心挑选412条最具代表性的轨迹让4B的小模型来模仿学习。之所以只选412条而不是用几十万条是有深思熟虑的理由的。研究团队发现如果喂太多示范数据小模型会把老师的操作风格学得过于死板反而在后续的实战训练中缺乏可塑性难以被进一步调整优化。就像一个从小被逼着照本宣科的学生反而不如那个只学了基本原则、但保留了自主探索能力的学生进步更快。实验中研究团队对比了四种不同的初始化方式完全不做监督训练、少量训练1轮、适量训练3轮以及大量数据训练3轮。结果发现适量的监督预热412条数据、3轮训练带来的后续强化学习效果最好而大量数据预热反而会拖累最终表现。这个结论有重要的实践指导意义初始化的目的是让AI能开始探索而不是把AI调教成一个完美的模仿者。**七、在试错中成长的强化学习核心算法**第二阶段是OpenWebRL真正的核心让4B模型在真实网站上自己做任务根据最终的成功或失败来更新自己的决策策略。这套训练算法的名字叫做MM-GRPO多模态多轮群体相对策略优化但不用被这个名字吓到。它的基本逻辑其实非常直觉化。每次训练系统会给AI同一个任务让它独立尝试5次一组生成5条不同的操作轨迹。有些轨迹成功完成了任务有些失败了。系统随后计算这5次尝试的平均成功率然后告诉AI比平均水平高的那些轨迹应该更多去模仿比平均水平低的那些轨迹应该避免重蹈覆辙。这种组内相对比较的方式让系统不需要一个外部的完美标准答案只需要自己内部的成败对比就能持续进步。有一个细节非常值得关注如果某个任务的5次尝试结果完全一样比如全部成功或全部失败这组数据会被直接丢弃不参与训练更新。道理很简单——全部成功意味着这个任务太简单AI已经掌握了全部失败意味着这个任务当前太难暂时无法从中学到有效信号。只有那些有时成功、有时失败的任务才能提供最有价值的学习素材。这相当于为AI自动构建了一个难度适中的动态课程。训练采用了两阶段滚动步长的策略先用最多15步的短程任务训练90轮让模型在较短的任务中建立基础探索能力再切换到最多30步的长程任务再训练50轮让模型学会应对真正的长程规划挑战。实验表明这种由短到长的课程式训练比一开始就直接上30步任务的效果要好得多尤其在WebVoyager这个需要较多步骤的基准上差距高达7.4个百分点。**八、谁来当评判官从昂贵到平价的进化**网页任务完成之后如何判断AI的答案是否正确这是整个系统中最难标准化的一环。一些任务可以用规则判断比如找到这款手机的最低价格只要核对数字就行。但很多任务的评判需要理解语义比如找到一家评分最高且离我最近的五星级牙医答案可能因网页状态不同而有合理差异不是简单对比字符串就能判断对错的。研究团队的默认方案是用GPT-4.1作为评判官但这会产生显著的费用一次完整的训练实验需要调用约4.32万次GPT-4.1评判API总费用约545.5美元。对于许多学术研究组来说这是不小的负担。为了解决这个问题研究团队专门从1.25万条带有GPT-4.1评判标签的真实轨迹数据中蒸馏训练出了一个8B规模的开源评判模型OpenWebRL-Judge-8B。实验证明这个评判模型与GPT-4.1的判断吻合度高达89.8%综合F1分数达到92.1%超越了WebJudge-7B、Qwen3-VL-32B甚至GPT-4o等竞争者。用这个本地评判模型替换GPT-4.1之后最终模型的性能几乎没有损失平均成功率从68.4%仅微降到68.3%——几乎可以忽略不计。研究团队还对比了直接用Qwen3-VL-8B未经专门训练的通用模型作为评判官的效果结果令人警惕训练奖励分数看起来越来越高但实际测试成功率却在持续下滑——这是典型的奖励欺骗现象AI学会了如何让评判官满意而不是真正完成任务。这进一步说明专门训练的评判模型对于整个训练系统的稳定性至关重要。**九、成绩单小模型打败大系统**OpenWebRL的最终成绩相当亮眼。研究团队在三个顶级网页智能体基准上进行了全面评测。WebVoyager是一个覆盖15个主流网站的综合型基准共595个任务Online-Mind2Web则包含136个网站的300个长程任务难度更高DeepShop专注于电商购物场景要求AI在多重约束下完成商品搜索与选择共150个任务。OpenWebRL-4B在这三个基准上分别取得了74.1%、67.0%和64.0%的成功率平均成功率68.4%成为同等规模开源模型中的最高水平。横向对比来看它不仅大幅超越了FARA-7B后者在Online-Mind2Web和DeepShop上分别只有34.1%和26.2%、MolmoWeb-8B35.3%和42.3%甚至超越了拥有2350亿参数的Qwen3-VL-235B-A22B。更值得关注的是OpenWebRL-4B在Online-Mind2Web和DeepShop两个基准上还压过了商业系统OpenAI CUA58.3%和24.7%和GPT-5的SoM版本57.7%和49.1%。扩展到8B参数规模的OpenWebRL-8B表现更加稳健平均成功率达到68.7%与商业系统Gemini CUA57.3%和62.0%在两个基准上的对比中展现出明显优势。这些成绩的获得仅使用了412条初始示范轨迹和2200个强化学习训练任务而竞争对手如MolmoWeb则使用了超过27.85万条数据——相差了整整两个数量级。这表明高质量的在线交互训练所带来的提升完全可以弥补初始数据量上的巨大差距。**十、AI在训练中到底学会了什么**研究团队没有满足于发布成绩单而是进一步分析了训练过程中AI行为的变化试图理解强化学习究竟改变了什么。一个有趣的发现是随着训练的推进AI每一步的输出确实变长了但总体任务完成所需的步骤数却在减少——平均步数从第0轮的14步下降到了第80轮的8.9步整个轨迹的总长度也相应缩短。这说明AI并不是在无效地啰嗦而是在更少的步骤内做更充分的思考。研究团队对AI的思考内容进行了深入分析定义了四种常见的思维模式历史总结回顾之前做过什么、去过哪些页面、什么方法失败了、障碍诊断发现验证码、页面封锁等拦截、重试规划制定新的替代策略和条件验证逐一核查任务要求是否满足。训练前后这四种模式的出现频率都有显著提升历史总结的出现率从14.5%提升到21.4%障碍诊断从14.2%提升到23.7%。而且出现这些思维模式的步骤其响应长度增长更为显著从平均332 token增加到542 token历史总结从273增加到440障碍诊断相比之下不包含这些模式的普通步骤长度增长非常有限从282增加到325。这说明AI学会了有选择地深度思考在关键决策节点上投入更多认知资源而不是均匀地在每一步上平摊思考量。这种行为模式与人类专家的认知方式高度吻合——遇到卡点时深度分析熟悉操作时快速执行。**归根结底这套方法改变了什么**说到底OpenWebRL证明了一件在AI研究领域颇具争议的事对于网页智能体这类需要在复杂、动态环境中做长程决策的任务让AI在真实世界里边做边学不仅是可行的而且比堆砌大量人类示范数据要高效得多。这对普通用户意味着未来我们可能会看到更多能真正理解网页、完成复杂在线任务的AI助手而这些AI不再需要依赖科技巨头掌握的海量私有数据而是可以通过开放的框架和有限的初始训练在公开的互联网上持续自我提升。从研究本身的局限性来看有51%的失败案例源于网页本身的访问问题——验证码封锁、网络连接失败、反自动化机制等——这些都不是模型能力的问题而是开放互联网上AI智能体必须面对的基础设施挑战。另外27%的失败来自模型在长程多约束任务中的规划和跟踪能力不足13%来自视觉定位的精度问题。这些方向也正是接下来研究努力的重心所在。研究团队已宣布将公开发布训练数据、模型权重和完整代码让学术界和独立研究者都能在此基础上继续探索。对视觉AI、智能体技术或强化学习感兴趣的读者可以通过arXiv编号2606.02031找到这篇完整论文或者访问项目主页openwebrl.github.io获取更多资源。---QAQ1OpenWebRL-4B为什么只用400条训练数据就能打败用了27万条数据的模型A这主要归功于在线强化学习的训练方式。OpenWebRL-4B不是靠死记硬背人类示范来学习而是在真实网站上自己动手做任务从成功和失败的结果中总结经验。400条数据只是用于打基础的初始监督训练真正让模型突飞猛进的是后续2200个任务的在线实战练习。简单说质量高的真实交互经验比数量大的静态示范数据更有学习价值。Q2OpenWebRL-Judge-8B评判模型和直接用GPT-4.1有什么区别A两者的评判准确率非常接近但成本差异巨大。用GPT-4.1作评判官一次完整训练需要花费约545美元的API费用而OpenWebRL-Judge-8B是一个可以本地运行的开源模型训练完成后不需要额外付费。更重要的是实验证明用GPT-4.1训练出来的模型和用OpenWebRL-Judge-8B训练出来的模型最终测评成绩几乎完全相同平均成功率仅差0.1个百分点。Q3OpenWebRL训练框架为什么要把历史截图丢弃只保留文字记录A因为截图的信息量极大保存所有历史截图会超出模型的处理上限。实验发现保留最近两张截图和只保留一张相比效果几乎没有差异但计算成本从240 GPU小时增加到400 GPU小时。AI真正需要的历史记忆其实通过保存每步的文字反馈和AI自己的推理记录就已经足够这些文字信息比历史截图更紧凑、更高效地传递了关键信息。