摘要2026年5月22日微软研究院AI Frontiers实验室发布Fara1.5系列浏览器智能体在两项主流基准测试中击败OpenAI Operator和Google Gemini 2.5 Computer Use。值得关注的是这是一款完全开源的模型权重开放、推理代码公开。本文将深度解析其技术架构、训练管线、安全设计并提供可运行的本地部署指南。1. 开源逆袭27B参数凭什么打败闭源巨头当业界还在讨论闭源大模型是否在各领域全面领先时微软用一款27B参数的开源模型给出了答案在浏览器智能体领域开源模型不仅能打还能打赢。2026年5月22日微软研究院发布的Fara1.5系列在Online-Mind2Web基准测试中以72%的得分击败了OpenAI Operator58.3%和Google Gemini 2.5 Computer Use57.3%。更令人震惊的是其9B版本也达到了63.4%同样超越了两大闭源巨头。这不是小打小闹的略胜一筹而是在真实互联网环境136个真实网站、300项任务中的全面碾压。更值得关注的是Fara1.5是完全开源的权重开放、推理代码公开。微软用行动证明开源社区完全有能力打造匹敌甚至超越闭源巨头的浏览器智能体。本文将深入技术细节告诉你微软是如何用200万条样本和一套精妙的训练管线把开源小模型调教成浏览器自动化领域的新标杆。无论你是AI研究员、SRE工程师、还是想用AI自动化替代RPA的开发者这篇文章都将给你带来实质性的收获。2. Fara1.5是什么一句话说清定位Fara1.5是微软研究院发布的开源浏览器智能体Browser Computer Use Agent系列包含三个参数规模的版本模型版本参数量定位GPU显存需求Fara1.5-4B4B轻量级部署低资源场景~8GBFara1.5-9B9B平衡之选已上线Azure~18GBFara1.5-27B27B性能旗舰全面超越闭源模型~56GB核心定位Fara1.5基于Qwen3.5基础检查点微调专为真实互联网环境中的浏览器自动化任务设计。与纯合成环境训练的对手不同Fara1.5在真实网站的嘈杂、多变环境中表现出色。为什么强调真实互联网环境因为这是最难的部分——真实网站会变、广告会弹、加载会慢、各种边缘情况层出不穷。很多在合成环境表现优秀的模型一到真实战场就原形毕露。开源承诺✅权重完全开放Hugging Face可直接下载✅推理代码公开GitHub仓库完全开源✅配套MagenticLite沙盒浏览器界面安全测试环境技术规格一览基础模型: Qwen3.5 发布时间: 2026年5月22日 发布机构: 微软研究院AI Frontiers实验室 训练样本: 200万条 参数规模: 4B / 9B / 27B 许可证: 开源许可具体见GitHub3. 性能基准双榜单验证两项冠军性能是检验模型实力的唯一标准。Fara1.5在两项主流基准测试中展现统治力3.1 Online-Mind2Web基准真实互联网这是目前最具挑战性的浏览器智能体基准涵盖136个真实网站、300项任务考验模型在真实复杂环境中的泛化能力。┌─────────────────────────────────────────────┬───────────┬────────────┐ │ 模型 │ 得分 │ 排名 │ ├─────────────────────────────────────────────┼───────────┼────────────┤ │ Fara1.5-27B │ 72.0% │ 冠军 │ │ Yutori Navigator n1 │ 64.7% │ │ │ Fara1.5-9B │ 63.4% │ │ │ OpenAI Operator │ 58.3% │ │ │ Gemini 2.5 Computer Use │ 57.3% │ │ │ GUI-Owl-1.5-8B │ 48.6% │ │ │ MolmoWeb │ 35.3% │ │ │ Fara-7B (前代) │ 34.1% │ │ └─────────────────────────────────────────────┴───────────┴────────────┘关键洞察Fara1.5-27B比前代Fara-7B提升超过110%6个月性能翻倍这说明微软的训练管线有实质性的技术突破9B小模型已经超越OpenAI和Google的旗舰闭源方案充分证明了数据质量 模型规模的训练哲学领先幅度明显27B模型领先第二名7.3个百分点优势不是侥幸3.2 WebVoyager基准在另一项主流基准中Fara1.5同样表现出色模型得分备注Fara1.5-27B88.6% 冠军OpenAI Operator87.0%略逊一筹Holo2 30B83.0%Fara1.5-9B86.6% 亚军Fara1.5-4B80.8%值得注意的是OpenAI Operator在WebVoyager上表现尚可87%但在Online-Mind2Web上却大幅落后58.3%。这说明Online-Mind2Web更能考验模型在真实复杂场景下的泛化能力而Fara1.5在这场更难的大考中脱颖而出。4. 技术架构观察-思考-行动循环Fara1.5的核心架构遵循经典的**“观察-思考-行动”Observe-Think-Act**循环但微软在细节上做了大量优化使其在真实环境中表现出色。4.1 核心工作流详解┌─────────────────────────────────────────────────────────────────────┐ │ Fara1.5 推理循环 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ┌───────────────────────────────────────────────────────────┐ │ │ │ 观察 (Observe) │ │ │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ │ │ 历史对话 │ │ 截图(t-2) │ │ 截图(t-1) │ 截图(t)│ │ │ │ │ Context │ │ │ │ │ │ │ │ │ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ └───────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ┌───────────────────────────────────────────────────────────┐ │ │ │ 思考 (Think) │ │ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ │ │ 1. 当前页面状态分析 │ │ │ │ │ │ 2. 任务目标分解 │ │ │ │ │ │ 3. 下一步行动规划 │ │ │ │ │ │ 4. 风险评估与安全检查 │ │ │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ └───────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ┌───────────────────────────────────────────────────────────┐ │ │ │ 行动 (Act) │ │ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ │ │ 动作类型: 点击/输入/搜索/暂停/完成 │ │ │ │ │ │ 动作参数: 坐标/文本/目标元素 │ │ │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ └───────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────┘4.2 观察输入Observation每步推理接收两类输入1. 历史对话上下文完整的任务描述用户最初的指令之前的交互记录动作序列和反馈这是模型理解我要做什么的关键2. 最近3张浏览器截图提供当前页面的视觉状态帮助模型理解页面布局和元素位置视觉信息与文本信息互补为什么是3张而不是1张因为浏览器状态变化可能是渐进的3张截图能帮助模型理解页面变化的历史轨迹。4.3 思考输出Thought模型输出结构化的推理内容包含四个维度# 思考输出的结构伪代码thought{observation_analysis:当前页面包含搜索框、商品列表、筛选器...,goal_decomposition:任务已完成3步打开网站→搜索→筛选还需2步,action_plan:下一步点击第二个商品的查看详情按钮,risk_assessment:动作安全无不可逆操作可继续执行}4.4 动作空间设计Fara1.5的动作空间经过精心设计平衡了表达能力与可控性动作类型 │ ├── 鼠标键盘操作 │ ├── click(x, y) # 在坐标(x,y)点击 │ ├── click_element(id) # 点击指定元素 │ ├── type(text) # 输入文本 │ ├── hover(x, y) # 悬停 │ ├── scroll(delta) # 滚动页面 │ ├── scroll_to_bottom() # 滚动到底部 │ ├── scroll_to_top() # 滚动到顶部 │ ├── shortcut(keys) # 快捷键如CtrlC │ └── go_back() / go_forward() # 浏览器前进后退 │ ├── 网页搜索 │ └── search(query) # 使用搜索引擎查询 │ └── 元动作Meta Actions ├── grounding(fact) # 记忆关键事实 ├── ask_user(question) # 向用户提问确认 └── finish() # 任务完成元动作的引入是Fara1.5的重要创新grounding允许模型记录在任务中获取的关键信息如电话号码、订单号避免重复查询ask_user在关键节点暂停等待用户输入缺失信息finish明确告知任务完成让智能体优雅退出4.5 与前代Fara-7B的技术对比特性Fara-7B (前代)Fara1.5动作空间基础鼠标键盘操作增加元动作grounding/ask_user观察输入单帧截图多帧截图序列推理输出隐式推理结构化思考输出安全机制基础限制三重暂停机制训练数据~50万条200万条5. 训练秘籍FaraGen1.5数据管线Fara1.5的强大性能背后是微软精心设计的FaraGen1.5训练管线。这套管线的核心哲学是高质量合成数据 严格验证 强大泛化能力。5.1 三模块架构FaraGen1.5包含三个核心模块环境Environments负责构建训练环境包括开放互联网任务和门控任务Gated Tasks后者解决了需要登录认证和不可逆操作的任务训练难题。求解器Solvers使用GPT-5.4作为教师智能体在Online-Mind2Web上达到83%的得分负责生成高质量的任务轨迹。验证器Verifiers三重验证机制——正确性验证LLM评分数据库快照对比、效率验证惩罚冗余动作、用户交互验证检查关键节点暂停。5.2 环境模块真实与合成的平衡1. 开放互联网任务覆盖无需登录的公开网站任务多样、场景真实风险可控适合大规模数据采集2. 门控任务Gated Tasks需要登录认证的任务如邮箱、个人银行涉及不可逆操作的任务如支付、删除数据在真实环境中这类任务很难大规模采集数据5.3 6个合成网站克隆解决门控任务的关键为了解决门控任务的训练难题微软构建了6个合成网站克隆FaraEnvs克隆名称模拟场景核心功能训练价值FaraEnv-Mail邮件系统邮件撰写、搜索、分类理解表单交互、信息提取FaraEnv-Calendar日历应用会议安排、时间管理多步骤规划、日期选择FaraEnv-Stream视频平台内容搜索、播放控制媒体控制、复杂导航FaraEnv-ML机器学习平台实验管理、模型部署技术平台操作、专业界面FaraEnv-Stay酒店预订信息查询、表单填写旅行预订流程、支付模拟FaraEnv-Scheduler任务调度任务创建、分配、追踪协作平台操作、权限管理每个克隆都包含三层架构前端层HTML/CSS/JavaScript、API层RESTful API、数据层含角色种子的数据库。5.4 求解器模块用GPT-5.4当老师Fara1.5使用GPT-5.4作为教师智能体在Online-Mind2Web上达到83%的得分。这个老师负责生成高质量的任务轨迹提供动作序列的示范在复杂决策点给出最优解为什么选择GPT-5.4高性能基线83%的得分确保了教学质量一致性输出闭源模型输出更稳定适合做数据生成多轮推理能力GPT-5.4的链式推理与Fara1.5的思考机制匹配5.5 验证器模块三重保障1. 正确性验证器classCorrectnessVerifier:defverify(self,trajectory,task):criteriaself.llm.generate_criteria(task)initial_stateself.db.take_snapshot()self.executor.run(trajectory)final_stateself.db.take_snapshot()changesself.db.diff(initial_state,final_state)scoreself.compute_score(criteria,changes)returnscore0.9# 90%阈值2. 效率验证器惩罚冗余动作鼓励最优路径3. 用户交互验证器确保智能体在关键决策点正确暂停5.6 训练数据配比详解200万条样本的配比如下数据类型占比说明网页轨迹60.0%真实网站交互轨迹合成环境12.8%6个克隆网站轨迹表单填写与用户交互12.5%包含ask_user暂停事实锚定 (Grounding)8.8%避免幻觉和错误提取视觉问答4.9%页面内容理解5.7 损失函数设计只监督最后3轮Fara1.5的损失函数只应用于每个轨迹的最后3轮classFaraLossFunction:defcompute_loss(self,model,trajectory):total_loss0total_stepslen(trajectory.steps)supervised_window3start_idxmax(0,total_steps-supervised_window)forstep_idxinrange(start_idx,total_steps):step_lossself.compute_step_loss(model,step.observation,step.thought,step.action)total_lossstep_lossreturntotal_loss为什么这样设计前期轮次探索阶段允许试错后期轮次决策关键时刻确保正确6. 安全设计让AI自动化走向实用在浏览器自动化场景中一个错误的点击可能导致不可挽回的损失。Fara1.5实现了多层次的安全设计。6.1 三种主动暂停场景Fara1.5会在以下三种情况下主动暂停向用户确认暂停场景检测逻辑用户反馈缺少个人信息任务需要用户独有的信息提供信息或确认跳过任务描述含糊意图模糊或有多种解释澄清需求即将执行不可逆操作删除、支付、发送等高风险动作确认执行6.2 MagenticLite沙盒浏览器Fara1.5配套的MagenticLite沙盒环境提供三重保障✅动作记录可审计所有操作完整日志✅随时可停止用户保留完全控制权✅隔离执行环境不影响真实浏览器环境6.3 安全训练Fara1.5的安全能力来自两方面公开安全数据集使用业界标准的RLHF安全数据内部对齐任务基于微软负责任AI政策构建的专项任务7. 实战部署从云端到本地Fara1.5提供了多种部署方式满足不同场景需求。7.1 Azure AI Foundry推荐生产环境Fara1.5-9B已在Azure AI Foundry上线开箱即用# Azure CLI 部署命令az ml model deploy\--namefara1-5-9b\--version1\--workspace-name YOUR_WORKSPACE\--resource-group YOUR_RESOURCE_GROUP\--kindchat\--model-path azureml://registries/azureml/models/fara1-5-9b/latest4B和27B版本即将上线。7.2 本地部署Hugging Face如果你有本地算力可以通过Hugging Face获取开源权重# 1. 安装依赖pipinstalltransformers torch accelerate huggingface_hub# 2. 登录Hugging Face如果需要下载受限模型huggingface-cli login Fara1.5 本地推理示例 importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizerclassFara15Client:Fara1.5 推理客户端def__init__(self,model_name:strmicrosoft/Fara1.5-9B):print(f正在加载模型:{model_name})self.tokenizerAutoTokenizer.from_pretrained(model_name)self.modelAutoModelForCausalLM.from_pretrained(model_name,device_mapauto,torch_dtypetorch.float16,)print(模型加载完成)definfer(self,task:str,screenshots:list)-dict:promptf任务:{task}\n\n请分析并输出下一步动作。inputsself.tokenizer(prompt,return_tensorspt).to(self.model.device)withtorch.no_grad():outputsself.model.generate(**inputs,max_new_tokens512)return{response:self.tokenizer.decode(outputs[0])}# 使用示例if__name____main__:clientFara15Client(microsoft/Fara1.5-9B)resultclient.infer(帮我搜索微软最新发布的AI模型,[page1.png])print(result)7.3 部署配置建议模型版本GPU显存需求推荐场景4B~8GB快速实验、低资源部署9B~18GB生产环境推荐27B~56GB追求最高精度显存不足的解决方案# 量化推理配置fromtransformersimportBitsAndBytesConfig quantization_configBitsAndBytesConfig(load_in_8bitTrue,# 8位量化显存减半)modelAutoModelForCausalLM.from_pretrained(model_name,quantization_configquantization_config,device_mapauto)7.4 MagenticLite沙盒部署# 1. 克隆仓库gitclone https://github.com/microsoft/magenticlite.gitcdmagenticlite# 2. 安装pipinstall-e.# 3. 启动magenticlite serve--port80808. 对开发者的意义开源生态的新机遇8.1 为什么开源更重要方面闭源方案Fara1.5开源定制能力受限完全可微调部署成本按次计费按需扩展数据隐私需上传云端完全本地处理审计透明黑盒可审查迭代速度等官方更新自主快速迭代8.2 应用场景展望RPA替代更智能的流程自动化数据采集复杂网站的信息提取辅助操作帮助不熟悉界面的用户完成任务测试自动化Web应用的智能测试8.3 如何基于Fara1.5微调# 垂直场景微调示例fromtransformersimportTrainingArguments,Trainer ecommerce_data[{task:搜索商品并按价格排序,screenshots:[...],optimal_actions:[click:search_box,type:关键词,click:price_sort]},]training_argsTrainingArguments(output_dir./fara1-5-ecommerce,per_device_train_batch_size4,learning_rate2e-5,num_train_epochs3,)trainerTrainer(modelmodel,argstraining_args,train_datasetecommerce_dataset,)trainer.train()9. 技术总结三大核心洞察数据质量 模型规模200万条精心筛选的高质量样本合成 真实 全覆盖6个克隆网站解决了门控任务难题小模型的春天9B模型超越闭源旗舰10. 互动环节读完这篇文章你有哪些收获或疑问你在浏览器自动化场景中有哪些痛点Fara1.5的开源对你的工作有什么启发想看Fara1.5在哪个具体场景下的实测请在评论区分享你的想法我会挑选有价值的反馈进行深入解答参考资料来源链接微软研究院官方博客https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/MarkTechPost深度解析https://www.marktechpost.com/2026/05/22/microsoft-releases-fara1-5Decrypt媒体报道https://demo.decrypt.co/368807/microsoft-fara15-open-source-ai-beats-openai-geminiIT之家http://m.toutiao.com/group/7642911936757154350/智源社区https://hub.baai.ac.cn/view/54872GitHub开源仓库https://github.com/microsoft/faraHugging Face模型https://huggingface.co/microsoft/Fara1.5本文首发于CSDN转载需授权
微软Fara1.5:开源浏览器智能体全面超越OpenAI和Google,27B小模型如何做到的?
发布时间:2026/5/25 1:29:19
摘要2026年5月22日微软研究院AI Frontiers实验室发布Fara1.5系列浏览器智能体在两项主流基准测试中击败OpenAI Operator和Google Gemini 2.5 Computer Use。值得关注的是这是一款完全开源的模型权重开放、推理代码公开。本文将深度解析其技术架构、训练管线、安全设计并提供可运行的本地部署指南。1. 开源逆袭27B参数凭什么打败闭源巨头当业界还在讨论闭源大模型是否在各领域全面领先时微软用一款27B参数的开源模型给出了答案在浏览器智能体领域开源模型不仅能打还能打赢。2026年5月22日微软研究院发布的Fara1.5系列在Online-Mind2Web基准测试中以72%的得分击败了OpenAI Operator58.3%和Google Gemini 2.5 Computer Use57.3%。更令人震惊的是其9B版本也达到了63.4%同样超越了两大闭源巨头。这不是小打小闹的略胜一筹而是在真实互联网环境136个真实网站、300项任务中的全面碾压。更值得关注的是Fara1.5是完全开源的权重开放、推理代码公开。微软用行动证明开源社区完全有能力打造匹敌甚至超越闭源巨头的浏览器智能体。本文将深入技术细节告诉你微软是如何用200万条样本和一套精妙的训练管线把开源小模型调教成浏览器自动化领域的新标杆。无论你是AI研究员、SRE工程师、还是想用AI自动化替代RPA的开发者这篇文章都将给你带来实质性的收获。2. Fara1.5是什么一句话说清定位Fara1.5是微软研究院发布的开源浏览器智能体Browser Computer Use Agent系列包含三个参数规模的版本模型版本参数量定位GPU显存需求Fara1.5-4B4B轻量级部署低资源场景~8GBFara1.5-9B9B平衡之选已上线Azure~18GBFara1.5-27B27B性能旗舰全面超越闭源模型~56GB核心定位Fara1.5基于Qwen3.5基础检查点微调专为真实互联网环境中的浏览器自动化任务设计。与纯合成环境训练的对手不同Fara1.5在真实网站的嘈杂、多变环境中表现出色。为什么强调真实互联网环境因为这是最难的部分——真实网站会变、广告会弹、加载会慢、各种边缘情况层出不穷。很多在合成环境表现优秀的模型一到真实战场就原形毕露。开源承诺✅权重完全开放Hugging Face可直接下载✅推理代码公开GitHub仓库完全开源✅配套MagenticLite沙盒浏览器界面安全测试环境技术规格一览基础模型: Qwen3.5 发布时间: 2026年5月22日 发布机构: 微软研究院AI Frontiers实验室 训练样本: 200万条 参数规模: 4B / 9B / 27B 许可证: 开源许可具体见GitHub3. 性能基准双榜单验证两项冠军性能是检验模型实力的唯一标准。Fara1.5在两项主流基准测试中展现统治力3.1 Online-Mind2Web基准真实互联网这是目前最具挑战性的浏览器智能体基准涵盖136个真实网站、300项任务考验模型在真实复杂环境中的泛化能力。┌─────────────────────────────────────────────┬───────────┬────────────┐ │ 模型 │ 得分 │ 排名 │ ├─────────────────────────────────────────────┼───────────┼────────────┤ │ Fara1.5-27B │ 72.0% │ 冠军 │ │ Yutori Navigator n1 │ 64.7% │ │ │ Fara1.5-9B │ 63.4% │ │ │ OpenAI Operator │ 58.3% │ │ │ Gemini 2.5 Computer Use │ 57.3% │ │ │ GUI-Owl-1.5-8B │ 48.6% │ │ │ MolmoWeb │ 35.3% │ │ │ Fara-7B (前代) │ 34.1% │ │ └─────────────────────────────────────────────┴───────────┴────────────┘关键洞察Fara1.5-27B比前代Fara-7B提升超过110%6个月性能翻倍这说明微软的训练管线有实质性的技术突破9B小模型已经超越OpenAI和Google的旗舰闭源方案充分证明了数据质量 模型规模的训练哲学领先幅度明显27B模型领先第二名7.3个百分点优势不是侥幸3.2 WebVoyager基准在另一项主流基准中Fara1.5同样表现出色模型得分备注Fara1.5-27B88.6% 冠军OpenAI Operator87.0%略逊一筹Holo2 30B83.0%Fara1.5-9B86.6% 亚军Fara1.5-4B80.8%值得注意的是OpenAI Operator在WebVoyager上表现尚可87%但在Online-Mind2Web上却大幅落后58.3%。这说明Online-Mind2Web更能考验模型在真实复杂场景下的泛化能力而Fara1.5在这场更难的大考中脱颖而出。4. 技术架构观察-思考-行动循环Fara1.5的核心架构遵循经典的**“观察-思考-行动”Observe-Think-Act**循环但微软在细节上做了大量优化使其在真实环境中表现出色。4.1 核心工作流详解┌─────────────────────────────────────────────────────────────────────┐ │ Fara1.5 推理循环 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ ┌───────────────────────────────────────────────────────────┐ │ │ │ 观察 (Observe) │ │ │ │ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │ │ │ │ │ 历史对话 │ │ 截图(t-2) │ │ 截图(t-1) │ 截图(t)│ │ │ │ │ Context │ │ │ │ │ │ │ │ │ └─────────────┘ └─────────────┘ └─────────────┘ │ │ │ └───────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ┌───────────────────────────────────────────────────────────┐ │ │ │ 思考 (Think) │ │ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ │ │ 1. 当前页面状态分析 │ │ │ │ │ │ 2. 任务目标分解 │ │ │ │ │ │ 3. 下一步行动规划 │ │ │ │ │ │ 4. 风险评估与安全检查 │ │ │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ └───────────────────────────────────────────────────────────┘ │ │ │ │ │ ▼ │ │ ┌───────────────────────────────────────────────────────────┐ │ │ │ 行动 (Act) │ │ │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ │ │ 动作类型: 点击/输入/搜索/暂停/完成 │ │ │ │ │ │ 动作参数: 坐标/文本/目标元素 │ │ │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ └───────────────────────────────────────────────────────────┘ │ │ │ └─────────────────────────────────────────────────────────────────────┘4.2 观察输入Observation每步推理接收两类输入1. 历史对话上下文完整的任务描述用户最初的指令之前的交互记录动作序列和反馈这是模型理解我要做什么的关键2. 最近3张浏览器截图提供当前页面的视觉状态帮助模型理解页面布局和元素位置视觉信息与文本信息互补为什么是3张而不是1张因为浏览器状态变化可能是渐进的3张截图能帮助模型理解页面变化的历史轨迹。4.3 思考输出Thought模型输出结构化的推理内容包含四个维度# 思考输出的结构伪代码thought{observation_analysis:当前页面包含搜索框、商品列表、筛选器...,goal_decomposition:任务已完成3步打开网站→搜索→筛选还需2步,action_plan:下一步点击第二个商品的查看详情按钮,risk_assessment:动作安全无不可逆操作可继续执行}4.4 动作空间设计Fara1.5的动作空间经过精心设计平衡了表达能力与可控性动作类型 │ ├── 鼠标键盘操作 │ ├── click(x, y) # 在坐标(x,y)点击 │ ├── click_element(id) # 点击指定元素 │ ├── type(text) # 输入文本 │ ├── hover(x, y) # 悬停 │ ├── scroll(delta) # 滚动页面 │ ├── scroll_to_bottom() # 滚动到底部 │ ├── scroll_to_top() # 滚动到顶部 │ ├── shortcut(keys) # 快捷键如CtrlC │ └── go_back() / go_forward() # 浏览器前进后退 │ ├── 网页搜索 │ └── search(query) # 使用搜索引擎查询 │ └── 元动作Meta Actions ├── grounding(fact) # 记忆关键事实 ├── ask_user(question) # 向用户提问确认 └── finish() # 任务完成元动作的引入是Fara1.5的重要创新grounding允许模型记录在任务中获取的关键信息如电话号码、订单号避免重复查询ask_user在关键节点暂停等待用户输入缺失信息finish明确告知任务完成让智能体优雅退出4.5 与前代Fara-7B的技术对比特性Fara-7B (前代)Fara1.5动作空间基础鼠标键盘操作增加元动作grounding/ask_user观察输入单帧截图多帧截图序列推理输出隐式推理结构化思考输出安全机制基础限制三重暂停机制训练数据~50万条200万条5. 训练秘籍FaraGen1.5数据管线Fara1.5的强大性能背后是微软精心设计的FaraGen1.5训练管线。这套管线的核心哲学是高质量合成数据 严格验证 强大泛化能力。5.1 三模块架构FaraGen1.5包含三个核心模块环境Environments负责构建训练环境包括开放互联网任务和门控任务Gated Tasks后者解决了需要登录认证和不可逆操作的任务训练难题。求解器Solvers使用GPT-5.4作为教师智能体在Online-Mind2Web上达到83%的得分负责生成高质量的任务轨迹。验证器Verifiers三重验证机制——正确性验证LLM评分数据库快照对比、效率验证惩罚冗余动作、用户交互验证检查关键节点暂停。5.2 环境模块真实与合成的平衡1. 开放互联网任务覆盖无需登录的公开网站任务多样、场景真实风险可控适合大规模数据采集2. 门控任务Gated Tasks需要登录认证的任务如邮箱、个人银行涉及不可逆操作的任务如支付、删除数据在真实环境中这类任务很难大规模采集数据5.3 6个合成网站克隆解决门控任务的关键为了解决门控任务的训练难题微软构建了6个合成网站克隆FaraEnvs克隆名称模拟场景核心功能训练价值FaraEnv-Mail邮件系统邮件撰写、搜索、分类理解表单交互、信息提取FaraEnv-Calendar日历应用会议安排、时间管理多步骤规划、日期选择FaraEnv-Stream视频平台内容搜索、播放控制媒体控制、复杂导航FaraEnv-ML机器学习平台实验管理、模型部署技术平台操作、专业界面FaraEnv-Stay酒店预订信息查询、表单填写旅行预订流程、支付模拟FaraEnv-Scheduler任务调度任务创建、分配、追踪协作平台操作、权限管理每个克隆都包含三层架构前端层HTML/CSS/JavaScript、API层RESTful API、数据层含角色种子的数据库。5.4 求解器模块用GPT-5.4当老师Fara1.5使用GPT-5.4作为教师智能体在Online-Mind2Web上达到83%的得分。这个老师负责生成高质量的任务轨迹提供动作序列的示范在复杂决策点给出最优解为什么选择GPT-5.4高性能基线83%的得分确保了教学质量一致性输出闭源模型输出更稳定适合做数据生成多轮推理能力GPT-5.4的链式推理与Fara1.5的思考机制匹配5.5 验证器模块三重保障1. 正确性验证器classCorrectnessVerifier:defverify(self,trajectory,task):criteriaself.llm.generate_criteria(task)initial_stateself.db.take_snapshot()self.executor.run(trajectory)final_stateself.db.take_snapshot()changesself.db.diff(initial_state,final_state)scoreself.compute_score(criteria,changes)returnscore0.9# 90%阈值2. 效率验证器惩罚冗余动作鼓励最优路径3. 用户交互验证器确保智能体在关键决策点正确暂停5.6 训练数据配比详解200万条样本的配比如下数据类型占比说明网页轨迹60.0%真实网站交互轨迹合成环境12.8%6个克隆网站轨迹表单填写与用户交互12.5%包含ask_user暂停事实锚定 (Grounding)8.8%避免幻觉和错误提取视觉问答4.9%页面内容理解5.7 损失函数设计只监督最后3轮Fara1.5的损失函数只应用于每个轨迹的最后3轮classFaraLossFunction:defcompute_loss(self,model,trajectory):total_loss0total_stepslen(trajectory.steps)supervised_window3start_idxmax(0,total_steps-supervised_window)forstep_idxinrange(start_idx,total_steps):step_lossself.compute_step_loss(model,step.observation,step.thought,step.action)total_lossstep_lossreturntotal_loss为什么这样设计前期轮次探索阶段允许试错后期轮次决策关键时刻确保正确6. 安全设计让AI自动化走向实用在浏览器自动化场景中一个错误的点击可能导致不可挽回的损失。Fara1.5实现了多层次的安全设计。6.1 三种主动暂停场景Fara1.5会在以下三种情况下主动暂停向用户确认暂停场景检测逻辑用户反馈缺少个人信息任务需要用户独有的信息提供信息或确认跳过任务描述含糊意图模糊或有多种解释澄清需求即将执行不可逆操作删除、支付、发送等高风险动作确认执行6.2 MagenticLite沙盒浏览器Fara1.5配套的MagenticLite沙盒环境提供三重保障✅动作记录可审计所有操作完整日志✅随时可停止用户保留完全控制权✅隔离执行环境不影响真实浏览器环境6.3 安全训练Fara1.5的安全能力来自两方面公开安全数据集使用业界标准的RLHF安全数据内部对齐任务基于微软负责任AI政策构建的专项任务7. 实战部署从云端到本地Fara1.5提供了多种部署方式满足不同场景需求。7.1 Azure AI Foundry推荐生产环境Fara1.5-9B已在Azure AI Foundry上线开箱即用# Azure CLI 部署命令az ml model deploy\--namefara1-5-9b\--version1\--workspace-name YOUR_WORKSPACE\--resource-group YOUR_RESOURCE_GROUP\--kindchat\--model-path azureml://registries/azureml/models/fara1-5-9b/latest4B和27B版本即将上线。7.2 本地部署Hugging Face如果你有本地算力可以通过Hugging Face获取开源权重# 1. 安装依赖pipinstalltransformers torch accelerate huggingface_hub# 2. 登录Hugging Face如果需要下载受限模型huggingface-cli login Fara1.5 本地推理示例 importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizerclassFara15Client:Fara1.5 推理客户端def__init__(self,model_name:strmicrosoft/Fara1.5-9B):print(f正在加载模型:{model_name})self.tokenizerAutoTokenizer.from_pretrained(model_name)self.modelAutoModelForCausalLM.from_pretrained(model_name,device_mapauto,torch_dtypetorch.float16,)print(模型加载完成)definfer(self,task:str,screenshots:list)-dict:promptf任务:{task}\n\n请分析并输出下一步动作。inputsself.tokenizer(prompt,return_tensorspt).to(self.model.device)withtorch.no_grad():outputsself.model.generate(**inputs,max_new_tokens512)return{response:self.tokenizer.decode(outputs[0])}# 使用示例if__name____main__:clientFara15Client(microsoft/Fara1.5-9B)resultclient.infer(帮我搜索微软最新发布的AI模型,[page1.png])print(result)7.3 部署配置建议模型版本GPU显存需求推荐场景4B~8GB快速实验、低资源部署9B~18GB生产环境推荐27B~56GB追求最高精度显存不足的解决方案# 量化推理配置fromtransformersimportBitsAndBytesConfig quantization_configBitsAndBytesConfig(load_in_8bitTrue,# 8位量化显存减半)modelAutoModelForCausalLM.from_pretrained(model_name,quantization_configquantization_config,device_mapauto)7.4 MagenticLite沙盒部署# 1. 克隆仓库gitclone https://github.com/microsoft/magenticlite.gitcdmagenticlite# 2. 安装pipinstall-e.# 3. 启动magenticlite serve--port80808. 对开发者的意义开源生态的新机遇8.1 为什么开源更重要方面闭源方案Fara1.5开源定制能力受限完全可微调部署成本按次计费按需扩展数据隐私需上传云端完全本地处理审计透明黑盒可审查迭代速度等官方更新自主快速迭代8.2 应用场景展望RPA替代更智能的流程自动化数据采集复杂网站的信息提取辅助操作帮助不熟悉界面的用户完成任务测试自动化Web应用的智能测试8.3 如何基于Fara1.5微调# 垂直场景微调示例fromtransformersimportTrainingArguments,Trainer ecommerce_data[{task:搜索商品并按价格排序,screenshots:[...],optimal_actions:[click:search_box,type:关键词,click:price_sort]},]training_argsTrainingArguments(output_dir./fara1-5-ecommerce,per_device_train_batch_size4,learning_rate2e-5,num_train_epochs3,)trainerTrainer(modelmodel,argstraining_args,train_datasetecommerce_dataset,)trainer.train()9. 技术总结三大核心洞察数据质量 模型规模200万条精心筛选的高质量样本合成 真实 全覆盖6个克隆网站解决了门控任务难题小模型的春天9B模型超越闭源旗舰10. 互动环节读完这篇文章你有哪些收获或疑问你在浏览器自动化场景中有哪些痛点Fara1.5的开源对你的工作有什么启发想看Fara1.5在哪个具体场景下的实测请在评论区分享你的想法我会挑选有价值的反馈进行深入解答参考资料来源链接微软研究院官方博客https://www.microsoft.com/en-us/research/articles/fara1-5-computer-use-agent/MarkTechPost深度解析https://www.marktechpost.com/2026/05/22/microsoft-releases-fara1-5Decrypt媒体报道https://demo.decrypt.co/368807/microsoft-fara15-open-source-ai-beats-openai-geminiIT之家http://m.toutiao.com/group/7642911936757154350/智源社区https://hub.baai.ac.cn/view/54872GitHub开源仓库https://github.com/microsoft/faraHugging Face模型https://huggingface.co/microsoft/Fara1.5本文首发于CSDN转载需授权