Midscene.js 实战(一):零代码基础,用自然语言完成 Web UI 测试 一、开篇:UI 自动化测试,真的不需要会写代码吗?如果你做过 UI 自动化测试,下面这些场景一定感同身受:页面改版了,之前精心编写的 XPath 选择器全部失效,脚本大修;新来的测试同事不懂 CSS 选择器,写不了自动化脚本,培训成本居高不下;产品经理提了个自动化需求,沟通成本比执行成本还高。传统 UI 自动化测试长期受困于“定位元素 → 编写指令 → 调试适配”的繁琐流程,CSS 选择器、XPath 定位极易因页面微调而失效,维护成本居高不下。行业调研数据显示,78% 的测试团队需要花费超过 30% 的工作时间在脚本维护上,页面结构变更导致 70% 以上的测试用例需要重构。随着 2026 年的到来,浏览器自动化赛道迎来了前所未有的爆发。以 Browser-Use、Midscene.js、Skyvern 为代表的一批开源框架,在架构设计、性能基准、部署方案上集体跨越了一个关键台阶。而在这些工具中,有一款由字节跳动 Web Infra 团队开源的项目,凭借“自然语言驱动”的核心理念脱颖而出——Midscene.js。根据其官方文档,Midscene.js 是一个 AI 驱动的 UI 自动化 SDK,用自然语言描述你的目标和步骤,AI 视觉语言模型会为你规划并操作用户界面,适用于 Web、移动端、桌面端,甚至是canvas场景。截至 2026 年 5 月,Midscene.js 最新稳定版本