询问ChatGPT
点击关注上方公众号,发现更多精彩内容等你来发现
大家好,我是靈吾靈,专注于AI技术前沿分享,用最接地气的话讲最前沿的科技是我的专长,让每个人都能玩转AI是我的初心~
为了减轻测试人员和前端人员的自动化测试的重复性工作,我一直在寻找一个可以用的方案。
我是从Playwright MCP开始入坑的,陆陆续续玩过以下几种方案:
@executeautomation/playwright-mcp-server(这类 mcp 有很多类似名字,我主要是用这个)Antigravity Browser Control浏览器插件实际效果,差强人意,基本跑不通,玩玩可以,但是很难用于实际项目。
我之前也写过类似的实战文章,有兴趣的可以过去翻翻,
写作不易,如果小伙伴们都看到了这里,请点个
赞和在看,分享给更多的朋友;为确保您能收到每一篇文章,点个关注并在主页右上角设置星标。
我们的测试同事在使用Playwright MCP过程中遇到了以下问题:
Trae这种编辑器上用Playwright MCP话,经常会容易出现:模型思考次数已达上限,请输入"继续"后获得更多结果 。执行就被终止了,连个简单的用例都无法正常执行Claude Code + GLM-4.7 的配合场景下执行相同的用例,会出现:API Error: The model has reached its context window limit.大家可以深品这句话:AI 操控浏览器最大的痛点是什么?
又慢!又贵!又笨!
下面我来详细分析一下,为啥出现以上的痛点,我们又应该如何去避免出现以上问题?
众所周知,playwright-mcp是让AI控制浏览器的神器。
微软官方出品,GitHub上火得一塌糊涂。
经过测试小伙伴们用了一段时间,发现两个问题:
为了帮他们也是帮我自己想明白这个工作原理,或者深入研究这个 MCP 的执行过程,找到解决问题的办法。后来我研究终于明白了。
大家先看看这个执行用例的过程时序图:
我们都知道大模型都会有「脑容量」(上下文内容)。
一句话理解:上下文 = AI 的"短期记忆工作台"
就像你和朋友聊天,你们需要记住之前说过的话,才能继续对话。AI 也是一样,它需要记住之前的对话内容,才能理解你现在说什么。
你和大模型聊天、发代码、看截图,都在消耗这个容量。用完了,对话就中断
而Playwright MCP一共有32 个工具函数,每个工具的完整 JSON 定义(包括工具名称、描述、参数结构等)。
按工具复杂度分类估算:
光是让Claude Code或者 GLM-4.7记住这些功能定义,就要吃掉13,600 Tokens。
Claude Code Sonnet 4.5/GLM-4.7/MiniMax M2.1 的上下文容量都是 200k Token
也就是说啥都还没有开始干活,8% 的脑容量就被占用了!
按照上面的时序图,多来几次,上下文就爆,AI 的上下文越多,智商越低,所以越到后期,调用失败的可能越大,就陷入了恶性循环。
就是这个原因导致了自动化测试就是一个空头支票,可远观而不可亵玩!
GitHub 地址:
https://github.com/lackeyjb/playwright-skill
今年 Skills 兴起后,这个词最近是已经火爆得很,声称所有现成的一切 MCP 工具都可以使用Skills重写一遍。
playwright-skill只有453行说明,相当于给Claude一个「目录索引」。
需要什么功能,再去翻具体那一页。
不用的功能,不占脑容量。
同样的功能,Skill版本能让你和Claude聊更久,做更多事。
从上面的工作原理图(简化版的,忽略环境配置)可以知道,playwright-skill比MCP工具更加稳定的,更加可靠的方案就是,它能根据用例生成固定的playwright测试脚本的代码。
一旦的你代码固定下来后,加上测试通过后,下次直接让大模型执行固定的代码即可,不需要在每次都输入测试用例,重新生成,这样就已经大大的减轻了大模型每次执行相同的用例时,可能会产生幻觉的次数。
同样的,直接执行代码,肯定比你每次问大模型,调用 mcp 工具得到的效果要准确很多。
但是它不是没有缺点的,我把我踩过的坑也告诉大家:
如果你的要求很复杂,Claude第一次可能做不对。
它会自己调整,但有时候需要你给点提示。
比如:"登录按钮的文案是:登录,不是「确定」,调整你的代码"
这可能是你用例写得不够精准,也可能是 AI 根据通用的文本给你生成了代码
有些网站打开很慢。
Claude可能还没等页面加载完就去点了,然后报错, 然后又开始截图,然后分析错误,发现又没有错误,不断陷入了循环。
解决办法:
如果是这个问题,大家还是得看看日志,看看他的调用记录,如果不去监听日志,就放手不管,去喝咖啡的话,你永远不知道问题在哪里,
找到问题后,如果你能告诉它"等2秒再操作"或者"等页面完全加载再点"。它会重新生成延迟的代码,这样就不会错了。
有时候会把正常的当成错误。
比如页面跳转了,它以为是出问题了。
所以结果还是要自己看一眼。因此还是上面那一句,第一次没有固化流程之前,得要跟进测试过程,review 日志
根据我的多次实践,第一次生成的代码运行不太容易成功,主要原因我可以归纳为两点:
Playwright MCP要多的。总结下来,技术在发展,Playwright Skill的生成质量,可拓展性、可迭代性、稳定性、执行速度、上下文容量等各个方面是要比Playwright MCP好太多了。
它更适合测试人员从功能测试 转变成自动化测试能力转变的的一个技能包。
GitHub 地址:https://github.com/SawyerHood/dev-browser
上面已经说到了 MCP 到 skills 的发展过程。
在以往的文章中:「插件市场终于来了!Claude Code插件生态已成熟,直接拿来就用」
我曾经说过:Claude Code 插件系统的推出,标志着这款 AI 编程工具正式迈入「高度可定制化」的新阶段。也意味着Anthropic在围绕着Claude Code核心能力打造可定制化的工作流模式。
所以Dev Browser就是这么一套关于自动化测试的一个定制化工作流程的插件
因为它实现了架构层面降维打击。
完成同样的复杂任务,Playwright Skill 跑了 8 分 07 秒,Dev Browser 只要 3 分 53 秒,成本仅需 0.88 美元。
| Dev Browser |
在 cluade code 命令行里面执行:
/plugin marketplace add sawyerhood/dev-browser
/plugin install dev-browser@sawyerhood/dev-browser
如果你的 ssh 执行不成功,你可以https 地址
/plugin marketplace add https://github.com/SawyerHood/dev-browser.git
/plugin install dev-browser@sawyerhood/dev-browser
安装成功之后,成功的截图
安装后记得重启 Claude Code。
提示语:
使用 dev-browser skills 打开链接http://localhost:3000/#/login,登录账号:admin, 密码:,xxx 机构选择总院, 登录成功后,执行测试用例-部门管理
我的测试用例,都是之前生成的,无论用 MCP 工具还是 skills,我都是同一套。
测试结果是我之前用的所有工具中得到的最好的结果,主要有两点:
各位蠢蠢欲动的测试小伙伴,如果想深入学习 Dev browser的技术,可以千万 zread 的网站,看看文档,地址如下:
https://zread.ai/SawyerHood/dev-browser/3-choosing-your-mode-standalone-vs-extension
在整个实战过程中,执行一次成功就能成功,我是是用了:
Standalone Mode(独立模式)
后来我想用实战插件模式的时候,遇到一个问题:
可能是浏览器兼容问题,我的谷歌版本是最新的,所以还是用默认的模式会更好,非常稳定。插件还是不太靠谱。
下面就是执行我这个测试用例,占用上下文的情况:
本地已使用了 52% 的对话存储配额,就是一个用例的情况。
回顾整个AI自动化测试工具的发展历程,我不禁感叹技术演进的惊人速度!
从早期的 Playwright MCP 到 Playwright Skill,再到如今的 Dev Browser 插件,我们见证了一场真正的技术革命。这不仅仅是工具的迭代,更是整个AI辅助测试范式的升级。
技术演进的核心价值:
对测试人员的友好程度:
对于想要从功能测试转型自动化测试的同事来说,现在是最好的时机!
推荐方案一:Skill + Dev Browser(强烈推荐)
这是最完美的组合:
这个方案特别适合:
推荐方案二:纯 Dev Browser
如果你只想专注于用例设计,Dev Browser也是一个极好的选择:
使用这个方案的关键:
最后的话:
AI技术正在以前所未有的速度改变着自动化测试的未来。从MCP到插件的演进,不仅仅是工具的变化,更是让我们看到了"人机协作"的无限可能。
选择适合自己的方案,让AI成为你的得力助手,而不是神秘的黑盒。无论你选择哪条路径,最重要的是:开始行动!
如果这篇文章对你有帮助,请点个赞和在看,分享给更多的朋友;为确保您能收到每一篇文章,点个关注并在主页右上角设置星标。
免责声明:本文仅供技术交流学习使用,请遵守相关法律法规。文中提到的工具和方法仅作为技术探讨,不构成任何使用建议。