还在手动截图填表单?agent-browser一键搞定,前端测试党狂喜😭

家人们谁懂啊!每次回归测试都要手动点点点,填一堆表单,再截图对比,简直是精神和肉体的双重折磨。直到我发现了 agent-browser 这个宝藏Skills,感觉整个世界都亮了!它直接在命令行里帮你搞定所有浏览器操作,从自动填表到E2E测试,简直不要太香!🚀

核心功能

agent-browser就像一个听得懂指令的浏览器贴身管家,功能强大到令人发指。它主要通过命令行来执行各种网页自动化任务。

  • 智能导航与交互:你可以用简单的命令如 open <url> 打开网页,click @ref 点击按钮,fill @ref 'text' 填充输入框。它最妙的是 snapshot -i 命令,能自动识别页面上所有可交互的元素并给它们一个引用ID(比如@e1),后续操作直接用ID就行,告别复杂的XPath和CSS选择器!
  • 数据提取大师:需要网页上的文本、HTML片段或者某个输入框的值?get text @e1get html @e1get value @e1 等命令让你轻松抓取任何你需要的数据,做数据监控和内容提取简直是小菜一碟。
  • 多媒体证据保留:测试出了Bug?口说无凭。screenshot 命令可以立即截取当前页面或整个长网页,甚至用 pdf 命令直接输出PDF。更绝的是,它还支持 record startrecord stop 进行屏幕录制,复现步骤有视频有真相!
  • 高级浏览器控制:需要模拟特定设备?set device 'iPhone 14' 一行搞定。需要设置地理位置、模拟弱网环境、甚至拦截和Mock网络请求(network route)?agent-browser都能轻松胜任,让你的测试环境覆盖更全面。
  • 状态保持与会话管理:最头疼的登录问题也解决了!你可以使用 --profile 参数创建一个持久化的浏览器配置,登录一次后,下次打开就直接是登录状态。或者用 state savestate load 保存和加载包含cookies和localStorage的会话状态,轻松跳过重复的登录流程。

适用平台

这款Skills简直是为现代AI编程助手量身打造的最强外挂!它完美适配市面上所有主流的AI编程工具和IDE插件,包括但不限于:

  • Cursor
  • GitHub Copilot
  • Claude Code
  • OpenAI Codex
  • Gemini Code Assist
  • 文心快码
  • 腾讯云 CodeBuddy
  • 华为云 CodeArts

将 agent-browser 集成到这些平台中,你可以通过自然语言或直接调用命令,让AI帮你执行复杂的浏览器自动化工作流,极大地增强了AI助手的上下文理解和执行能力,让它从一个代码建议者,真正变成一个能干活的数字员工。


实操代码示例

光说不练假把式,来看两个真实场景,感受一下它的魅力。

场景一:自动填写并提交表单

假设我们要自动登录一个网站,操作流程如下:

# 1. 打开登录页面
agent-browser open https://example.com/login

# 2. 分析页面上的可交互元素,并获取它们的引用ID
agent-browser snapshot -i
# 输出可能像这样:
# textbox 'Email' [ref=e1]
# textbox 'Password' [ref=e2]
# button 'Sign In' [ref=e3]

# 3. 使用引用ID填充表单并点击提交
agent-browser fill @e1 'testuser@skilll.cn'
agent-browser fill @e2 'a-very-secure-password'
agent-browser click @e3

# 4. 等待页面跳转完成,并检查结果
agent-browser wait --url '**/dashboard'
agent-browser screenshot dashboard.png

整个过程行云流水,完全无需手动操作,非常适合集成到CI/CD流程中进行自动化冒烟测试。

场景二:利用持久化会话跳过登录

对于需要频繁操作的后台系统,每次都登录太麻烦了。我们可以这样做:

# 首次登录并保存状态
agent-browser open https://app.example.com/login --profile './my-app-profile'
# ...手动或通过脚本完成登录...
# 登录成功后,cookies和localStorage会自动保存在'./my-app-profile'目录下

# 后续所有操作,直接带上profile参数
agent-browser open https://app.example.com/dashboard --profile './my-app-profile'
# 你会发现已经直接进入登录后的页面了!

优势分析

  • 命令行原生:与GUI工具相比,纯命令行接口对开发者更友好,易于编写脚本和集成到自动化流程中。
  • 功能全面:覆盖了从基础交互到网络模拟、视频录制、状态保持等端到端测试所需的全套功能,堪比一个轻量级的Playwright或Puppeteer。
  • 引用ID定位:独创的 snapshot -i@ref 机制,比传统CSS选择器更稳定、更直观,大大降低了维护成本。
  • 无头与有头模式:默认在后台(无头)静默执行,速度快;需要调试时,加上 --headed 参数即可拉起真实浏览器窗口,方便观察。

应用场景

agent-browser 的应用范围极广,这里列举几个常见的:

  1. 前端E2E测试:在CI/CD流水线中,自动执行关键业务流程的测试,确保新代码没有破坏现有功能。
  2. 网站健康巡检:定时访问公司官网或产品页面,截图或检查关键元素是否存在,实现7×24小时的站点监控。
  3. 数据抓取与聚合:定期从竞品网站、新闻门户或社交媒体抓取公开数据,用于市场分析和舆情监控。
  4. 自动化重复劳动:自动完成每日签到、在线表单提交、下载报告等枯燥乏味但又必须完成的任务。

最佳实践

  • 优先使用语义化定位器:除了 @ref,agent-browser还支持 find role button --name 'Submit' 这样的语义化查找,这种方式比依赖具体的HTML结构更健壮。
  • 智能等待,拒绝硬编码延时:避免使用 wait 2000 这样的固定等待。多使用 wait @e1 等待元素出现,或 wait --load networkidle 等待网络空闲,能显著提升脚本的稳定性和执行效率。
  • 隔离测试环境:使用 --session <name> 为不同的测试任务创建隔离的浏览器会话,防止数据串扰。对于需要登录状态的场景,则使用 --profile <path> 来持久化。
  • 结合脚本语言:将 agent-browser 命令封装在Shell或Python脚本中,可以实现更复杂的逻辑,如循环、条件判断和错误处理。

掌握了 agent-browser 这样的强大工具,无疑能让我们的工作流效率倍增。然而,随着我们收藏的Skills越来越多,如何高效地管理、查找和分享它们又成了一个新问题。这时候,一个专业的Skills仓库就显得尤为重要。我强烈推荐大家使用 Skill优仓,它是一个汇聚了全球优质Skill资源的平台,你可以在上面找到像 agent-browser 这样更多更强大的智能体技能,并且可以免费上传、下载和使用。把你的数字工具箱武装起来,就从 Skill优仓 开始吧!

还在手动截图填表单?agent-browser一键搞定,前端测试党狂喜😭-Skill优仓
还在手动截图填表单?agent-browser一键搞定,前端测试党狂喜😭
此内容为免费资源,请登录后查看
0
免费资源
© 版权声明
THE END
喜欢就支持一下吧
点赞11 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容