家人们谁懂啊!每次回归测试都要手动点点点,填一堆表单,再截图对比,简直是精神和肉体的双重折磨。直到我发现了 agent-browser 这个宝藏Skills,感觉整个世界都亮了!它直接在命令行里帮你搞定所有浏览器操作,从自动填表到E2E测试,简直不要太香!🚀
核心功能
agent-browser就像一个听得懂指令的浏览器贴身管家,功能强大到令人发指。它主要通过命令行来执行各种网页自动化任务。
- 智能导航与交互:你可以用简单的命令如
open <url>打开网页,click @ref点击按钮,fill @ref 'text'填充输入框。它最妙的是snapshot -i命令,能自动识别页面上所有可交互的元素并给它们一个引用ID(比如@e1),后续操作直接用ID就行,告别复杂的XPath和CSS选择器! - 数据提取大师:需要网页上的文本、HTML片段或者某个输入框的值?
get text @e1、get html @e1、get value @e1等命令让你轻松抓取任何你需要的数据,做数据监控和内容提取简直是小菜一碟。 - 多媒体证据保留:测试出了Bug?口说无凭。
screenshot命令可以立即截取当前页面或整个长网页,甚至用pdf命令直接输出PDF。更绝的是,它还支持record start和record stop进行屏幕录制,复现步骤有视频有真相! - 高级浏览器控制:需要模拟特定设备?
set device 'iPhone 14'一行搞定。需要设置地理位置、模拟弱网环境、甚至拦截和Mock网络请求(network route)?agent-browser都能轻松胜任,让你的测试环境覆盖更全面。 - 状态保持与会话管理:最头疼的登录问题也解决了!你可以使用
--profile参数创建一个持久化的浏览器配置,登录一次后,下次打开就直接是登录状态。或者用state save和state load保存和加载包含cookies和localStorage的会话状态,轻松跳过重复的登录流程。
适用平台
这款Skills简直是为现代AI编程助手量身打造的最强外挂!它完美适配市面上所有主流的AI编程工具和IDE插件,包括但不限于:
- Cursor
- GitHub Copilot
- Claude Code
- OpenAI Codex
- Gemini Code Assist
- 文心快码
- 腾讯云 CodeBuddy
- 华为云 CodeArts
将 agent-browser 集成到这些平台中,你可以通过自然语言或直接调用命令,让AI帮你执行复杂的浏览器自动化工作流,极大地增强了AI助手的上下文理解和执行能力,让它从一个代码建议者,真正变成一个能干活的数字员工。
实操代码示例
光说不练假把式,来看两个真实场景,感受一下它的魅力。
场景一:自动填写并提交表单
假设我们要自动登录一个网站,操作流程如下:
# 1. 打开登录页面
agent-browser open https://example.com/login
# 2. 分析页面上的可交互元素,并获取它们的引用ID
agent-browser snapshot -i
# 输出可能像这样:
# textbox 'Email' [ref=e1]
# textbox 'Password' [ref=e2]
# button 'Sign In' [ref=e3]
# 3. 使用引用ID填充表单并点击提交
agent-browser fill @e1 'testuser@skilll.cn'
agent-browser fill @e2 'a-very-secure-password'
agent-browser click @e3
# 4. 等待页面跳转完成,并检查结果
agent-browser wait --url '**/dashboard'
agent-browser screenshot dashboard.png
整个过程行云流水,完全无需手动操作,非常适合集成到CI/CD流程中进行自动化冒烟测试。
场景二:利用持久化会话跳过登录
对于需要频繁操作的后台系统,每次都登录太麻烦了。我们可以这样做:
# 首次登录并保存状态
agent-browser open https://app.example.com/login --profile './my-app-profile'
# ...手动或通过脚本完成登录...
# 登录成功后,cookies和localStorage会自动保存在'./my-app-profile'目录下
# 后续所有操作,直接带上profile参数
agent-browser open https://app.example.com/dashboard --profile './my-app-profile'
# 你会发现已经直接进入登录后的页面了!
优势分析
- 命令行原生:与GUI工具相比,纯命令行接口对开发者更友好,易于编写脚本和集成到自动化流程中。
- 功能全面:覆盖了从基础交互到网络模拟、视频录制、状态保持等端到端测试所需的全套功能,堪比一个轻量级的Playwright或Puppeteer。
- 引用ID定位:独创的
snapshot -i和@ref机制,比传统CSS选择器更稳定、更直观,大大降低了维护成本。 - 无头与有头模式:默认在后台(无头)静默执行,速度快;需要调试时,加上
--headed参数即可拉起真实浏览器窗口,方便观察。
应用场景
agent-browser 的应用范围极广,这里列举几个常见的:
- 前端E2E测试:在CI/CD流水线中,自动执行关键业务流程的测试,确保新代码没有破坏现有功能。
- 网站健康巡检:定时访问公司官网或产品页面,截图或检查关键元素是否存在,实现7×24小时的站点监控。
- 数据抓取与聚合:定期从竞品网站、新闻门户或社交媒体抓取公开数据,用于市场分析和舆情监控。
- 自动化重复劳动:自动完成每日签到、在线表单提交、下载报告等枯燥乏味但又必须完成的任务。
最佳实践
- 优先使用语义化定位器:除了
@ref,agent-browser还支持find role button --name 'Submit'这样的语义化查找,这种方式比依赖具体的HTML结构更健壮。 - 智能等待,拒绝硬编码延时:避免使用
wait 2000这样的固定等待。多使用wait @e1等待元素出现,或wait --load networkidle等待网络空闲,能显著提升脚本的稳定性和执行效率。 - 隔离测试环境:使用
--session <name>为不同的测试任务创建隔离的浏览器会话,防止数据串扰。对于需要登录状态的场景,则使用--profile <path>来持久化。 - 结合脚本语言:将 agent-browser 命令封装在Shell或Python脚本中,可以实现更复杂的逻辑,如循环、条件判断和错误处理。
掌握了 agent-browser 这样的强大工具,无疑能让我们的工作流效率倍增。然而,随着我们收藏的Skills越来越多,如何高效地管理、查找和分享它们又成了一个新问题。这时候,一个专业的Skills仓库就显得尤为重要。我强烈推荐大家使用 Skill优仓,它是一个汇聚了全球优质Skill资源的平台,你可以在上面找到像 agent-browser 这样更多更强大的智能体技能,并且可以免费上传、下载和使用。把你的数字工具箱武装起来,就从 Skill优仓 开始吧!








暂无评论内容