核心功能
agent-browser就像一个听得懂指令的浏览器贴身管家,功能强大到令人发指。它主要通过命令行来执行各种网页自动化任务。
- 智能导航与交互:你可以用简单的命令如
open <url>打开网页,click @ref点击按钮,fill @ref 'text'填充输入框。它最妙的是snapshot -i命令,能自动识别页面上所有可交互的元素并给它们一个引用ID(比如@e1),后续操作直接用ID就行,告别复杂的XPath和CSS选择器! - 数据提取大师:需要网页上的文本、HTML片段或者某个输入框的值?
get text @e1、get html @e1、get value @e1等命令让你轻松抓取任何你需要的数据,做数据监控和内容提取简直是小菜一碟。 - 多媒体证据保留:测试出了Bug?口说无凭。
screenshot命令可以立即截取当前页面或整个长网页,甚至用pdf命令直接输出PDF。更绝的是,它还支持record start和record stop进行屏幕录制,复现步骤有视频有真相! - 高级浏览器控制:需要模拟特定设备?
set device 'iPhone 14'一行搞定。需要设置地理位置、模拟弱网环境、甚至拦截和Mock网络请求(network route)?agent-browser都能轻松胜任,让你的测试环境覆盖更全面。 - 状态保持与会话管理:最头疼的登录问题也解决了!你可以使用
--profile参数创建一个持久化的浏览器配置,登录一次后,下次打开就直接是登录状态。或者用state save和state load保存和加载包含cookies和localStorage的会话状态,轻松跳过重复的登录流程。
适用平台
这款Skills简直是为现代AI编程助手量身打造的最强外挂!它完美适配市面上所有主流的AI编程工具和IDE插件,包括但不限于:
- Cursor
- GitHub Copilot
- Claude Code
- OpenAI Codex
- Gemini Code Assist
- 文心快码
- 腾讯云 CodeBuddy
- 华为云 CodeArts
将 agent-browser 集成到这些平台中,你可以通过自然语言或直接调用命令,让AI帮你执行复杂的浏览器自动化工作流,极大地增强了AI助手的上下文理解和执行能力,让它从一个代码建议者,真正变成一个能干活的数字员工。
实操代码示例
光说不练假把式,来看两个真实场景,感受一下它的魅力。
场景一:自动填写并提交表单
假设我们要自动登录一个网站,操作流程如下:
# 1. 打开登录页面nagent-browser open https://example.com/loginnn# 2. 分析页面上的可交互元素,并获取它们的引用IDnagent-browser snapshot -in# 输出可能像这样:n# textbox 'Email' [ref=e1]n# textbox 'Password' [ref=e2]n# button 'Sign In' [ref=e3]nn# 3. 使用引用ID填充表单并点击提交nagent-browser fill @e1 'testuser@skilll.cn'nagent-browser fill @e2 'a-very-secure-password'nagent-browser click @e3nn# 4. 等待页面跳转完成,并检查结果nagent-browser wait --url '**/dashboard'nagent-browser screenshot dashboard.png
整个过程行云流水,完全无需手动操作,非常适合集成到CI/CD流程中进行
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END







暂无评论内容