让AI直接操作浏览器:审计人员的自动化新思路

审计工作中有大量需要通过浏览器获取信息的场景:企查查批量查企业背景、国家企业信用信息公示系统核实工商信息、国税总局验发票真伪、快递100查函证物流……
这些操作的套路都一样:打开网页、输入信息、点按钮、等结果、截图存档。一个两个还好,几十上百个的时候,人就变成了浏览器和文件夹之间的搬运工。
我就想,这种「打开网页 → 填表 → 点按钮 → 截图」的操作,能不能让AI直接帮我干?
不是 RPA,是 AI 直接操作浏览器

说到自动化操作浏览器,很多人第一反应是 RPA——影刀、UiBot 那些。
但 RPA 有个问题:你得先录制流程,或者拖拽配置一堆节点。页面稍微改个版,流程就废了。
这次用的方案完全不同:AI + Playwright CLI。
Playwright 是微软开源的浏览器自动化工具,原本是给程序员写自动化测试用的。但它有一个命令行版本 playwright-cli,可以用简单的命令控制浏览器:
# 打开网页
playwright-cli open "https://www.kuaidi100.com/"
# 在输入框里填内容
playwright-cli fill "input[placeholder*='输入单号']" "SF5124728625325"
# 点击按钮
playwright-cli click "getByText('查快递', { exact: true })"
# 截图
playwright-cli screenshot
每一条命令就是一个浏览器操作。像不像你在指挥一个人:「打开这个网页」「在搜索框里输入这个」「点那个按钮」「截个图」?
这就是关键——AI 天然擅长理解这种指令式的操作。
你告诉 AI「帮我查这个快递单号的物流信息并截图」,AI 就能把这句话拆解成一系列 playwright-cli 命令,然后逐条执行。
实际效果:查快递物流截图

我把这个流程封装成了一个 skill(技能包),skill 里包含一个查询脚本——这些都是我给 AI 提需求,它跑通后自动写的。用起来就一句话:
node query.js --tracking=SF5124728625325 --code=5555
AI 在背后做了这些事:
- 启动 Chrome 浏览器,打开快递100
- 在搜索框输入单号
- 点击「查快递」
- 检测到验证码弹窗,自动填入验证码
- 等待物流结果加载
- 展开全部物流记录
- 清除页面上的广告和浮动元素
- 精确截取物流信息区域
- 保存截图到本地
整个过程大约 20 秒,全自动,不需要人盯着。
批量查询时更爽。6 个单号,AI 会自动复用浏览器,省掉重复开关浏览器的时间:
# 第一个:打开浏览器,查完不关
node query.js --tracking=SF001 --code=5555 --keep-open
# 中间的:复用浏览器
node query.js --tracking=SF002 --code=5555 --reuse --keep-open
node query.js --tracking=SF003 --code=5555 --reuse --keep-open
# 最后一个:查完关闭浏览器
node query.js --tracking=SF004 --code=5555 --reuse
6 个单号,不到 2 分钟全部搞定,每个截图干干净净,只有物流信息,没有广告和乱七八糟的东西。

这个思路能干什么
查快递只是一个最简单的例子。
想想审计工作中有多少操作是「打开某个网页 → 查询/填写 → 截图存档」:
| 场景 | 手工操作 | AI + 浏览器自动化 |
|---|---|---|
| 企查查/天眼查批量查企业信息 | 逐个搜索、截图 | 批量自动查询截图 |
| 工商信息核实 | 打开国家企业信用信息公示系统,逐个查 | 自动批量查询 |
| 银行回函状态跟踪 | 登录银行平台逐个查 | 自动登录、批量查询 |
| 发票真伪验证 | 国税总局网站逐张验 | 批量自动验证截图 |
| 快递物流查询 | 快递100逐个查 | 就是本文的例子 |
核心逻辑都一样:把你在浏览器上的手工操作,翻译成 AI 能执行的命令序列。
和传统方案的区别
为什么不用 RPA?为什么不用 Python 爬虫?
| 对比维度 | RPA | Python 爬虫 | AI + Playwright |
|---|---|---|---|
| 上手门槛 | 中(需要学 RPA 工具) | 高(需要写代码) | 低(用自然语言描述) |
| 维护成本 | 高(页面改版就废) | 高(选择器经常变) | 低(AI 能自适应) |
| 处理验证码 | 困难 | 困难 | AI 能理解页面结构 |
| 处理弹窗/遮罩 | 需要预设规则 | 需要写额外逻辑 | AI 能动态应对 |
| 灵活性 | 低(固定流程) | 中 | 高(自然语言调整) |
最大的区别在于灵活性。
这次开发过程中,快递100的页面在查询后会弹出一个引导遮罩层,挡住了验证按钮。如果是传统 RPA,这种意外情况需要人工发现、手动修改流程。但 AI 能通过分析页面快照发现问题,自己加上清除遮罩的逻辑。
页面变了,AI 能自己修脚本。 这才是最值钱的地方。
技术门槛高吗

几乎没有。
我已经把这套方案封装成了一个 skill(技能包),你只需要在 AI 工具(比如 Workbuddy)上安装一下,就可以直接使用。
不需要装 Node.js,不需要懂命令行,不需要写任何代码。安装好之后,你只要跟 AI 说「帮我查这批快递单号的物流信息并截图」,剩下的全自动完成。
写在最后
审计工作中大量的「查询 → 截图 → 存档」操作,本质上都是人在充当浏览器和文件系统之间的搬运工。
AI + 浏览器自动化,就是把这个搬运工的活交给机器。
不是替代审计判断,是替代审计搬砖。
快递查询截图 Skill 在免费知识星球里下载: