目录

让AI直接操作浏览器:审计人员的自动化新思路

/images/browser_auto_cover.png

审计工作中有大量需要通过浏览器获取信息的场景:企查查批量查企业背景、国家企业信用信息公示系统核实工商信息、国税总局验发票真伪、快递100查函证物流……

这些操作的套路都一样:打开网页、输入信息、点按钮、等结果、截图存档。一个两个还好,几十上百个的时候,人就变成了浏览器和文件夹之间的搬运工。

我就想,这种「打开网页 → 填表 → 点按钮 → 截图」的操作,能不能让AI直接帮我干?

不是 RPA,是 AI 直接操作浏览器

/images/browser_auto_rpa.png

说到自动化操作浏览器,很多人第一反应是 RPA——影刀、UiBot 那些。

但 RPA 有个问题:你得先录制流程,或者拖拽配置一堆节点。页面稍微改个版,流程就废了。

这次用的方案完全不同:AI + Playwright CLI

Playwright 是微软开源的浏览器自动化工具,原本是给程序员写自动化测试用的。但它有一个命令行版本 playwright-cli,可以用简单的命令控制浏览器:

# 打开网页
playwright-cli open "https://www.kuaidi100.com/"

# 在输入框里填内容
playwright-cli fill "input[placeholder*='输入单号']" "SF5124728625325"

# 点击按钮
playwright-cli click "getByText('查快递', { exact: true })"

# 截图
playwright-cli screenshot

每一条命令就是一个浏览器操作。像不像你在指挥一个人:「打开这个网页」「在搜索框里输入这个」「点那个按钮」「截个图」?

这就是关键——AI 天然擅长理解这种指令式的操作

你告诉 AI「帮我查这个快递单号的物流信息并截图」,AI 就能把这句话拆解成一系列 playwright-cli 命令,然后逐条执行。

实际效果:查快递物流截图

/images/browser_auto_effect.png

我把这个流程封装成了一个 skill(技能包),skill 里包含一个查询脚本——这些都是我给 AI 提需求,它跑通后自动写的。用起来就一句话:

node query.js --tracking=SF5124728625325 --code=5555

AI 在背后做了这些事:

  1. 启动 Chrome 浏览器,打开快递100
  2. 在搜索框输入单号
  3. 点击「查快递」
  4. 检测到验证码弹窗,自动填入验证码
  5. 等待物流结果加载
  6. 展开全部物流记录
  7. 清除页面上的广告和浮动元素
  8. 精确截取物流信息区域
  9. 保存截图到本地

整个过程大约 20 秒,全自动,不需要人盯着。

批量查询时更爽。6 个单号,AI 会自动复用浏览器,省掉重复开关浏览器的时间:

# 第一个:打开浏览器,查完不关
node query.js --tracking=SF001 --code=5555 --keep-open

# 中间的:复用浏览器
node query.js --tracking=SF002 --code=5555 --reuse --keep-open
node query.js --tracking=SF003 --code=5555 --reuse --keep-open

# 最后一个:查完关闭浏览器
node query.js --tracking=SF004 --code=5555 --reuse

6 个单号,不到 2 分钟全部搞定,每个截图干干净净,只有物流信息,没有广告和乱七八糟的东西。

/images/kuaidi_SF5109897172254.png

这个思路能干什么

查快递只是一个最简单的例子。

想想审计工作中有多少操作是「打开某个网页 → 查询/填写 → 截图存档」:

场景 手工操作 AI + 浏览器自动化
企查查/天眼查批量查企业信息 逐个搜索、截图 批量自动查询截图
工商信息核实 打开国家企业信用信息公示系统,逐个查 自动批量查询
银行回函状态跟踪 登录银行平台逐个查 自动登录、批量查询
发票真伪验证 国税总局网站逐张验 批量自动验证截图
快递物流查询 快递100逐个查 就是本文的例子

核心逻辑都一样:把你在浏览器上的手工操作,翻译成 AI 能执行的命令序列

和传统方案的区别

为什么不用 RPA?为什么不用 Python 爬虫?

对比维度 RPA Python 爬虫 AI + Playwright
上手门槛 中(需要学 RPA 工具) 高(需要写代码) 低(用自然语言描述)
维护成本 高(页面改版就废) 高(选择器经常变) 低(AI 能自适应)
处理验证码 困难 困难 AI 能理解页面结构
处理弹窗/遮罩 需要预设规则 需要写额外逻辑 AI 能动态应对
灵活性 低(固定流程) 高(自然语言调整)

最大的区别在于灵活性

这次开发过程中,快递100的页面在查询后会弹出一个引导遮罩层,挡住了验证按钮。如果是传统 RPA,这种意外情况需要人工发现、手动修改流程。但 AI 能通过分析页面快照发现问题,自己加上清除遮罩的逻辑。

页面变了,AI 能自己修脚本。 这才是最值钱的地方。

技术门槛高吗

/images/browser_auto_skill.png

几乎没有。

我已经把这套方案封装成了一个 skill(技能包),你只需要在 AI 工具(比如 Workbuddy)上安装一下,就可以直接使用。

不需要装 Node.js,不需要懂命令行,不需要写任何代码。安装好之后,你只要跟 AI 说「帮我查这批快递单号的物流信息并截图」,剩下的全自动完成。

写在最后

审计工作中大量的「查询 → 截图 → 存档」操作,本质上都是人在充当浏览器和文件系统之间的搬运工。

AI + 浏览器自动化,就是把这个搬运工的活交给机器。

不是替代审计判断,是替代审计搬砖。

快递查询截图 Skill 在免费知识星球里下载:

https://wx.zsxq.com/group/28888158188211