让AI直接操作浏览器：审计人员的自动化新思路

nigo 收录于工作

2026-04-21 约 1723 字预计阅读 4 分钟

审计工作中有大量需要通过浏览器获取信息的场景：企查查批量查企业背景、国家企业信用信息公示系统核实工商信息、国税总局验发票真伪、快递100查函证物流……

这些操作的套路都一样：打开网页、输入信息、点按钮、等结果、截图存档。一个两个还好，几十上百个的时候，人就变成了浏览器和文件夹之间的搬运工。

我就想，这种「打开网页 → 填表 → 点按钮 → 截图」的操作，能不能让AI直接帮我干？

不是 RPA，是 AI 直接操作浏览器

说到自动化操作浏览器，很多人第一反应是 RPA——影刀、UiBot 那些。

但 RPA 有个问题：你得先录制流程，或者拖拽配置一堆节点。页面稍微改个版，流程就废了。

这次用的方案完全不同：AI + Playwright CLI。

Playwright 是微软开源的浏览器自动化工具，原本是给程序员写自动化测试用的。但它有一个命令行版本 playwright-cli，可以用简单的命令控制浏览器：

# 打开网页
playwright-cli open "https://www.kuaidi100.com/"

# 在输入框里填内容
playwright-cli fill "input[placeholder*='输入单号']" "SF5124728625325"

# 点击按钮
playwright-cli click "getByText('查快递', { exact: true })"

# 截图
playwright-cli screenshot

每一条命令就是一个浏览器操作。像不像你在指挥一个人：「打开这个网页」「在搜索框里输入这个」「点那个按钮」「截个图」？

这就是关键——AI 天然擅长理解这种指令式的操作。

你告诉 AI「帮我查这个快递单号的物流信息并截图」，AI 就能把这句话拆解成一系列 playwright-cli 命令，然后逐条执行。

实际效果：查快递物流截图

我把这个流程封装成了一个 skill（技能包），skill 里包含一个查询脚本——这些都是我给 AI 提需求，它跑通后自动写的。用起来就一句话：

node query.js --tracking=SF5124728625325 --code=5555

AI 在背后做了这些事：

启动 Chrome 浏览器，打开快递100
在搜索框输入单号
点击「查快递」
检测到验证码弹窗，自动填入验证码
等待物流结果加载
展开全部物流记录
清除页面上的广告和浮动元素
精确截取物流信息区域
保存截图到本地

整个过程大约 20 秒，全自动，不需要人盯着。

批量查询时更爽。6 个单号，AI 会自动复用浏览器，省掉重复开关浏览器的时间：

# 第一个：打开浏览器，查完不关
node query.js --tracking=SF001 --code=5555 --keep-open

# 中间的：复用浏览器
node query.js --tracking=SF002 --code=5555 --reuse --keep-open
node query.js --tracking=SF003 --code=5555 --reuse --keep-open

# 最后一个：查完关闭浏览器
node query.js --tracking=SF004 --code=5555 --reuse

6 个单号，不到 2 分钟全部搞定，每个截图干干净净，只有物流信息，没有广告和乱七八糟的东西。

这个思路能干什么

查快递只是一个最简单的例子。

想想审计工作中有多少操作是「打开某个网页 → 查询/填写 → 截图存档」：

场景	手工操作	AI + 浏览器自动化
企查查/天眼查批量查企业信息	逐个搜索、截图	批量自动查询截图
工商信息核实	打开国家企业信用信息公示系统，逐个查	自动批量查询
银行回函状态跟踪	登录银行平台逐个查	自动登录、批量查询
发票真伪验证	国税总局网站逐张验	批量自动验证截图
快递物流查询	快递100逐个查	就是本文的例子

核心逻辑都一样：把你在浏览器上的手工操作，翻译成 AI 能执行的命令序列。

和传统方案的区别

为什么不用 RPA？为什么不用 Python 爬虫？

对比维度	RPA	Python 爬虫	AI + Playwright
上手门槛	中（需要学 RPA 工具）	高（需要写代码）	低（用自然语言描述）
维护成本	高（页面改版就废）	高（选择器经常变）	低（AI 能自适应）
处理验证码	困难	困难	AI 能理解页面结构
处理弹窗/遮罩	需要预设规则	需要写额外逻辑	AI 能动态应对
灵活性	低（固定流程）	中	高（自然语言调整）

最大的区别在于灵活性。

这次开发过程中，快递100的页面在查询后会弹出一个引导遮罩层，挡住了验证按钮。如果是传统 RPA，这种意外情况需要人工发现、手动修改流程。但 AI 能通过分析页面快照发现问题，自己加上清除遮罩的逻辑。

页面变了，AI 能自己修脚本。 这才是最值钱的地方。

技术门槛高吗

几乎没有。

我已经把这套方案封装成了一个 skill（技能包），你只需要在 AI 工具（比如 Workbuddy）上安装一下，就可以直接使用。

不需要装 Node.js，不需要懂命令行，不需要写任何代码。安装好之后，你只要跟 AI 说「帮我查这批快递单号的物流信息并截图」，剩下的全自动完成。

写在最后

审计工作中大量的「查询 → 截图 → 存档」操作，本质上都是人在充当浏览器和文件系统之间的搬运工。

AI + 浏览器自动化，就是把这个搬运工的活交给机器。

不是替代审计判断，是替代审计搬砖。

快递查询截图 Skill 在免费知识星球里下载：

https://wx.zsxq.com/group/28888158188211

目录