# 合同、权证、纳税申报表批量识别！审计工具箱v0.6.8更新


昨天文章更新了 v0.6.7 版本，在全局的“参数设置”模块添加上了 AI 的API ，

今天和AI聊了一天，把之前的“文本文件关键信息提取”功能升级了下，

由之前只支持 txt/markdown 文本文件，拓展到支持 pdf/图片类文件了。

可以批量提取合同、权证、纳税申报表等各类单据。

项目组不要再让实习生录合同、录单据了！！！

让工具跑一遍，让实习生检查、更正录入结果。

下面说下操作步骤：


## 注册AI平台账号 {#注册ai平台账号}

你可以随意选择兼容 openai 格式的 api 的平台。

这里我们以阿里云百炼为例：

网址：<https://bailian.console.aliyun.com>

首次注册每个模型会赠送百万token。

{{< figure src="/ox-hugo/2025-08-28_20-53-55_screenshot.png" >}}

在“模型”-&gt; “密钥管理” -&gt; “创建API-KEY”

复制好创建的 API-Key 。


## 工具箱填写 API-key {#工具箱填写-api-key}

扫码加入下面免费知识星球“审计军火库”：

{{< figure src="/ox-hugo/2025-01-03_21-14-21_screenshot.png" >}}

在置顶链接中，下载“审计工具箱”。

解压后，运行工具箱。

{{< figure src="/ox-hugo/2025-08-28_20-57-53_screenshot.png" >}}

在参数设置中填写好 base_url 和 api_key:

base_url:<https://dashscope.aliyuncs.com/compatible-mode/v1>

api_key: 上个步骤的 api-key 复制粘贴过来。

点击保存设置。

保存后，会在工具箱文件夹根目录中新增加一个config.json的文件，里面存储了base_url和api_key,

`切记不要将该文件直接拷贝给他人，可能会造成别人消耗你的token，导致钱的损失。如果已经发生泄露，可以阿里云百炼平台上去删除这个api key`.


## 配置表参数填写 {#配置表参数填写}

在工具箱的功能列表中，双击“文件关键信息提取”：

{{< figure src="/ox-hugo/2025-08-28_21-01-11_screenshot.png" >}}

点击“填写数据”：

{{< figure src="/ox-hugo/2025-08-28_21-02-48_screenshot.png" >}}

在打开的配置表中填写参数：

{{< figure src="/ox-hugo/2025-08-28_21-03-43_screenshot.png" >}}

其中“视觉模型名称”是处理扫描件 pdf 和图片的，最强的是 qwen-vl-max ，

"语言模型名称”是处理 txt/markdown 文本文件的，最强的是 qwen-max 最快的是 qwen-flash ，中间的是 qwen-plus ，自行选择。

symstem_prompt: 这个系统提示词尽量不要改，目前是和我代码处理是有关联。

role_prompt: 这个用户提示词需要根据你的材料进行修改，比如你想提取什么字段就可以列示在这里，如果有些字段复杂还可以添加一些描述来说明要提取的字段的含义，这样可能更准确。

处理文件夹：你需要提取信息的文件所在文件夹，可以多层级。

图片文件识别模式：如果你要处理的文件中存在图片，选择“文件夹”代表一个文件夹下的所有图片视为同一个文件，选择文件则每张图片视为一个文件。

参数就这么多，需要修改的其实就： `role_prompt 、处理文件夹、图片文件识别模式` 。

填写好后，保存下配置表。


## 运行程序 {#运行程序}

点击“开始运行”：

{{< figure src="/ox-hugo/2025-08-28_21-11-38_screenshot.png" >}}

程序会根据不同的文件类型决定调用视觉模型还是语言模型，

执行完毕后，点击“查看结果”按钮，打开生成的文件：

{{< figure src="/ox-hugo/2025-08-28_21-14-06_screenshot.png" >}}

生成的这个文件是带 vba 宏的，我们想对照原始文件进行检查的话，

直接双击 A 列，会直接打开对应的文件，这样我们就可以方便的核对检查。


## 特别说明 {#特别说明}

对于有复杂的页面结构的单据，建议使用视觉模型，直接对 pdf 或者图片进行识别，

这样准确率较高，只是速度比较慢。

对于页面结构不复杂的文本内容，如合同，建议先本地将 pdf 或图片 ocr 转成 txt 文件，

再对 txt 文件进行识别，这样会使用大语言模型，

这样速度很快，准确性一般也没有问题。

调用视觉模型调用 API 时，上传的是拆分开的图片，

调用语言模型调用 API 时，上传是文件中的文本（非文件）。

扫码加入免费的知识星球，在置顶链接中有审计工具箱的下载网盘链接。

{{< figure src="/ox-hugo/2025-01-03_21-14-21_screenshot.png" >}}

也欢迎大家在星球中反馈 bug ，提新的需求。

信永中和的同事也可以通过企业微信向我反馈。


## 阿里云折扣和咨询 {#阿里云折扣和咨询}

下面二维码是阿里云的经销商（不是狗哥！），相比官网直销有一定折扣，

有需要的可以扫码咨询（备注：=狗哥推荐= ）：

{{< figure src="/ox-hugo/2025-08-28_21-22-27_screenshot.png" >}}

没需要的话，直接阿里云百炼官网注册就行。

另外，如果对数据安全或者企业的AI方案，也可以通过她咨询，

可以安排阿里云的架构师解答。

