# 如何不费实习生


又到年审了，

各项目组应该都抢完实习生了，

假如你也遇到这样的场景：

{{< figure src="/ox-hugo/2025-01-04_17-37-29_screenshot.png" >}}

{{< figure src="/ox-hugo/2025-01-04_17-37-40_screenshot.png" >}}

{{< figure src="/ox-hugo/2025-01-04_17-37-54_screenshot.png" >}}

{{< figure src="/ox-hugo/2025-01-04_17-38-10_screenshot.png" >}}

那么今天我们将介绍，如果利用 `SW审计工具箱` ，

针对合同录入的这个单一场景，

少费一点实习生，让他们保留一点对审计的好感。


## 运行工具箱 {#运行工具箱}

我们在工具箱中双击“文本文件关键信息提取”功能，

{{< figure src="/ox-hugo/2025-01-04_17-41-14_screenshot.png" >}}

我们先点击“填写数据”，会自动打开一个Excel 配置表，我们进行参数配置。

配置完成后，我们保存Excel, 再点击“开始运行”，

待生成完成后，再点击“查看结果”，找到生成的文件。

{{< figure src="/ox-hugo/2025-01-04_17-43-39_screenshot.png" >}}


## 配置表的填写 {#配置表的填写}

需要知道的是，工具是调用的目前国内最强的AI 大模型 deepseek v3 去提取文件中的关键信息。

我们需要填写的配置表如下：

{{< figure src="/ox-hugo/2025-01-04_18-01-25_screenshot.png" >}}

整体来看，我们需要执行以下几个步骤：


### 将PDF转换成 txt 文件 {#将pdf转换成-txt-文件}

出于节约钱的角度，我们不用大模型去作 ocr 转换。

你可以找一个能够 ocr 的工具（很多PDF软件都有这个功能），

批量将所有你需要处理的 pdf 转换成 txt 文件，

保存在一个文件夹下（可以多层级存放），

这个文件夹路径就是配置表中需要填写的“处理文件夹”路径。


### 获取 deepseek 的 api_key {#获取-deepseek-的-api-key}

这里我们由于需要调用 deepseek 大模型的 api 接口，

因此我们需要按照操作说明（配置表Excel 里有）进行注册，

拿到 api_key 。

这个过程不复杂，大概1-2 分钟就可以完成。

当然，你是需要去充值的（最低 10 元，个人可能都用不完），

但是它的接口调用费用非常低（目前每百万token是2元，1个汉字大约是1个token），

我测试下来，对于一份 4-5 页的合同，跑了44 份，花费了 0.1 元。

可以看出这个费用是非常低的，

这样的合同跑 1000 份，也就差不多 2-3 元钱。


### 填写 system prompt {#填写-system-prompt}

配置表里填写“system prompt",

比如：我已经填写好了：

> 你是文件关键信息提取助手，我需要你根据我上传的文件，提取出我想要的关键信息，并以 json 格式输出

这个信息你可以不动它，当然你也可以自己调整，看怎么效果更好。


### 填写 role prompt {#填写-role-prompt}

同样，你在配置表里填写“role prompt”，

我也给了你一个示例：

> 请提取出文件中以下字段：销售合同或销售订单编号,合同签订日期,合同期限,合同类型,合同标的,付款方式,结算依据,数量（吨）,含税单价,金额,承担运输

这里你只需要修改下，针对你自己的文件中想提取的关键字段。

这样配置表中所有信息就填写完毕了。

我们可以直接保存配置表，在软件中点击“开始运行”


## 执行结果 {#执行结果}

执行时，会显示进度以及返回的提取关键信息：

{{< figure src="/ox-hugo/2025-01-04_18-19-36_screenshot.png" >}}

等处理完毕后，点击“查看结果”，找到生成的文件：

{{< figure src="/ox-hugo/2025-01-04_18-22-03_screenshot.png" >}}

可以看到从每个txt文件中提取出的关键信息。


## 人工修正 {#人工修正}

当然，受限于我们将 pdf ocr 转换成 txt 的效果，

有些文字识别不对的话，我们提取出来的信息有会有些问题。

可能就需要人工进行校正了。

当然，为方便登记、校验信息。

你可以继续使用工具箱中的“文件打开器”功能，

即把前面生成的信息粘贴到“文件打开器”的Excel中，

( 注：稍微处理下把 txt 文件路径变成 pdf 的原始路径 )

当我们双击文件路径的时候就可以直接打开pdf了，

这样就不用来回搜索、查找文件。


## 结语 {#结语}

以上是我们使用目前国内最强的AI大模型来进行文件关键信息的提取，

能够辅助我们提高录入效率。

这个比较适合大量文本的PDF文件，

对于类似，票据、凭证等复杂表格类型的，

后面我会再写个工具，通过调用 qwen-vl 模型来直接提取图像中关键信息。

这样应该就可以应对绝大部分场景了。

这个工具箱在免费的知识星球上下载：

{{< figure src="/ox-hugo/2025-01-03_21-14-21_screenshot.png" >}}

这个功能只有我自己测试过，如果遇到问题，可以在知识星球上反馈。