目录

多公司多类型文件关键信息提取-v0.8.0

前面我们通过文件关键信息提取功能,可以从图片、PDF 中提取出想要的关键信息。

这对于合同、权证、发货单、签收单等各种单据的识别很有用。

但这涉及到一个前提,就是需要我们把同一类的文件先整理好放在一个文件夹下。

当我们遇到多家公司,每个公司又有很多不同类型资料需要提取的时候,就有点困难了。

为解决这个问题,我们可以先使用“文件自动分类”功能,把每个公司中同一类的文件归集到一个文件夹下。

例如:文件目录如下所示:

├── A公司
│   ├── 01、客户信用调查表
│   │   └── 必要材料调查报告.pdf
│   ├── 02、营业执照
│   │   ├── 2-必要材料营业执照.png
│   │   └── 营业执照.png
│   ├── 03、户口簿
│   │   └── 户口簿.pdf
│   ├── 调查报告
│   │   └── 必要资料调查报告.docx
│   └── 购销合同
│       └── 合同.docx
└── B公司
    ├── 01、客户信用调查表
    │   └── 必要材料调查报告.pdf
    ├── 02、营业执照
    │   ├── 2-必要材料营业执照.png
    │   └── 营业执照.png
    └── 03、户口簿
        └── 户口簿.pdf

然后,再使用今天介绍的功能,完成多类型文件关键信息的批量提取。

下面介绍使用方法:

AI API 设置

你可以注册一个 AI 平台的账号,将其 base_url 和 API_key 参数填写到审计工具箱的“参数设置”界面并保存。

可以参考文章:《合同、权证、纳税申报表批量识别!审计工具箱v0.6.8更新》

当然,你有私有化部署 AI 的能力,也可以填写你本地或服务器部署的API 。( 兼容 openai 格式 )

如果,你注册的阿里云百炼的 API ,base_url 为: https://dashscope.aliyuncs.com/compatible-mode/v1

每个 AI 平台不同。

使用“多公司文件关键信息提取”功能

双击“多公司文件关键信息提取”,进入该功能:

点击“填写数据”,会打开配置表。

配置表填写

基础配置表填写

字段 释义
视觉模型名称 用来处理图片、扫描版本PDF的大模型。可以不动。
语言模型名称 用来处理文本的大模型。可以不动。
处理文件夹 填写上面A公司、B公司、C公司所在的文件夹。
系统提示词 不用动。

文件夹配置填写

程序会在每个公司文件夹下找这个文件夹名称,可以名称完全相同或者包含关系。

=是否合并=的意思是,是否将该文件夹下所有文件当成一个文件一起发送给AI,填“否”就会每个文件单独请求,填“是”就会合并请求。 如果单独请求产生多个数据,输出时会保留不同的值。

=提示词=,你可以针对这类文件描述你希望提取的字段,有些有歧义的字段,你可以补充相关信息,使AI能准确理解。 =匹配模式=,填“完全”,则会去查找文件夹名称完全一致的进行处理。如果填“关键词”则对包含该名称的文件夹进行处理。

填写好配置表后,保存。

点击“开始运行”:

最终执行完成后,输出的文件表头样式为:

输出的样式,是根据你配置表中填写的文件类型以及对应的字段,自动生成的。

每一家公司一行数据,相关的单据字段横向排列。

工具下载

UC 网盘:

链接:https://drive.uc.cn/s/a2c2e929a9bb4 提取码:RbCJ

或者在【审计军火库网盘】中下载,路径为:

【审计军火库-02-工具模板区-审计效率工具-逆行的狗-审计工具箱】

如果测试有问题,可以在免费的【审计军火库】知识星球中反馈。