目录

开源AI视觉模型改变审计行业基础工作

在审计过程中大量数据处理、数据录入的基础工作占据一线人员很多时间。

而这中间无论是检查回函、合同、发票、凭证、监盘等等工作,本质上来说都是视觉活动。

也就是对图像信息的处理,加工,核对。

最近我发现一个开源的多模态 AI 模型,非常强大,也许能够改变审计一些基础工作的作业方式。

其实,在以前文章中我介绍过 paddleocr 或者一些商用接口,能够做到对特定票据的识别:

如合同、发票、票据等。

而今天介绍的模型是通用型的,一个打十个。

下面我们以几个场景来实际感受下这个模型:

合同识别

例如,这里有一份合同信息。对于审计来说,我们可能会让实习生去整理这些合同的信息录入到表格中,或者与公司凭证、台账进行检查。

而用这个模型,我们只需要动动嘴皮子就能轻松完成。

我告诉它“帮我提取出合同中甲方、乙方、日期、合同金额”

甚至,你可以直接让其以 json 格式输出给你:

这不就是那些商用接口提供的样式吗?

有这个能力,完全可以批量识别合同,将关键信息提取出来,输出成表格。

回函信息检查

我们再以询证函回函检查为例,统计回函信息,很多时候也是实习生一个一个录的。

我直接提问:“请帮我提取出回函结论中,“信息不符,请列明不符项目及具体内容”单元格内的手写的文字信息。”

可以看到基本是识别出来了,而且对于手写字识别效果是非常好了。

只是盖章遮挡区域,效果不佳。不过实际上可以先通过代码图像处理批量将印章先去除的。

这有什么用呢?

目前各个所都建了函证中心,都有函证系统,那么完全可以调用这个模型的能力,

将回函信息提取出来,待审计人员审核检查并修订。

这对于集团性大所来说,实际上很有意义,能节省大量人工。

发票识别

对于这样一张发票,我们让它“以json格式提取发票信息”

可以得到:

{
  "发票号码": "059941588400183130059894158",
  "开票日期": "2018年12月04日",
  "购货方": {
    "纳税人识别号": "4200183130059894158",
    "地址": "广东省广州市天河区",
    "开户行及账号": "广州市天河区"
  },
  "销售方": {
    "纳税人识别号": "4200183130059894158",
    "地址": "广东省广州市天河区",
    "开户行及账号": "广州市天河区"
  },
  "货物或应税劳务、服务名称": "地质地震专用仪器*+管线探测仪",
  "规格型号": "RD8100PXL/T10",
  "单位": "套",
  "数量": "1",
  "单价": "1896.5172241",
  "金额": "1896.52",
  "税率": "16%",
  "税额": "3034.48",
  "合计": "19827.59",
  "备注": "贰万元叁仟圆整(小写)¥23000.00",
  "收款人": "广州市天河区",
  "复核": "广州市天河区",
  "开票人": "广州市天河区"
}

完美!

理解图片含义

我们向其提问“请描述图片中的含义”来尝试看其理解图片的能力:

再问它“干活的有几个人?”

似乎理解能力不行,很明显这张图表达的干活的应该就一个。

结语

今天介绍的视觉模型以及之前介绍的开源AI模型,事务所完全可以本地布署,

满足数据安全性的要求,并以此为底座开发出各种效率工具。

另外大家应该能感受到市面上信息技术已经切实在改变很多工作,

而审计行业的信息化其实也是在加快发展,

事务所的信息化投入主要是解决质量和效率的问题。

在目前看来,各家做的事更多的是在解决质量的问题,

这也是事务所存活的根本所在。

而对于一线员工来说,更期待提高“效率”的东西,

其实质量和效率本身并不矛盾。

但似乎还有很长很长的路要走。

参考来源

Internvl 开源模型: https://github.com/OpenGVLab/InternVL?tab=readme-ov-file

模型试用 Demo (文中演示所用工具):https://internvl.opengvlab.com/

最接近GPT-4V的可商用开源大模型,实测效果很强: https://www.bilibili.com/video/BV1h1421B7fP