随着企业规模的扩大,涉及文档材料的审核工作也会越来越多,任务就会越来越繁重,与此同时,人工智能也在不断发展,为了降本增效,将人工智能技术赋予审核工作,辅助办公将会大大提高效率。本文讲述如何利用人工智能技术实现文档智能审阅,并打造智能文档审阅系统。
随着企业规模的不断扩大,越来越多的文档材料等需要人工进行审核,尤其银行、金融机构、审计机构等文本相关岗位审核工作尤为繁重。随着人工智能技术不断积累及成熟,越来越多的人工智能技术被落地赋能于各行业的智能化系统设计,智能辅助人类办公,其中ocr(光学字符识别)、nlp(自然语言处理)等技术应用的尤为广泛。
接下来本文以之前所做的合同审核项目为例,讲述如何利用人工智能技术实现文档智能审阅,同时利用rpa技术实现文档审阅智能化、批量化,从而打造智能文档审阅系统。
合同作为一类审核项繁多、审核困难且容易带来较大风险的文档,对于一家企业来说需要花费极大的时间、精力进行审核和校对,尤其是对于集团性企业来说,需要耗费大量的财务、法务人员的时间精力。合同审核主要存下如下问题:
1)合同数量庞大,人工审核工作量巨大。
2)审核细节多,审核速度较慢,工作内容较为重复且枯燥。
3)失误无法避免,会带来巨大风险点。
4)可能涉及到各类扫描件、证照等,难以至于获取信息。
智能合同审核系统是主要基于nlp、ocr、机器学习等技术完成对各类合同文档的关键要素抽取,例如合同甲方、乙方、金额,币种、标的物、地点、时间等结构化的信息,并基于一定的规则设置帮助合同审计人员完成自动审核工作的一体化凯发备用官网的解决方案。下面我们来讲讲智能合同审阅系统的几大核心步骤或功能模块:
1. 合同附件ocr识别
随着合同审核的阶段或业务流程的不同,不同阶段可能有不同格式的文件,如word、pdf、jpg等。对于电子版的word、pdf等格式我们可以采用一些第三方的库或者转htm等方式直接提取其中的文本及结构信息。
对于扫描件或者照片等格式的附件我们需要利用ocr技术将其转化成电子文本,在这里我们可以直接使用一些第三方的ocr能力(例如阿里云、百度、腾讯优图等),我们可以根据具体的样本或者文本需要选择不同的ocr服务。当然并非所有的ocr需求均可以使用通用能力完成,部门特殊样本或证照的识别可能需要根据具体需求及样本进行模型。
阿里读光
2. 合同信息智能抽取
将合同各类附件从纸质文件转化成可以进行处理的电子化文本之后,我们需要根据不同的审核需求进行识项的抽取。比如对于合同整本我们可能需要抽取其中的甲方、乙方、标的物、金额、时间、地点、重要条款等。
我们可以基于规则 模型结合的方式实现问文本信息智能抽取。对于合同模板十分固定或者上下文明确的合同模板,我们可以直接通过规则提取:对于并非十分固定的合同模板我们则需要利用nlp的一些算法训练抽取模型。
(1)模型提取
利用nlp技术中的分词、命名实体识别等技术直接抽取合同中涉及到甲方、乙方、地名、金额、标的物、实体信息。但是对于一些比较特殊的实体,比如具体的标的物、付款方式、违约条款等我们需要根据实际需求进行数据标注及模型训练。开始中文档上传输出熟机质核规则制定模型训验化模型.
(2)规则提取
可以通过正则表达式或者通过系统前段实现一些文本锚点配置工具,便于使用者快速的进行提取。
(3)基于位置信息的模板抽
对于合同审核中所涉及到的格式规范的文件,例如表格或者营业执照、资质附件等结构化的文件,我们可以直接采用在附件中的相对位置或者基于某一参照点的相对位置来获取具体信息。
3. 合同智能审核
我们可以在通过系统中通过模型或者配置各类审核规则去进行智能审核,审核包括以下维度:
(1)要素审核
主要对合同中的甲方、乙方、风险条款、违约条款等要素是否存在进行审核。
(2)一致性审核
主要审核合同中的关键信息是否正确,例如甲方、乙方等信息与营业执照、各类资质证书上的名称是否一致。
(3)风险审核
比如金额、利息、合同标的物、付款方式等是否满足企业的法务、财务等规定。
(4)文档智能纠错
自动纠正合同中的文字错误及与语法错误,目前我们常见的各类输入法以及文本办公软件都具有文本纠错功能或服务,但是其大多是针对通用场景,如果我们需要其针对某一特殊领域的合同进行智能纠错,还需要根据特定的合同预料进行训练。
(5)版本智能对比
在合同审核的过程中,往往涉及到版本的不断修改,那么如果避免某次修改内容未被发现而带来的风险呢,通过版本智能对比功能,我们可以轻松发现合同前后变化。
rpa主要指机器人流程自动化,通过模拟人工键盘、鼠标操作实现点击、输入、复制、粘贴等操作。通过预设固定规则及流程,可以协助人工完成大量固定及重复性较高的工作。
在合同等文档进行审阅的过程中,可能存在巨大数量的合同进行审阅,及时利用a技术也需要耗费极大的人力成本。
那么利用rpa技术我们可以很好与文档智能审阅系统或现有的合同、erp系统很好的结合起来比如我们利用pa技术实现文档的批量下载、上传、识别以及对识别结果进行导出,也可以利用rpa技术定期去将所有审核异常的结果进行汇总,发送给相关人员进行校验。
前国外比较知名pra服务上例如uipath、automation anywhere等,国内则有云扩、来也、弘玑等。
随着人工智能技术的不断成熟,以及日益增长的文档信息抽取、审核、流转的相关需求,我相信会有更多的ai技术会进行落地,尤其是随着pra技术的广泛落地,rpa ai将会具有更广阔的应用场景。
本文由 @淡写 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 unsplash,基于 cc0 协议
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
凯发备用官网的版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。