所在位置:首页 > 文库 > 审计
用关联规则、聚类分析和知识图谱挖掘隐蔽关系
2024年07月26日

       人工智能技术作为世界科技革命和产业变革的先导力量,日益融入经济社会发展各领域全过程,能够有效支持审计数字化转型。

       本文以客户隐蔽关系挖掘为例,介绍三种常用技术在商业银行审计工作中的应用,以及人工智能助力审计数字化转型时所带来的效能提升与风险提示

PART1
三种常用技术在商业银行审计工作中的应用


01 关联规则

关联规则算法包括两个主要步骤,一是找到事务数据集中的频繁项集,二是对频繁项集生成关联规则,即首先通过频繁项集挖掘算法找出同时频繁出现的数据集合,然后分析出如“由于某些事件的发生而引起另外一些事件的发生”之类的规则,进而分析该规则背后更深层次的隐含问题与原因,并提供相关决策支持。

图片

图1.关联规则算法分析步骤

常用的关联规则算法包括Apriori和FP-Growth,两种算法均能实现频繁项集挖掘,基于“如果一个项集是频繁的,则其所有子集一定也是频繁的”这一先验定理,挖掘得出频繁同时出现的数据集合。但由于分析思路不同,对数据库扫描次数不同,算法效率会受到数据量等因素影响存在差异,应用中需要根据数据量情况、基础设施算力情况选择合适的算法。

图片

表1.Apriori算法与FP-Growth算法比较

1.背景描述

出于规避检查等原因,异常或可疑交易通常不是直接通过用户本人的银行账户,而是通过其控制的或相关关系人账户进行。本人账户与被控制账户往往在交易时空上存在交集,即在一定条件下频繁出现。通过关联规则算法找到频繁出现的交易集合,就能够找到账户间控制关系,从而发现客户间隐蔽关系。

2.所需数据

分析主要应用的是手机银行登录日志信息,主要字段包括用户登录时间、登录次数、交易成功次数、交易成功金额。

3.分析过程

一是明确事务数据集。筛选一年内满足登录时间异常、交易成功金额高等特点的手机银行日志数据,对该数据集按登录时间戳、交易时间戳、交易金额范围等进行分组,统计每组内用户客户号或其他身份信息作为一个事务向量,每个事务向量的集合为待分析的事务数据集。

二是挖掘频繁项集。考虑到手机银行数据量较大且短时间内登录用户密集,调用Python工具中的FP-Growth算法,导入事务数据集,按照数据读取——向量转换——关联规则挖掘——输出结果的顺序进行挖掘分析。算法执行中需设置支持度和置信度的参数值,分析结果以二维数据表形式展现,包含支持度数值及对应的用户客户号集合。

三是结果核实。分析得出的用户与手机银行日志及客户信息关联,得到其对应的登录明细信息与基础信息,结合交易流水等进一步确定隐蔽关系。

图片

图2.分析过程
02 聚类分析技术

聚类分析是一种非监督的学习方法,是数据分析、理解与数据可视化的有效工具。在数据挖掘过程中,聚类就是根据数据对象相似性情况,将数据对象分组成为多个不同类或簇,原则是在同一个类或簇中的对象彼此之间很相似,而与其他类或簇中的对象有一定相异。

常用的聚类算法包括K-Means、DBSCAN、BIRCH。三种算法形成聚簇的方式不同,应用中需要根据数据情况进行选择。

图片

表2.K-Means、DBSCAN与BIRCH算法比较

图片

图3.K-Means、DBSCAN与BIRCH算法对同一虚拟数据集聚类结果


1.背景描述

存在隐性关系的用户除了通过手机银行线上交易,还可能在线下频繁接触,在同一空间范围内面对面登录账号并进行交易,呈现地理位置上的聚集关系。通过聚类算法对用户GPS信息进行处理分析,能够得到用户在同一时空中的聚集情况,频繁存在于同一空间簇内的用户存在潜在关系。

2.所需数据

分析主要应用的是手机银行登录日志信息与用户GPS信息,主要字段包括用户登录时间、登录次数、交易成功次数、交易成功金额、登录或交易时所处城市、经纬度组合等。

3.分析过程

一是明确数据集。将用户手机银行登录日志与GPS信息关联,剔除经纬度为空的数据记录,为避免出现城市与用户经纬度不匹配记录,关联省市经纬度范围并进行修正。

二是根据用户位置进行聚类。聚类以城市为单位分别进行,考虑到城市中人口分布常用密度计量,在城市内呈现区域性集中,调用Python工具中的DBSCAN算法,导入数据集,按照数据读取——城市选择——参数设置——聚类分析——输出结果的顺序进行分析。算法执行中需设置以每个用户为中心的范围半径和范围内最小样本数两个参数值,输出聚簇序号以及簇内包含的用户客户号。

三是聚簇合并。由于初始范围半径固定,可能出现分布较稀疏的聚类被划分为多个簇,考虑通过空间关系约束进行合并。设置簇间距离阈值,计算每个聚簇中心点之间的距离并与阈值进行比较,若小于阈值则合并为同一空间簇,若超过阈值范围则认为属于不同空间簇。在进行聚簇合并时,可以考虑使用角度约束作为补充。存在于同一空间簇内的用户存在潜在关系。

图片
图4.空间关系约束(左)与角度关系约束(右)

03 知识图谱

知识图谱运用可视化技术描述知识资源,通过绘制包含对象、属性及关系的知识映射图谱来挖掘和分析对象的相互关系。通过知识图谱可以高效直观地得到目标对象之间的关联网络,实现从多维度对审计对象进行画像。

利用关联规则、聚类分析等算法输出的客户关系结果满足构建关系型图谱的底层数据要求,可获得企业客户之间隐蔽关系的可视化图谱,添加交易、流水信息还能够补充担保和资金往来关系。通过追踪图谱节点,审计人员能够快速抓取信息,为非现场审计的风险发现和信息检索提供直接帮助。

图片

图5.点边关系示例

效能提升与风险提示


01 效能提升

随着人工智能技术的广泛应用,一方面,审计人员可以利用前沿技术算法、先进的分析软件,对海量的数据进行深层次分析和挖掘,快速、精准地识别业务活动背后的潜在风险,显著提升审计效率。另一方面,能够建立科学的审计模型,通过各种审计数据模型的合理应用,快速发现内部管理中存在的问题,并提出解决措施,推动审计效能不断提升。

02 风险提示

虽然人工智能算法能够有效拓展银行内部审计广度与深度,但是在大数据环境下的应用过程中需要注意以下三点。

1.强化数据安全管理

数据分析处理需要借助于互联网技术和计算机设备进行,存在病毒攻击与人员泄密风险。商业银行需不断强化数据安全管控,明确数据用途,严防数据泄露。通过问责机制等方式加强审计人员数据安全意识,督促其严格遵守数据安全要求,分级设置数据权限,做好数据保密工作。同时,制定统一的安全风险管理标准和防范等级,做好安全风险评估,最大限度减少数据安全隐患。

2.紧密结合现场与非现场审计

人工智能技术为非现场审计系统建设提供了强有力支撑,但这并不意味着现场审计的作用可以被削弱或替代。算法应用与模型构建的初始阈值设置依赖于现场审计提供的专家经验,算法结果输出的可疑清单需要审计人员现场核查并返回结果,从而进行迭代优化;现场审计则需要数字化方式明确审计对象,缩小排查范围,精准及时发现潜在风险的同时减轻负担。

将现场与非现场审计相结合,共同提升商业银行内部审计独立性与有效性,达到更客观和全面审计的目的。

3.培养复合型人才

目前,商业银行审计人员在有效利用前沿技术开展内部审计方面仍需提升。应首先加强对审计人员在技术领域的培训,不仅要懂得审计工作流程和方法,还要懂得数据分析模型运用,熟悉相关业务系统以及系统内部数据处理方式,善于应用审计模型进行预测分析、及时发现问题。同时不断优化和调整现有审计人员结构,引进复合型人才。对于大数据思维下的内部审计工作人员,需要做好内部审计工作转型的准备,摆脱过去传统的思维模式,提高处理数据的能力,进行有效的数据驱动审计,为内部审计的转型和发展做出贡献。

参考文献:

[1]鲁大静.大数据环境下商业银行内部审计存在的问题及改进策略[J].审计与理财,2023(3):19-21

[2]中国银监会.商业银行内部审计指引.银监发[2016]12号

 

 

原文标题《浅谈人工智能技术助力商业银行审计数字化转型》。关联规则、聚类分析是数据挖掘领域的经典算法问题,前者基于统计学,后者基于无监督学习;而知识图谱的基础是图论和复杂网络理论,在数字化审计时代,都可以用于隐蔽关系的挖掘。

来源:数据治理周周谈 ,作者冯祎琳 ,版权归原作者所有,如涉侵权,请联系我们删除,谢谢!
分享到 :
63.2K