所在位置:首页 > 文库 > 审计
如何对消费券核销环节的异常行为进行分析
2023年11月03日

一、背景

根据相关政策,G省出台一系列促消费若干措施。发放消费券作为促消费的强刺激方法,对于促进消费工作发挥了积极的作用,2022年G省发放各类政府消费劵约17亿元,涉及财政资金数额较大。此次大数据审计分析研究,选取了2022年促消费若干措施省级专项资金(第一批)共涉及全省20个地市政府消费券补助约6亿元。

 

二、数据采集处理

通过省商务厅采集获取了2022年20个市涉及省级财政补助资金的部分消费券核销数据资料。因20个地市消费券活动政策、合作方平台、数据字段等存在差异,且涉及的表有100多张,因数据清洗标准化需要一定过程,经过政策梳理、数据处理,首先选取了两个地市政府消费劵展开数据分析研究,解剖麻雀,全面解构不同第三方合作平台、不同补贴方式活动模式下消费券核销环节可能的违规行为模式。

 

三、总体分析思路——解剖“麻雀”

通过将消费劵核销数据关联工商、社保、税务等大数据中心数据以及互联网爬取相关外部数据进行分析。主要从商家集中度、商户实际营业规模与核销规模对比、实际消费金额与门槛金额差额、核销频率(单台设备每分钟内核销的最大次数)、异常时间核销(如0点到5点)以及其他行为特征等维度建立模型开展数据分析。运用数据库多维数据分析、智能挖掘工具关联规则算法、聚类算法等三重分析,发现疑点线索。

 

四、分析过程

(一)多维数据分析

1.总体分析,锁定可疑商户

通过商户规模分析(利用工商、社保、税务等数据,关注企业注册资本、成立时间、经营状态、社保人数、纳税等信息),筛选出如成立时间为活动前半年内(2021年6月后成立)、社保缴纳人数趋于0、无纳税数据等特征商户,与核销数据规模进行综合比对,合理设定享受优惠金额阈值,通过总体分析锁定4家可疑商户。

2.对疑点商户的核销数据进行异常行为分析

对上述4家疑点商户的核销数据进行异常行为分析。分析发现其中两家商户核销用户呈明显聚集特征,疑似团伙作案用户。同时利用Python批量爬取手机号码归属地信息,发现两家商户省外用户占比达9成。进一步提取上述两家商户的重叠用户手机号码以及合并用户手机号码,通过进一步关联分析发现,2类数据结果均指向另外新增3家商户,其中1家金额较大,列为新的疑似团伙作案商户。

3.根据新团伙提取新的疑点特征事务集

根据新团伙提取新的疑点特征事务集,分析上述疑似团伙用户在第3家商户的核销数据发现,用户核销日期呈规律性分散分布,扩围第3家商户的全量核销数据发现,其核销日期呈现异常增长分布,且疑似团伙用户和全量用户两个核销日期高度拟合。因此提取“核销日期”作为新的疑点特征。

4.通过疑点特征全量可疑用户关联发现其他疑似团伙

将异常核销日期段对应的所有用户手机号码,作为新的团伙疑点特征,再次通过新团伙用户手机号码全量关联发现其他疑似团伙商户。通过分析,找出核销金额较大的第四家疑似团伙商户。至此,疑点特征已减弱,团伙行为模式分析结束。

5.分析个体的其他异常行为

分析个体的其他异常行为。如,实际消费金额刚达到满减标准(满减差额)、核销频率过高、用户手机号码归属地异地占比高、核销时间段集中等。通过分析发现,一是某连锁型超市0差额特征明显,二是上述团伙商户中的1家4类异常特征均明显,进一步佐证疑点特征。

分析过程中,同时发现部分商户存在内部员工违规核销消费券疑点情况。主要表现在单用户核销笔数过大,如分析Z市新春促销活动的核销数据发现,单用户核销笔数过大的异常情况较为突出,其中50笔以上 4.16万笔,共100.31万元,主要集中在餐饮行业。进一步对疑点商户的用户群体进行分析,通过关联互联网数据以及大数据中心的手机号码相关及社保等数据,发现部分疑点商户内部员工存在大量核销问题。经过延伸核查,疑点属实,具体为员工个人通过大量抢劵,违规替真实消费者进行核销,从而套取补贴金额。

(二)Apriori关联规则算法挖掘

在传统的数据库多维数据分析后,我们遵循研究型大数据审计思路,利用Knime等数据挖掘工具进行智能挖掘分析。

1.整理形成事务数据集

通过Apriori关联规则算法进行挖掘。首先,整理形成事务数据集。利用Knime工具,将核销数据进行标准化处理,对核销数数据在单台设备每分钟核销频次5次以上、核销间隔时间短频次高、时间段集中、门槛金额5元以内等特点,筛选出整理出数据集。对该数据集按“核销时间”对应的核销日期分组,统计每天核销的“手机号码”字段集作为一个事务向量,形成待分析事务数据集。最后形成疑似团伙疑点,将分析出的核销手机号码集合关联核销数据,形成疑似团伙的核销疑点。分析发现,Z市4家商户等出现在频繁疑点集数据中。

2.挖掘频繁项集

调用Knime工具Apriori算法,导入事务集,通过分组处理、向量转换后,调用Aaaociation Rule Learner节点,设置支持度等参数等进行关联规则挖掘,通过挖掘形成疑似团伙的频繁项集合。

3.形成疑似团伙疑点数据

形成疑似团伙疑点,将分析出的核销手机号码集合关联核销数据,形成疑似团伙的核销疑点,分析发现,Z市4家商户等出现在频繁疑点集数据中。

(三)K-Means聚类算法挖掘

1.设置聚类变量

首先,设置聚类变量,将核销商户企业的工商(企业注册资本、成立时间、经营状态等)、纳税、社保参保人数等信息作为变量分类特征,通过分组算法分别将商户、手机号码字段进行分组。

2.聚类挖掘

其次,根据设定不同分类条件,调用Knime工具K-Means算法进行数据挖掘。

3.形成成对聚集性特征疑似团伙

最后,通过挖掘得到部分聚集出现的商户和用户,结合具体核销数据特征,形成疑似团伙。分析发现,Z市4家商户等成对或多对交叉聚集出现在结果中。

 

五、现场核查

通过延伸Z市,经过现场核查,疑点属实。部分商户的核销用户存在团伙性骗取政府消费劵,市审计局已将该线索移送公安机关进一步处理。

 

六、扩大战果

在对团伙作案行为模式进行深入研究分析后,利用Knime数据挖掘工具将全省数据进行深入挖掘。以点扩面,智能挖掘出全省团伙作案行为。

首先,进行疑点特征提炼,将12个含有用户手机号码信息的近100张核销数据表,通过ETL工具进行批处理清洗。标准化后通过Knime分组算法、聚类算法、关联规则算法等进行深入挖掘,寻找全省范围内是否存在团伙作案。其次,将12个地市核销数据进行全量挖掘分析(不以上述Z市团伙或其他地市类似团伙为聚簇),数据挖掘分析结果显示,12个地市普遍存在疑似团伙作案,关联到Z市后,其疑似团伙聚集指向上述已核查的Z市团伙,初步证实,疑似同一团伙在全省范围内作案。

分析结果显示,疑似同一团伙在12个地市总共核销约3万笔、政府消费劵补贴535.5万元。审计组挑选出7个涉及金额较大的地市,通过协查函的形式将疑点发至各地市进一步核查。目前,各地市正在组织公安、商务等部门进行核查。同时,审计组将团伙用户函询银联等第三方合作平台,进一步扩围挖出全省核销情况。

 

七、总结

在整个消费券大数据审计过程中,我们遵循研究型审计思路,创新大数据审计方法。将大数据审计和现场实务审计贯通融合,将传统数据库分析技术和智能算法技术有机结合,以点带面,真正的呈现出大数据审计的精准、高效的独特优势。(作者:叶繁 单位:广东省审计厅

来源:审计观察 ,作者叶繁 ,版权归原作者所有,如涉侵权,请联系我们删除,谢谢!
分享到 :
63.2K