二则案例告诉你,大数据是如何帮助公安部门破案的

近几年随着全国各地方公安部门科技信息化的迅猛发展,多单位部门数据互通共享的需求越发明显。但是,随着数据的融合和数据量级的几何式增长传统数据库和数据仓库的技术出现了诸多瓶颈问题,尤其是对于PB 级的非结构化数据处理以及多维度关联分析、数据挖掘、情报研判等需求,传统的数据存储和处理方式都面临着效率低、成本高、可靠性差、扩展能力不足等无法超越的障碍。

以搭建大数据采集、存储、治理、分析、挖掘平台为突破口,寻求公安部门科技信息化应用新的高效增长点,已经成为公安部门科技信息化应用的关键问题。本文以两个案例的形式,结合睿帆科技的安防解决方案介绍了公安机关在大数据方面开展的一些新的实战应用和新的思维方法,以供大家参考。


案例一:电子警察套牌车的自动识别

(1)案例目标

在全国接近12 亿“电子警察” 抓拍车辆数据(包括车牌、品牌、颜色、型号等)中查找出套牌车辆,称为“疑似套牌车模型”。和一般的数据挖掘方法一样,对于大数据的处理原则是以业务规则为核心,以数据资源为基础

(2) 操作流程

第一步,制定业务规则。这个案例的业务排查方法是: 短的时间内,同一车牌无法被不同路口“电子警察”抓拍到。这其中涉及到三个数据变量,一个是时间,第二个是车牌,第三个是地理位置。

第二步,数据准备,此部分难点在于数据量过大。第一,数千万辆汽车被“电子警察”抓拍到形成的数据量早已超过PB级。第二,这些被抓拍的车辆数据还需要和电子警察的地理位置数据相结合,最后还要与抓拍时间进行统一。

第三步,利用数据中台处理。睿帆科技的安防数据中台解决方案具有支持PB级数据处理千亿级数据量多条件即席查询的毫秒级响应速度千条文本训练即可完成历史案卷识别的超高学习能力。同时,还具备支持1000个以上的节点40多种数据源,支持结构化、非结构化、半结构化数据,支持自主模型训练的强大扩展能力。

本案例中,核心难点在于每天超过PB级原始数据的处理,以及对处理结果的快速响应。帆科技的安防数据中台凭借优秀的性能,可以完美解决公安部门的需求,为公安部门提供可靠的、全面的实战支撑,为安防业务提供有效的数据保障。


案例二:违法犯罪人员入住宾馆规律

案例目标:分析近 10 年在押的犯罪人员曾入住旅馆的规律,为治安防控核查工作提供指导。

( 1) 全部在押人员各时段入住旅馆情况的占比分析。

这是一种比较常规的分析方式。面对 70 万的小数据,从 10 年全部在押人员自身入住情况对比,可称为“自占比”分析。在押人员入住“自占比”的第一峰值在 22 时左右,第二峰值在13 时左右,谷值在 6 时左右。这说明,按照 10年来积累的数据看,我们关注嫌疑对象入住旅馆的重点时段应该是夜间 10 时左右和下午 1时左右。

( 2) 针对全部入住旅馆人员各时段占比分析。

根据 10 年来全部数据量的规模,传统的关系型数据库处理这些数据效率会很低。用睿帆科技的安防数据中台系统,15 分钟左右全部完成处理工作,可与第一项在押人员入住规律作比较。通过对比可以明显看出,在押人员入住“自占比”趋势与全部人员入住占比的趋势基本一致。这说明在 21 时和下午 1 时左右,本身也是正常人员入住旅馆的高峰时间。因此,这项分析虽有意义,但是针对实战的指导性分析还需要进一步研究。

( 3) 各时段在押入住旅馆人员与该时段全部正常入住人员的占比分析。

如果把上面的比较分析方式称为关注对象的“自占比”,那还有另一种比较方式,即关注对象与全部对象之间的比较,我们可称为“全占比”。各时段在押人员入住旅馆的“全占比”情况。

进一步思考通过上述两个案例分析,我们不难发现,基于’大数据#统计分析相关规律的业务建模,可能会逐步超越目前的行业经验,发现事物本质的新的联系,颠覆一些传统的行业规则$因此,迎接大数据时代的到来最需要的是一种全新的思维方法。


大数据处理体现的是一种群体行为,我们可以通过海量的数据去发现一个隐藏在数据背后的客观事实,规律分析是未来一个时期公安大数据应用的重点。

在小数据时代,由于掌握的数据量不够多,范围不够全,因此我们的决策更依赖直觉和经验,对事物规律性的把握往往需要一个很漫长的积累过程,而且也容易遗漏。但是,随着大数据时代的来临,丰富的多维度数据应用使得公安传统的业务思路得到了极大的丰富,大数据破题的真正关键,在于领会贯通大数据的思维方式。未来,必将是一个大数据引领公安的时代!