基于数据挖掘的犯罪行为分析.docx
目录内容摘要II)StraCtII1绪论11.1 课题研究背景及意义11.1.1 课题研究背景11.1.2 课题研究意义11.2 国内外研究现状21.2.1 国外研究现状21.2.2 国内研究现状21.3 论文主要工作与章节安排31.3.1 论文的主要工作31.3.2 论文的章节安排32数据挖掘简介42.1 数据挖掘的概念42.2 数据挖掘技术分类42.3 数据挖掘的过程52.4 数据挖掘应用的领域62.5 行为的关联性分析73.1 关联规则挖掘介绍73.1.1 关联规则的基本概念83.1.2 关联规则的挖掘步骤93.1.3 关联规则挖掘的基本算法93.1.3.1 Apriori算法93.1.3.2 FP树增长算法93.2 犯罪行为关联规则挖掘处理103.3 犯罪行为数据预处理113.3.1 数据清理123.3.2 数据转换134运用关联规则算法对犯罪数据进行研究144.1 MicrosoftSQLSerVer2008挖掘工具简介154.2 SQLServer2008挖掘工具的具体操作步骤154.2.1 运用AnalysisServices中的关联规则功能进行数据挖掘154.2.1.1 数据导入154.2.1.2 查看数据204.2.1.3 运用AnalysisService功能中内置的关联规则算法进行数据挖掘214.4挖掘结果的处理374.4.1 结果分析374.4.2 应用研究结果385总结395.1 本文所做的工作395.2 对未来的展望39参考文献41致谢错误!未定义书签。内容摘要:现今社会,犯罪行为出现了高科技、组织化,公安部门也为此累计了大量的犯罪数据,数据的规模也在不断扩大,在这样的情况下,如何能够从如此海量的犯罪数据中更好的研究了解犯罪规律并且预防、打击犯罪行为,成为了公安研究部门需要攻克的一个难题。本文依据已有的关联规则挖掘,对大量犯罪数据的分析,从而发现在不同的案发区域高发的犯罪类型,或者在不同的时间段该区域高发的犯罪行为中的犯罪规律。并且介绍了对犯罪信息的挖掘,包括对数据进行预处理,关联规则的发现,对挖掘的规则的分析解释,从而对了解犯罪规律有很大的意义,也能够有效预防打击犯罪,维护社会治安和平,为如何进行最佳的警力部署提供了一个很好的决策作用。关键词:数据挖掘;关联规则;犯罪行为分析;犯罪规律Abstract:Intoday'ssociety,createdhigh-tech,organizedcrime,thepublicsecuritydepartmentalsoaccumulatedalotofcrimestatistics,thescaleofthedatahasbeenexpanded,inthatcase,howcanbetterresearchfromsuchamassivecrimedataaboutthecrimelawandprevention,tocrackdownoncrime,becomethestudyofthepublicsecuritydepartmentsneedtoovercomeaproblem.Inthispaper,onthebasisoftheexistingassociationrulesmining,theanalysisofalargenumberofcrimedata,thusfoundindifferentareasofthecrimetypehighincidenceofcrime,oratdifferenttimestheareahighincidenceofcrimeinthecriminallaw.Andofcrimeinformationminingisintroduced,includingdatapreprocessing,thediscoveryofassociationrules,ontheanalysisoftheminingrulesinterpretation,whichhasagreatsignificancetotheunderstandingofcriminallaw,alsocaneffectivelypreventthecrime,maintainsocialorder,peace,forhowtobestpolicedeploymentprovidesaverygooddecisioneffect.Keywords:DataminingAssociationrulesAnalysisofcrimeRegularityofcrime1绪论1.1 课题研究背景及意义1.1.1 课题研究背景随着我国信息技术的不断发展,人们获得信息的方法越来越多样化,于是有大量的信息从社会的各行各业中产出。又由于数据库技术也在不断的完善和普及,我们还能从这样爆炸式增长的数据中获取信息。可是我们应该如何从这些海量的数据中获取有用的信息呢?传统的查询技术并不能解决这一问题。如果能提取出这些数据中的信息、价值,运用到为人类服务中去,因此,对这些海量的历史数据进行探索研究,就成为如要攻克的难题。所以,为了解决如何能有效地管理数据库中的信息,以及如何有效利用这些数据从而发其中隐藏的不为人知的秘密,并发挥这些信息的作用,数据挖掘诞生了。数据挖掘也通常称为KDD(KnowledgeDiscoveryinDatabase)数据库中的只是发现,它能够从海量的数据中提取知识和信息LL在信息高速发展的同时.,犯罪行为的智能化、高科技化的趋势也变得越来越明显,不断变化的犯罪行为对公安部门造成了困扰,也给人民的人身财产安全带来了恐慌。秉着科技兴国的态度,党中央要求公安部门坚持“科技强警”的战略,做好规划,抓好信息化工作,提高战斗力,提高执法效率。对此,如何从历史的大量的犯罪数据中发现犯罪规律从而打击预防犯罪成为了公安部门需要攻克的难题。因此,当前公安部门迫切的需要将数据挖掘技术运用到犯罪分析中,从而提高执法效率,更好的预防犯罪。1.1.2 课题研究意义由于犯罪对于人们来说是一颗不定时炸弹,严重威胁了人身财产安全,让人们心里有着巨大的压力,所以,为了人们能够安居乐业,公安机关对这些犯罪的破获刻不容缓。将数据挖掘技术运用到对犯罪数据的分析中,不仅提高了执法的效率和准确性,也能更好的预防打击犯罪。因此,本文采用了关联规则挖掘来分析犯罪数据中犯罪规律,对案发的区域、时间、作案手段进行分析,从而给公安执法决策提出一个好的建议,比如了解某一区域高发的案件,可以对该区域的该作案手法进行特定的监管,也可以根据发现的规律实施预防措施,比如安装监控、实施警务巡逻等来减少犯罪从而保障人民的生活安全。1.2 国内外研究现状1.2.1 国外研究现状以芝加哥警察署(CPD)为例,为了预防打击犯罪,他们创建了一个大型的数据库,同时他们也在试图创建一个可追踪分析平时行动较为活跃的团伙,并向他们发出警告以防止其进行团伙式暴力犯罪的社交图谱。自2012年,据统计,芝加哥的刑事谋杀案高达500以上,但目前统计,实施此方案后,谋杀率下降了22%。CPD副局长表示,这种工具能够根据其成员的对话交流、平时爱去的场所与他们的爱好来进行分析,并给出较为准确的分析结果。在此能够证明,数据挖掘能够帮助公安部门通过以往的犯罪数据分析犯罪人员的特点,发现犯罪的规律,通过进一步的挖掘,能够为领导提供决策性的建议,也能提供有效的防止犯罪的方法。以前的警情分析需要人力来完成,耗费了大量的人力财力,也很耗费时间,在此情况下,还不一定能找出很好的解决方法,但现在,利用数据挖掘技术,利用计算机能很快的完成以前人工完成的工作,大大的节省了时间,并且提高了公安部门的工作效率,办案能力,从而社会人民的满意度与幸福指数也逐步提高了。1.2.2 国内研究现状我国公安部门在数据挖掘领域上的研究相对国外也较晚,但随着信息化的推动,越来越多的数据累计在了公安部门的数据库中,数据挖掘技术也开始应用于我国的警察部门。通过数据挖掘算法,一些部门己经发现了一些犯罪规律,可以通过数据之间的某些关联,可以尝试进行预测犯罪,指导警务工作,给领导提供决策性的建议。虽然发展得有一段时间,也小有成果,可在相关的文献和成果中,大都只简介了数据挖掘的概念,以及经典的算法,简单描述了一下数据挖掘在公安实战分析中所起的作用。1.3 论文主要工作与章节安排1.3.1 论文的主要工作本文以大量的犯罪信息数据作为研究对象,先解决数据一致性等问题,再利用SQLServer2008建立数据仓库,然后在拟定的算法下对大量的犯罪行为记录进行分析处理,从中发现每类犯罪频发的时间段以及每个区域高发的犯罪行为,这对公安司法部门具有相当重要的现实意义。本文的主要研究内容如下:对大量的犯罪行为数据进行数据预处理,并使用关联规则算法对处理后的数据进行挖掘,从而得到犯罪的规律和趋势。1.3.2 论文的章节安排第一章:对课题的研究背景和意义进行了介绍,并阐述了国内外基于数据挖掘技术在犯罪领域上的研究现状和成果。第二章:主要介绍了数据挖掘技术的概念,挖掘的过程,应用的领域以及数据挖掘的常用算法。第三章:着重介绍了关联规则算法的概念、步骤及分类。第四章:介绍了SQLSerVer2008,以及挖掘模型的建立、对挖掘结果的分析。本章主要介绍如何使用该软件进行挖掘,并对挖掘出来的规则进行合理的分析以及给出处理的建议。第五章:本章是全文的最后一个章节,主要是对前面所做工作的总结和对犯罪行为数据处理研究的展望。2数据挖掘简介近年来,数据库信息量不断增长,信息存储技术也在不断进步,但数据的爆炸式增长已经远远超过了我们的处理数据的能力范围。使用传统的处理方法已经不能从数据中发现有用的、隐藏的信息。所以,为了处理这些海量的信息,数据挖掘技术产生了,并受到了各界的重视且运用到了各个领域。本章重点介绍数据挖掘技术的概念、方法等。2.1 数据挖掘的概念数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的应用数据中,提取隐含其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是为了从海量的数据中发现其隐藏的规律,从而进行实验和分析。它也是一门结合统计学、数据库、模式识别等各个行业领域知识的交叉性学科。2.2 数据挖掘技术分类随着计算机科学的发展、数据爆炸式增长与积累,推动了数据挖掘技术的快速地发展。数据挖掘技术有以下的分类:(1)分类:意义是找出识别和区分数据类的模型(或函数),而后可以能够使用模型预测类标号位置的对象类。比如,犯罪类型的数据中,年龄可以分为“青年”“中年”“老年”来对犯罪人员的年龄进行分类。分类过程是先通过从己经被分类训练集中获得知识从而获得一个预测的模型,然后再利用这个模型将未被分类的训练集进行分类。分类的常用方法包括决策树分类法、基于规则的分类和贝叶斯分类等。(2)预测:通过分析对象之前和现在的行为或产品的销售情况等来预测对象即将会做出的行为或产品销售的走向。比如,犯罪类型数据中,某男士近十年来常在三月份左右进商店偷取店主I(X)元,所以可以预测在之后他也会做同样的事情。预测技术采用数列作为输入,表示一系列的时间值,然后运用各种能处理数据周期性分析、趋势分析和噪声分析的计算机学习和统计技术来估算这些序列未来的值。预测的常用方法是回归分析。(3)聚类分析:聚类就是将特征相同的数据化为类或簇的过程,在同一类的数据对象具有很高的相似度,同理,不同类的数据数据对象之间数据特征差异很大。聚类分析应用于很多地方,就比如在数据预处理的过程中,就会用到与聚类分析有关的技术。(4)离群点分析:在数据库中可能存在一种与其他数据行为不同的数据,这种数据对象就称为离群点。在一些突发事件中,这类数据相对于正常的数据就更可能会就成为人们感兴趣的数据对象。(5)关联规则分析在海量的数据库中,一定存在着隐藏的、不为人知的规则。找出数据集中存在的关联信息就是关联规则目的,这是通过数据集合的关联分析得到事先不被人发现的规则。其中最为出名的是一个超市的决策:“尿布+啤酒”,看似毫无关联的两件物品,通过交易数据中发现这样的购买模式,男士给孩子购买尿布的同时.,会买一些啤酒来犒劳自己。所以超级将尿布和啤酒放在一起销售,反响以外的好,各位男士购买尿布是可以更方便的获得啤酒,增加客户满意度从而提高超市的客户忠诚度。关联规则是数据挖掘领域中一项非常重要的研究内容,它被用于寻找大量数据之间的关联规则,从而让决策者做出更好的决策。本研究中,需要了解犯罪行为与犯罪人员之间的联系,如:犯罪时间段与犯罪方式之间的联系,地域与犯罪方式之间的联系等,所以采用关联规则分析,从而得出相对应的犯罪模式,对相关的公安机关与司法部门有一个很好的帮助。接下来,将对关联规则分析算法理论进行详细的阐述2.3 数据挖掘的过程数据挖掘可分为以下几个步骤:(1)数据准备阶段:这个阶段由数据清洗、数据集成、数据选择和数据变换这四个部分组成。数据清理为消除噪声数据起了很好的作用,数据集成则是将多个数据库或者文件整合合并,建立统一的数据源视图。数据选择就是从数据库中选择出需要分析的数据集合是哪些,以达到缩小数据处理的范围,更容易进行接下来的操作且提高了数据的质量。数据变换就是将数据转换为更加适合挖掘的数据形式。(2)挖掘:此阶段实现挖掘操作,使用恰当的方法提取数据模式。例如:提出挖掘假设;择别恰当的工具;挖掘知识的操作过程;确认发现的知识等等。(3)表述:此事获得的信息为了方便客户的观察理解,可利用可视化工具反映给客户。宾客意反映给客户,这些基于不同数据集合的分析结果还可以存储在知识库中,给以后进一步的分析和比较也提供了意义。(4)评价:如果分析人员不是很满意发现的数据,那么可以重复以上的步骤,直到对结果满意即可。2.4数据挖掘应用的领域海量的信息推动了数据挖掘技术的发展,也注定了数据挖掘的实用价值,数据挖掘技术也在许多领域的应用中获得了成功。例如:金融、医疗保健、竞技业、零售业、制造业、司法、工程、科学和保险业等拥有海量数据的领域。目前,数据挖掘主要应用的领域如下:(1)医疗保健。近年来,数据挖掘应用于医疗保健领域中。各个医院可以通过研究近十几年来数据库中每个季节频发的病症来对市民进行预防措施来减少患病的数量。(2)金融领域。数据挖掘技术应用于金融、银行领域很容易理解。银行可以利用数据挖掘工具得到消费者的消费理财以及储蓄观念、信用情况、财产状况和投资理财观念等,从而得到什么时候可以向这位消费者推荐何种产品,或者当消费者办理贷款时,做出更安全保险的决策。对于货币公司,则需要寻找、分析大量的数据,通过对这些数据的处理评估客户的信用,对发现潜在的客户群有很大的帮助。(3)竞技业。近几年,数据挖掘应用软件被应用于欧冠联赛的战场,教练通过软件分析不同队员布阵的相对优势,来找到致胜的方法。同样,电子竞技也应用了数据挖掘技术。在某端游世界比赛中,韩国某俱乐部教练通过研究近几年的比赛数据,找到了应对不同比赛的应对战术以及游戏人物的相互压制连续在各个赛季夺冠。(4)科学领域。数据挖掘已经开始涉足到了尖端的科学的研究中。科学实验中产生了大量的研究数据,运用数据挖掘技术可以探索其中隐藏的规律,不但加快了科学运算的效率,还对发现新的科学起了很好的奠定基础。例如为了征服人类的顽疾,对DNA序列的研究分析是一个需要攻克的重点。但是,对于结构千变万化的DNA序列又该如何进行探索研究呢?于是,运用数据挖掘技术,可能为这一难题(发现特殊疾病蕴藏的基因排列信息)提供新的解决办法。3犯罪行为的关联性分析3.1 关联规则挖掘介绍在实际生活中,有不少领域采用了关联规则。在大量的电子商务网站中,比如淘宝,当你浏览了某一类的产品如:牛仔裤,过几天你再次打开淘宝,你就会发现,在首页,就会出现为你推荐的裤子,或者搭配这些裤子的适合的鞋子,即:您可能喜欢的宝贝。又比如在某超市的数据库关联发现,购买尿布的百分之七十都购买了啤酒,发现了这样有趣的关联规则,决策者可以将尿布和啤酒摆放在同一个货架上来促进销售,这样的关联规则对于决策者有一个很好的统筹规划市场的能力,同时,零售商们也可以使用这类规则,来帮助他们发现新的交叉销售的商机。同时,在医疗领域,医生们可以根据往年频发的疾病的进行预测来控制来预防疾病的发生等等。所以,由此看来,关联规则对于我们的生活有很好的意义。关联规则模式是在数据挖掘所发现的知识模式中,也是非常重要的一种。在数据库中,发现大量数据中的项集之间存在的有趣的关联就是关联规则表达的意义。关联规则最早是由AgraWal等提出的,之后便吸引了许多研究者的目光与关注。许多研究者开始进一步的研究关联规则,改进并扩展了关联规则挖掘算法。与此同时,关联规则挖掘也被引进更多的领域中的数据库,获得了很好的挖掘效果。3.1.1 关联规则的基本概念关联规则是形如X-Y的蕴含表达式,其中x=0,支持度和置信度是度量关联规则强度的参数:支持度(三):S(Xfy)=(X3)N置信度(C):c(xy)=g(X二丫)b(X)如表1所示:(1表示购买此商品,O表示未购买)表1事务面包牛奶尿布啤酒香烟111000201111310110401111511110考虑规则牛奶,尿布一啤酒,由于牛奶,尿布,啤酒的支持度计数为3,且这里一共有5项事务,则该规则的支持度(三)为3/5=0.6,又由于有3个事务包含了牛奶,尿布,所以其置信度(C)为3/3=1。所以,由此看来,支持度和置信度是对研究关联规则很重要的参数。对于支持度来说,低支持度的规则只是在偶然情况下出现,所以对于零售商来说,将两个低支持度的商品放在一起促销可能毫无益处,所以支持度是衡量关联规则重要性的标准。而关于置信度来讲,对于规则X-Y,置信度越高,则说明Y在包含X的事务中出现的频率越高。为了发现有意义的关联规则,则需要给定两个重要的阈值:最小支持度(minsup)和最小置信度(minconf)。所以对于给定的事务N是旨在找出支持度大于等于minsup同时置信度大于等于minconf的所有规则。3.1.2 关联规则的挖掘步骤关联规则挖掘的主要任务就是发现同时满足大于或等于两个最小阈值条件的所有强规则,其步骤一般由两步完成:(1)找出所有频繁项集(支持度大于等于最小支持度的项集),剩余的项集均称为非频繁项集。(2)从选出的频繁项集中,找出置信度大于等于最小置信度的关联规则,这样的规则即为强规则。第一步是重难点,相较于第二步开销很大,并且第一步决定了关联规则的总体性能。3.1.3 关联规则挖掘的基本算法3.1.3.1 Apriori算法APriOri算法是一种最有影响的挖掘布尔关联规则频繁项集的算法APriOri使用一种称作逐层搜索的迭代方法,“K-1项集”用于搜索“K项集”o首先,找出频繁“1项集”的集合,该集合基座LI,Ll用于找频繁“2项集”的集合L2,而L2用于找L3o如此下去,直到不能找到“K项集”。找每个Lk都需要一次数据库扫描,所以使得该算法的执行效率偏低。3.1.3.2 FP树增长算法这个算法与APriori算法相同,也需要一开始就设定好minsup来进行筛选。第一步是先扫描整个数据库得到频繁“1项集”,并按降序排序支持度计数,结果集为L0第二步是构建FP树,先创建根节点(null),再对数据库中每个事务按照L中的次序插入到书中,构建树的分支:最后对该树由下向上循序渐进进行频繁模式挖掘。此算法是基于APriOri算法,但它效率更快,因为该算法对数据库的两次扫描将数据信息储存到一种压缩的数据结构中,避免了大量的候选集的产生,因此降低了频繁模式匹配的开销向。3.2犯罪行为关联规则挖掘处理找出频繁项集并得出关联规则,挖掘出犯罪模,挖掘流程示意图如图1所示:满意知识库结束图1:挖掘流程示意图3.3犯罪行为数据预处理现实世界中,我们得到的数据通常是肮脏的、缺失的和不一致的。数据处理技术可以改进数据的质量,从而有助于提高其后挖掘过程的准确率和效率,降低对挖掘结果的噪音干扰。我们可以通过很多方法去获取数据,在本研窕中,数据获取不是核心,所以为了节省研究成本和时间直接在数据堂中下载了犯罪行为的大数据样本,原始数据如图2所示:6xsra毡aa”,至国臼碑DS90t阴国I日国会嘲,屈IW*s*B/u田冏,*<三三三=合剂肺白喃*M裳侬式s¾孰三s见亨,Wi-Iw-5ser1«'»8日西QOeWRSWPSXgGiM-20122015XaX+DEQ础配Ce令AlQADete-Rptd4ABCDFCBIJKLIHOPQRl-1IDltc1RDtdDR.盟DATE.00:TIE.OCCARIAAXEA.MAWRDCn.CdCnCcLDejStatusStatus.DcLCCA11C<lCross-StxLocatioal1L203/20/2011.32*0803/20/201201520Olyipic997TRA7FICIU11Unkn<xnOACTOC(34.0776,-118.308)303/10/2011.31EKI803/10/2014456Hollyoc<997TRAFFICIU11UnknwmCAHun(34,1113,-118.3336)412/18/201l.三+<i812/18/20174518Southeast997TRAFFICElnreUnknmCJtCesi(33.94C6j-118.2338)510/18/2011.32÷O810/18/201173018Southettt95?TRVFICUKX(JnknO<nJUIin(33.944%-118.2332)&6«/26/2011.31Z÷U806/25/2012000SHarbor440THOTPUU血Cnknom1300ISBPt(33.8135,-118.2992)7C6242011.31E*0806/22/20111451277thStrC997TRAFFICEUHUnkno<nCHJSE(33.9931,-118,3308)影状808/23/2011.4K18C2320122401Central310BURGLARYICInvestC<500KFIGC(34.0617,-118,2469)908/23/2011.42÷086/23/201133720Olyipic901VIOLATiceiCInvesta300SSSRF(34.069,-118.3066)EIO08/22/201l.«+0808/23/2011W51Central111210RCeBERYICInvestC<900NHIU(34.06«,-118.238T)触1108/22/2011.41÷O808/22/2018259VanJlMyS933901VICtATIWICInvestC<14600ai5(34.1817,-118.4509)1208/22/2011.41*0808/22/2018009VanMuys901664BUBOO,RICInvestC<15300SATl(S4.208S,-118,4662)1«.1308/22/2011.41K>8C2220173513Beiton1309沏TRAynCcInvestCcEJfTiRF(34.0228,-118,2325)UC222011.42÷O808/23/201201921Topanga2126901ViolatioiicInTeStC<21100S&TK34.2083,-118.5929)1508/21/2011.42÷O808/21/201IWO16Foothlll1687510VEHICLE-ICInVeKC<1120O»118(34.2227,-118.3743)1608/20/2011.41÷O808/21/201200011在NhcstIlTl331THBTTFRCICInvejtC<$8«)ISUIS(34.091,-Iia2?88)1708/20/2011.411*08C212012011Bortheast1143330BURGLARYICInvestC<2800GRIP(34.1075,-118.2732)1808/20/2011.42E÷<I808/20/201132016Foothill1655745VakialisjicInveStC<10500AST(34.248j-118.3575)公耳1908/20/2011.42+0808/20/20119G018Southeast1806997TRAFFIC11CInvestCc88TB(33.9525,-118.2651)20C202011.42÷08C20201153021Topanga2189943CRULTY11CInvesta5500OTAB(34.1706,-118.5698)02108/19/2011.4I÷O8C2220114303Southvest319440THEHPUICInvestC<12TB(MeHI9,-118.2669)s三2208/19/2011.411+0808/21/20115008festU823440THEHPUICInvestC<15300ACTI(34.M7,-118.5259)2308/18/2011.41*(808/21/201183012TTthStrc1283624BATTERY-ICInveStC<10300SRSI(33.9432j-118.309)24C182011.42*<l8C182012016Foothill1663420THEFTFRCICInvesta9000RZK(34.232,-118.4029)2508/18/2011.42÷O808/19/201180019Iisslon1959210RCB3ERYICInwtPlERC8(34.2609,-118.4402)2608/18/2011.42÷08C22201120019Ihsion185310BURGLARYICInveitC<8700TOBI(34.22?¾-118.4516)2?08/16/2011.41I+O808/16/2011755IOTestVall1061997TRAfFiCIICInvestCcOAKDAL(34.1724,-118,5649)28C162011.41E*0801720122031277thStrC1211900ViaLATIOSICInvestC<57005TH(33.9909,-118,3225)G为十'-,'vlI图SlEbEl16中J,图2:原始数据样本该数据样本中主要包含有如下的属性:案发日期,案件编号,案发时间,案发区域编号,案发区域,案件编号,作案手段等。3.3.1 数据清理在原始数据中,可能会因为操作、记录错误的影响而造成大量的错误数据。若对这些数据不进行处理或者直接忽视它可能会对结果产生很大的误差。通过对这些错误数据的处理可以使最终的数据处理结果比较满意。TIME.OCC2015445745173020001145224013371945825800735201910302000203013201930153014301500120017552203图3:案发时间样本截图如图3所示,案发时间应为大于100的整数,如:“2015”表示20点15分,所以红色标注的“20”为错误的数据,需要删除,所以在EXCel中筛选出小于100的数,然后将错误数据删除。由于原始数据样本中存在冗余属性(与挖掘结果无关的属性值),这样的属性不仅仅会使分析结果产生误差还会加大算法的难度,所以在进行挖掘前要先对原始数据中的属性进行筛选。如“案发区域编号”与“案发区域”表述相同的含义,编号类似于国内的邮编,既然有地址名,那么这个代码的属性可以舍去,保留“案发区域”即可。同理,“案件编号”与“作案行为”保留“作案行为”。“是否为在逃人员”“街道”“经纬度”这些属性对我们的分析并没有意义,所以这些属性也可以去除。最终选择的属性有“案发日期”“案件编号”“案发区域”“案发时间”“作案行为”。经过数据清理后的数据如下:DR.NODATE.OCCTIME.OCCAREA.NABECrnCd.Desc13200771703/20/20132015OlympicTRAFFICDR#13060878703/10/2013445HollyvoodTRAFFICDR#13182026012/18/2013745SoutheastTRAFFICDR#13181751410/18/20131730SoutheastTRAFFICDR#13051048305/25/20132000HarborTHEFTPLAIN-PETTY(UHDER$400)13121361805/22/2013114577thStreetTRAFFICDR#14011974508/23/20142240CentralBURGLARY14201526308/23/20141337OlympicVIOLATIONOFRESTRAIHIHGORDER14011967108/23/20141945CentralROBBERY14091510808/22/2014825VanNuysVIOLATIONOFRESTRAIHIHGORDER14091511608/22/2014800VanNuysBUNCO,PETTYTHEFT14131683408/22/2014735NewtonTRAFFICDR#14211449808/23/20142019TopangaVIOLATIONOFRESTRAIBINGORDER14161266108/21/20141030FoothillVEHICLE-STOLEH14111536808/21/20142000NortheastTHEFTFROMMOTORVEHICLE-GRAND($400ANDOVER)14111537208/21/20142030NortheastBURGLARYFROMVEHICLE14161264508/20/20141320FoothillVANDALISM-MISDEAHEABOR($399ORUNDER)14181586608/20/20141930SoutheastTRAFFICDR#14211444608/20/20141530TopangaCRUELTYTOANIMALS14031816908/22/20141430SouthwestTHEFTPLAIN-PETTY($950&UNDER)14081256008/21/20141500WestLATHEFTPLAIN-PETTY($950&UNDER)14121883808/21/2014183077thStreetBATTERY-SIMPLEASSAULT14191748908/19/20141800MissionROBBERY14191761308/22/20141200MissionBURGLARY14101373308/16/20141755WestValleyTRAFFICDR#14121868908/17/2014220377thStreetVIOLATIONOFCOURTORDER14161251708/18/20141300FoothillBURGLARY1AO1ROQOO1RQ1A1/1CPev>,TD4TlTr11P*图4经过数据清理后的样本3.3.2 数据转换在对数据的属性进行选择后,为了将数据格式化,还需要对数据的数值进行转换,这样做可以处理数据不一致的情况以便之后的挖掘。由图4发现,数据没有key键,所以可以对“DR.NO"(案件编号)这个属性进行修改,使其成为主键,相应的序列号可以从1开始,向下排序。案发日期在原始数据的表现形式为年月日,在这里,可以将这个属性划分开来,分别建立新的属性,即案发年份、案发月份。接下来观察案发时间,原始数据中,该属性分得很细,基本上是以每五分钟作为基本单位,这会对计算造成很大的工作量,所以我将时间分为了12时段,例如一点到三点,三点到五点以此类推。最后再看作案手段,原始数据中的作案手段分得很细,每一类手段都细分到财产的多少,比如偷窃,原始数据将偷窃分为了偷窃800美元以上,800美元以下,或者偷窃的场所不同也