欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    《数据分析与挖掘技术》实验指导书.docx

    • 资源ID:1777867       资源大小:99.85KB        全文页数:45页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    《数据分析与挖掘技术》实验指导书.docx

    校企合作共编实验讲义数据分析与挖掘技术实验指导书,t.4一刖三本书是编者在多年教学经验基础上,根据职业本科培养目标的要求,结合电子技术新的发展而编写的“作为职业本科院校电子、自动化、通信类等专业数字电子技术实验课程操作指导用书,也可供从事电子技术的工程技术人员参考。教材在内容安排上,以应用为目的,以“必需、够用”为度,将理论知识的讲授与学生能力的培养有机地结合起来。在加强必备的战础知识的前提下,保证内容的实用性。尽量做到深入浅出、删繁就简、重点突出。本书遵循“理论够用、重在应用”的指导思想,将知识点困人到实例中,讲解细致,操作简单,内容F富、实用,图文并茂,实践性强。本书为了巩固学生的学习成果,每章均附有课后训练项目及练习题,以期激发学生的学习兴趣,并使学生通过实验与习题获得能力的提而.由于编写时间仓促,加之编者水平有限,难免有不足或疏漏之处,恳请读者批评指正。编者2021年5月实验一相关性系数I一、实验目的1二、实险任务1三、实验原理(:以删除此项II四、实验设备4五、实验准爸4六、实脸步骤5七、注遨事项8八、思考与练习9九、实验报告IO实险二等深分箱10一、实验目的10二、实验任务IO三、实验原理部分课程可以删除此项)IO四、实险设需13五、实脸准备13六、实验步骡15七、注意“项20八、思考与练习20九、实验报告20实验三等宽分箱21一、实验目的21二、实验任务21三、实验原理(部分课程可以删除此项)21四、实验设备21五、实骁准法23六、实验步臊27七、注意小项33八、思考与练习34九、实验报告35实瑛四主成分分析36一、实验目的36二、实验任务37三、实验原理(部分课程可以删除此项)37四、实险设的3931.实验准备39六、实验步骤40七、注意小项47八、思考与练习47九、实验报告48实验五关联规则APriori49一、实验目的49二、实脸任务49三、实验原理(部分课程可以删除此项)49四、实验设备51五、实验准备51六、实舱步骤52七、注意事项59八、思考与练习61九、实验报告61实险六关联规则FP-gr°wih62实险目的62二、实验任务62三、实验原理(部分课程可以删除此项)62四、实脸设符62五、实验准备62六、实验步骡63七、注意5项72八、思考与练习72九、实验报告72实验七决策树73一、实验目的73二、实验任务73三、实验原理部分课程可以IW除此项)75四、实验设备76五、实验准卷76六、实脸步探83七、注意事项85八、思考与缥习86九、实验报J86实般八战性回归87一、实验目的87二、实验任务87三、实验原理部分课程可以删除此项)87四、实脸设备88五、实验准备88六、实验步骡88七、注意小项89八、思考与练习91九'实验报告91实验九DBSCAN聚类92,、实验目的92二、实险任务92三、实验原理(部分课程可以删除此项)92四、实验设备92五、实验准备92六、实脸步臊93七、注意事项93八、思考与练习93九、实验报告93实验卜KmeanS聚类1一、实验目的1二、实验任务I三、实验原理(部分课程可以删除此项)1四、实脸设得1五'实验准备1六、实验步骤2-匕、注一事项2八、思考与练习2九、实验报告2实验一相关性系数一、实3目的1 .掌握相关性分析的概念2 .能膨FHPyI1.Hm求解相关性系数3 .能够用python绘制欣戊图二、实舱任务任务一:根据给出的数据求解相关性系数任务二:绘制散点图,裤糅绘制的图形的含义三实验!理(部分课程可以除此项)相关系数是最早由统北学.家K尔皮尔逊设计的统计指标,是研究变盘之间线性相关程度的吊:,一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数相关表和相关图UJ反映两个变居之间的相互关系及其相关方向,但无法确切地表明两个变成之间相关的程度,相关系数是用以反映变砥之间相关关系密切程度的统计指标,相关系数是按积差方法计算,同样以两变最与各自平均侑的离差为基础,通过两个离差相柒来反映两变局之间相关程度:«虫研究成性的单相关系数,需要说明的是,皮尔逊相关系数并不是唯一的相关系数.但是最常见的相关系数,以下解择都是针对皮尔逊相关系数.依据相关现象之间的不同特征,其统计指标的名称有所不同.如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数):符反映两变及间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数:符反映多元线性相关关系的统计指标称为复相关系数、复判定系数等.相关关系是一种泮确定性的关系,相关系数是研究变量:之间线性相关程度的量,由于研究对象的不同,相关系数有如下几种定义方式“商单相关系数:又叫相关系数或线性相关系数,一般用字母r表示,用来度量:两个变电间的线性关系,红相关系数;又叫多费相关系数.发相关是指因变革与多个自变址之间的相关关系,M如,某种商品的季节性需求麻与其价格水平、职工收入水平等现象之间呈现笈相关关系.典型相关系数:是先对原来各组变盘进行主成分分析,得到新的税性关系的综合指标,再通过琮合指标之间的线性相关系数来研咒原各组变fit间相关关系.NumPy是一个开源的Python库.主要用在数据分析和科学计算.基本I:可以把NUmpy看做是Pvthon数据计6的基础,因为很多非常优秀的数据分析和机器学习框架底层使用的都是NUmPy。比如:Pandas.SciPy.Miitp1.o1.1.ib.scikit-1.ea11,scikit-image等。NumPy库主要包含多维数组和矩阵数据结构。它为ndamy(一个n维数组对象提供了对其进行有效操作的方法。NUmPyUJ以用于对数祖执行各种数学运算。并H.提供了可在这些数组和矩阵上运行的庞大的高皱数学函数库,Pyihon中有一个数据类型叫做1.isi,1.ist中可以存储不同种类的对象。在应用程序中这样做没有什么问题,但是如果是在科学计算中,我们带一个数殂中的元素类型必须是一致的,所以有了NUmPy中的Array,NumPy可以快速的创建Array.并且时其中的数据进行操作.NumPy中的AITay要比Py1.hon中的1.iSI要快得多,并H占用更少的内存空间.什么是NumPy?NumPy是用于处理数组的python库.它还掘有在线性代数、傅立叶变换和矩阵领域中工作的函数.NumPyi1.1.TravisO1.iphant于2005年创建.它是一个开源项目,您可以自由使用它.NumPy指的是数值Python(Numerica1.Py1.hon)。为何使用NumPy?在Python中,我们有满足数组功能的列表,但是处理起来很慢。NumPy旨在提供一个比传统Pvthon列表快50倍的数组对阪,NumPy中的数组对象称为Marray,它提供了许多支持函数,使得利用ndaay"常名勒.数组在数据科学中非常常用,因为速度和资源非常玳要.数据科学:计算机科学的一个分支,研究如何存储、使用和分析数掘以从中兼取信息.为什么NumPy比列表快?与列表不同.NumP)数组存谛在内存中的一个连续位置.因此进程可以非常疗效地访问和操纵它们.这种行为在计算机科学中称为引用的对部性.这是NUmPy比列我更快的主要原因,它还经过了优化,可与最新的CPU体系结构一同使用.NumPy用哪种语言编写?NUmPy是一个Python阵,部分用Py1.hon编写,但是大多数需要快速计算的部分都是用C或C+编写的。NumPy代码N在哪里?NumPy的源代码位于这个github贷料阵中:htpsgithub.conVnumpynmpygiihub:使许多人可以在同一代码库上工作。1.Python最景耍的绘图工具如今数据分析最常用的两种编程瑞吉分别为R和Python,其中R作为老牌的数据分析谱吉.集成了大fit的数理统计、经济学常用的工具,是数据分析必备的第程语音。而近几年Python凭借其强大的生态,行许多开源的数据处理模块.如Numpy.Pandas.scipy.Matp1.ot1.ib.SKIcarn等,一跋成为数据分析编程语言的黑9.说到使用Python进行数据UJ视化,最重要的模块便是Ma1.p1.o1.1.ib,其期初是模仿Matp1.ot1.ib的方式开发的绘图模块,经过迭代己经可以成熟的对NUmPy和Pandas进行兼容.使用起来方便而快Mb另一方面,像SCabom等更加高级的模块也是在MEP1.O<1.ib的基础上开发的,虽然更加裔效,但如果想更加灵活的控制图片的每一个控件,还是需要掌握Matp1.ot1.ib.2 .Matp1.ot1.ib的绘图方式MatP1.Odib有两种会图方式.一种是函数式绘图方式(类似MAT1.AB):另一种毡面向对象的绘图方式.如果在导入matpk>Wb时,你会收到类似【无命名模块和模块名称的锵误,这意味着你还需要安装该模块.一个常见的问即是缺少名为six的模块.这选味着你需要使用PiP安装S1.Xo或者,你Ur以前往Matp1.ot1.ib.org并通过访问卜或页面卜或适当的版本进行安装。请记住,因为你的操作系统为M位.你不一定禽要64位版本的Py1.hsu如果你不打算鲁试64位,你可以使用32位。打开ID1.E并阅读顶部。如果它说你是64位,你就是64位,如果它说是32位,那么你就是32位.一旦你安装了Pymon,你就做好了准备.你可以编写任何你想要的逻辑.我喜欢使用ID1.E来编程,但你可以随意使用任何你喜炊的东西.importmatp1.o<1.ib.pyp1.otasph这一行导入集成的PyPM我们招在整个系列中使用它.我的将PyP1.ot导入为Pk这是使用PykH的pyihon程序的传统惯例.p1.t.p1.o«(1.2.3.1.5.7.4)接卜来,我们调用PkH的PO<方法绘制一线坐标,这个pkM需要许多参数,但前两个是£和T坐标,我们放入列表。这懑味蕾,根据这些列去我们拥有3个坐标:1.52.7和3.4。ph.p1.o(在后台绘制J这个绘图,但绘剌了我们想要的一切之后,当我们准;好的时候,我们衢要把它带到屏幕上。p1.thow()辿过numpy的CorrCOCf函数计免出相关系数,再通过matp1.odib进行可视化.四、实验设备!.WindowsB3 .以标4 .键盘五、实睑准备1 .导入必要的模块2 .加载数据3 .相关性系数计算与散点图绘制4 .相关性系数的理论知识皮尔逊相关系数泅盘变地之间的线性关联.它的值可以这样解择:+1-完全正相关+0.8-强正相关+0.6中等正相关0无关联 0G中度负相关 OA强烈的负相关 I-完全负相关我们将说明相关系数如何BS不同类型的关联而变化.在本文中,我们还将显示零关联并不总是意味着零关联。非线性相关变量的相关系数可能接近零。皮尔逊相关系数是多少?皮尔逊相关系数也称为皮尔逊枳矩相关系数它是两个随机变成X和Y之间线性关系的度;丸在数学上,如果(OXY)是X和丫之间的协力差,并且(OX)是X的标准偏差,则皮尔逊相关系数P可以由下式给出;使用Numpy的Python中的Pearson相关系数皮尔逊相关系数可以使用COf1.rCOefONUmPy中的方法在Python中计算。此函数的输入通常是一个矩阵,例如SiZCmXn,我中:每列代衣一个叨机变显的伯每行代奏一个n的机变fit样本11代表不同随机变盘的总数m代表每个变量的样本总数对于n随机变量,它返回一个nxn方矩阵M,其中M(ij)指示了随机变量i和之间的相关系数j,由于变随与变景自身之间的相关系数为1,因此所有对角线项(ii)均等于1.六、实验步1 .计算相关性系数ino11nunpyasnimportmatp1.o<1.ibimpo11map1.o<1.ib.pyp1.otaspitnp.random.sccd(1.)x=np.random.randint(0.1<K),50)y1=0.8x+np.random.norma1.(0.1.5.50)y2=1.(XK).7*x+np.random.norma1.(0.1.5.50)y3=np.rand>n.randin1.(0.1.(X).50)r1.=np.co11rf(x.y1>r2=np.corrcocRx,y2)r3=np.corrcocf(x,y3)1.0.849224550.849224551.1.-0.84225625-0.842256251.1.0.048487660.048487661.图I计算相关性系数2 .绘制相关性散点图fig-pit.figure()p1.t.subp1.ot(151)pit.scatter(x,y1.co1.or-'k*)pit.subp1.ot(153)pit.scattor(x>y2,co1.or='k,)pit.subp1.ot(155)pit.scatter(x,y3,co1.or=*k*)print(rDprint(r2)print(r3)pit.show()1006020100图2绘制相关性做点图相关性例题练习importnumpyasnpimportnutp!ot1.ibimportna(p1.t1.ib.pyp1.o1.asphnp.,andom.seed(1.)x=np.array(1.4.2J6.4J.9J5.2J8.5,22.IJ9.4,25.1.23.4J8.1,22.6J7.2)y=np.array(215.325.1X5.332.4()6,522,412,614.544.421.445.408)r=np.corrcef(x.y)fig=ph.figure()ph.scattcr(x5y,co1.or='k,)print(r)p1.t.show()1.0.957506620.957506621.60050040030020012141618202224图3例题练习七、注意事项1 .注意计尊相关系数的两个变优的长度要相同2 .NumPy(NUmcriCa1.PyIhOn的缩耳)是一个开源的Py1.hOn科学计算库使用NUmPy,就可以很自然地使用数现和矩阵,NumPy包含很多实用的数学函数,涵盖线性代数运算、博电叶变换和1.机数生成等功能,主要介绍,下NUmPy中CorrCoef方法的使用。numy.cocoefnumy.cocoef(x,y=None,rowvar=T>e.bias=VnOva1.ue>,ddof=<nova1.ue>)source)返何皮尔逊积矩相关系数.R的值介于-I和I之间,包括崩值.参数:X:array-1.ikc包含多个变址和观察f的一雉或二维数组.X的每一行代表一个变麻.每一列都是对所有这些变属的次观察.另请参阅下面的rowvar,y:数组.可选一组额外的变量和观察结果.>>与X具疔相同的形状.rowvar:布尔里,可选如果11>wvar为TrUa默认),则部一行代表一个变量,列中包含观察伍。否则,关系被转汽:好列代表一个受麻,而行包含观察值.bias:.NoVa1.ue,可选没有效果,请勿使用0ddof:_NoVa1.uc,可选没有效果,请勿使用.dtype:数楙类型可选结果的数据类型。默认侍况卜,返回数据类型符至少具有numpy.Ww64精度.注由由于浮点舍入,结果数里可能不是Iknnitian,对角戏元素可能不是I,元素可能不满足不等式abs(八)<=k实部和康郡被裁剪到区间/1.1)试图改善这种情况,但在处杂的情况下并没有多大帮助。此函数接受但去充多数偏差和ddof,这是为了向后兼容此函数的先前版本,这些多数对函数的返回值没有影响,可以在这个和以前版本的IUHnPy中安全地忽略。八、思考与修习1 .相关性系数的计算公式W)=产(XmiyVarXVarK其中.COV(X.Y)为X与Y的协方差VaHXI为X的方差,Var1.Y)为Y的方差2 .相关性系数的取t范围相关系数衡量的机变显X与丫相关程度的一种方法,相关系数的取值范围是卜1.1.相关系数的绝对值越大,则表明X与丫相关度越高.当X与丫线性相关时,相关系数取值为1正线性相关)或-1(负线性相关).具体的,如果行两个变及:X、Y.最终计算出的相关系数的含义可以有如下理耨:当相关系数为。时,X和丫两变量无关系。当X的值增大(然小),Y值增大(减小),两个变瑶为正相关,相关系数在0.00与1.00XfHk当X的俏增大(减小,丫值减小(增大),两个变收为仇相关,相关系数在.1.00与0.00之间。九、实舱报告整理实验数据,分析实验数掘.编制实验报告.实验二等深分箱一、实舱目的1 .掌握等深分箱的概念2 .掌握等深分箱的求解过程3 .能够用PythOn谙*进行等深分箱二、实验任务任务一:根据给出的数据进行等深分箱任务二:描述等深分箱的过程与含义任务三:至少用2种方法进行局部平滑三、实验原理(部分母程可以刷除此9D分箱:分箱方法是一种简IR常用的预处理方法,通过考察相第数据来确定最终值.所谓(I)去平均彼,即每一位特征战去各自的平均值:(2)计免协方差矩阵:(3)计算协方差矩阵的特征值与特征向量:(4)对特征值从大到小排序:(5)保留最大的个特征向量:(6)将数据转换到个特征向量构建的新空间中。5.PCA算法实现一般流程:(1)对数据进行归一化处理:(2)计算归一化后的数据集的协方差矩阵:(3)计算协方差矩阵的特征值和特征向ht:(4)保用最曳要的k个特征(通常k要小于n:(5)找出k个特征值相应的特征向麻(6)将mn的数楙集乘以k个n维的特征向量的特征向量(n»k).得到最后降维的数据.九、实验报告整理实险数据,分析实脸数据,端制实验报告.所有父娘都是非婉祭的,基本概念关联分析关联分析是一种在大规模数据集中寻找相互关系的任务.这些关系可以有两种形式:频繁项集(frequenttcmscts):经常出现在一块的物品的集介.关联规则(Ossociationa1.ruIes):暗示两种物品之间可能存在很强的关系.频繁项柒:砌电酒.尿布.。奶)就是一个频繁项集的例子.关联规则:尿布->你国酒就是一个关联规则。这意味新如果顼客买了尿布,那么他很可能会买郁的酒,支持度:数据集中包含该项集的记录所占的比例,例如上图中,豆奶)的支持度为4/5,豆奶,尿布的支持度为3/5.可信庾:针对条诸如尿布->简奇酒这样具体的关联规则来定义的。这条规则的可信度被定义为支持度(尿布,葡荷酒"支持度(尿布),支持度(尿布,葡葡酒)=3/5,支持度(尿布)>=45,所以尿布>(施萄酒)的可信度=3/5/4/5=3/4=0.75.支持度和可信度是用来量化关联分析是否成功的一个方法.假设想找到支持度大于0.8的所有项集,应该如何去做呢?一个办法是生成一个物品所有可能组合的清单.然后对每一种现合统计它出现的频繁程度,但是当物品成千上万时,上述做法就非常非常慢了.我们需要详细分析卜这种侍况并讨论卜Apriori原理,该原理会减少关联规则学习时所需的计算量。k4集如果步件A中包含k个元素,那么林这个小件A为k项集,并且5件A满足最小支持度H1.值的M件称为频繁k项集.由频繁项集产生强关联规则K维数据项集I.K是领繁项集的必要条件是它所有K-I维子项集也为物箔墓佻,记为1.K-I如果K维数据项集1.K的任意一个K-I维子集1.k-I,不是频繁项集.则K维数据项集1.K本身也不是最大数据项集.1.k是K维领繁项集,如果所有K-I维猱繁项集合1.k-I中包含1.K的K-I维子项集的个判定挖料出1.2,即版繁二项集:不断如此错环下去直到无法发现更多的物繁k-顶«1为止.每挖妲一层1.k就需要扫描整个数据库一遍.算法利用了一个性质:任一物繁攻集的所有非空子集也必须是颇繁的.七、实验步imx>ttpandasasPdimx>nitertw1.sasit1.sdata=F饮料:鸡腿,常蜜面包冲奶;奶酪I面包;牛奶网酪,鸿费.'纸尿裨,蜂蜜Ir啤酒;纸尿裤'M头;面包:奶酪:果酱1啤酒;纸尿梅:饮料,明艇;牛奶'网酪1r啤酒;纸尿裤,.饮料蜂资1M科纸尿裤.果酱面包;牛奶奶酪RData种何渡河阀押饮面啤啤啤饮牛纸,,9,TiJ,,、包帽督包包蛋面鸡蜂面面鸡,,J,头料料得蜜酪罐饮饮果蜂奶,,,拂柞押押腿奶尿尿尿尿鸡牛纸纸纸纸,裤酪奶奶尿奶牛'奶酪'蜂蜜'果酱'奶酪牛奶奶酪图1关联规则案例第一步创建初始候选I-项集defcreate1(data_sct):# 候选项I项第# 构建初始候选项集的列表.即所仃候选收集只包含个元素# 如果项集中元素在数据佻中则计数forrecordinda1.a_sc1.:#对每一条交易记录foritemin对母一个候选项集item,检查是否是事务库的一部分,即该候选item是否如到record的支持ifitcm.issubsct(rccord):#sct.issubsct()JIJ干判断集合的所有元豫是杏郡包含在指定集合当中ifitemnotinitcm_count:itcm_count|itcm|=1e1.se:item.counti(em+=I(htajen=f1oat(1.en(data_sct)#总交易次数# 计算项集支持度foriteminitcm_onint*满足支挣改大于最小支持度的Ck子集添加到版繁项集1.k中,最终返回频繁k项集if(itCn1.COUntmCm/(IataJcn)>=min_support:frcq_sct.add(itcm)supportitcm=i1.em_coun1.(i1.em/data_1.enprin(i(em_count)returnsupportmin_support=0.5Ifrozenset(啤酒,frozenset(,纸尿裤,frozenset(,牛奶','frozenset(面包','frozenset(牛奶','frozenset(蜂蜜','frozenset(牛奶,frozenset(啤酒','frozenset(,纸尿裤,frozenset(啤酒','frozenset(奶酪','frozenset(啤酒','frozenset(啤酒','frozenset(奶酪','frozenset(,纸尿裤',frozenset(啤酒','frozenset(牛奶','frozenset(蜂蜜,frozenset(奶酪','frozenset('奶酪','frozenset(奶酪',',1.1.z9,1.)1.),1.,n1.x1.包蜜裤裤料裤包面三,w,杆仞姆蝌i尿件尿,监尿包科包姆面,蜂饮饮饮面牛,蜂纸饮纸蜂,奶纸面饮面牛图5从骄繁k项集产生候选的k+1项集筛选频繁k+1项佻gcncratc,frcq_support(data.C2.min_support)1v'.'r'1.2.*«h'.tin(I):工t)a."RW>:frM><'»*.'A1.t*I:1.fr<4cMf<Htt>.HU,I>frowM<P,!.11r>1.ZhXFOV.Sirm,he-<mT.tkK"J.frwwHW.'f1.itt):&,EMXQfi三.Ff,:4.frwz,一t.<MihXfro8Mt(r.'U1.M*':2:1r,.c.n三.H'1.>:4.MMH*;Xim<whWM,.,(1.1.:I.rr«mt<W'.'mJM,):Xfrw>W.'f<.>:2.fr<<wt(WM,.WI>:>>fEFxMiyir."!MG":2fww«»K«,aKW.H,:3.frtwmK'W'.ari»:1,frozenset(,牛奶',frozenset(牛奶,frozenset(C奶酪',frozenset(,奶酪',frozenset(奶酪,'饮料'):'面包'):'饮料'):'面包'):0.5,0.5,0.5,0.6666666666666666,'牛奶'):0.6666666666666666,0.5,0.6666666666666666,0.5,0.5,0.5frozenset('纸尿裤','面包'):frozenset(奶酪纸尿裤):frozenset(牛奶','纸尿裤'):frozenset(啤酒纸尿裤'):frozenset(纸尿裤,饮料'):图6筛选频繁k+1项集MCP3、SteP4循坏执行直至无法组合新项集defapriori(daiaSet.min-support=0.5):*通过循环得到1.I.1.2»1.3C1.=Crea1.CKdata)1.I-gcneracc_f'rcq_support(totaScc,C1.,min>upp<Ht)1.=1.II#1.-argc-itcmsc<swhi1.e1.en(1.k-2)>1:Ck=aprioriGen(1.isi(1.fk-21.keys()1.k=gcncrate-1.rcq-support(dataSct,Ckmin_support>ifIcn(1.k)>0:1.appcnd(1.k)k+三1e1.se:break#F1.atten(heIreqSe1.sd=for1.kin1.:(1.updatc(1.k)returnd1.=apriri(dii1.a.min_suppor1.)fmmwr(1.>*'I:Xrr*M«e<'2.rr«4wrf*iWJ'I4.Cr*a«nwt<:'IX1'H4.CammmK*Mi');(<>:4.aw>:Afrxwt<*»>:):I.frotM<1.,W>>:1frwM1.'tW!2.frt<w0W'1.>:“fro*mt1.I*T*'."tt<'H:2.frmt*'*.'ttIV?J:2.fr<4TWJ"."R1.">:Xfr<umMt<'H*'."tt>):2.fr4wut(三.'T':afrWM*!.»ri>:工fx4mwt<r*.'«*I:2.f<<4wnW.'tt):1rr0MM<(M'.*tt'i*.4.frwnwu«'.,M')1.fMMI.f1.1.M*>!frww<<,H1,.aKJ>:2.fmnt<W,'f1.V:4.fr*wO1f.飙“):Xfro<M(W4T.e|e|>:I.frw11wt<W*.ftKW1.1.:).frwM<<,.W,):NfrwMtW'1J,>:I.frxarCfW'.'t1.Wi::,MKW.,aVj1.:Xfr<*tw1.,WIT.Wt'1.>:I:(MwmMurw,.,tt,i'>>:xfB*xtH'wr.长.p”H2.皿卬小('W.,ti,.,)K(皿”“川惊.,1t.R>:Xfrowawt<,«<,.三.<MMh1IW.14.<Mk):£ers盘甯.FW.1r»:2.frwc*t-WfT1,<KWU::.11WM<1(G.工frwt<f1.'.'<KT'ftM,>zZfrort<<<WM'.*MWt,1.>!i.f11>HMt<1.'<M.,1W.,01.H,hZ«»'.<««:):2.frf11,.,tt.'MMI)!I1.frowt(t>.*ttH.,三HI:工rm<M*t*1W.(<M<I'.'M'.*M')>:Xfras*M«t<,MMM*.'Tff.,ttt1,.,1tt*I1.t幻图7筛选短繁k+1项集Apriori算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘.挖掘出的这些信恩在决策制定过程中具有重要的参考价值.Apriori算法广泛应用于消费市场价格分析中它能蜂很快的求出各种产品之间的价格关系和它们之间的影响.通过数据检掘,市场商人可以瞄准目标客户,采用个人股票行巾、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从而极大地减少广告预算和增加收入。百货商场、超市和一些老字型大小的零售店也在进行数据挖掘,以便猜测这些年来顾客的消费习惯。Apdori算法应用于网络安全领域,比如网络入侵检测技术中。早期中大型的电脑系统中都收集审计信息来建立跟踪档,这些审计踉踪的Em的多是为了性能测试或计也,因此对攻击检测提供的fj11J信息比较少。它通过模式的学习和训练可以发现网络用户的异常行为模式屎用作用度的APriori蜂法削弱/Apriori算法的挖掘结果规则,是网络入侵检测系统可以快速的发现用户的行为模式,能的快速的锁定攻击者,提高了基于关联规则的入侵检测系统的检测性.Apnori算法应用于高校管理中.随着高校贫困生人数的不断增加学校管理部门资助工作难度也越加增大.针对这一现象,提出一种基于数据挖掘算法的解决方法.将关联规则的APr沁ri算法应用到贫困助学体系中,并且针财经典APri而控掘算法存在的不足进行改进,先将事务数据库映射为一个布尔矩阵,用一种逐层递墙的思想来动态的分配内存进行存储,再利用向眉求”与”运笄.寻找颇繁项集.实验结果衣明,改进后的APriori算法在运行效率上有了很大的提升,挖掘出的规则也可以有效地辅助学校管理部门有针对性的开展贫困助学工作。Apdori算法被广泛应用于移动通信领域,移动增位业务逐渐成为移动通信市场上最有活力、最具潜力、最受培目的业务.H1.着产业的红芳,越来越多的增f业分变现出强劲的发展势头,呈现出应用多元化、营销M牌化、管埋集中化、合作纵深化的特点.针对这种趋势.在关联规则数据挖掘中广泛应用的Apriori算法被很多公E应用.依托某电信运营商正在建设的增值业务WCb数据仓库平台对来自格动增值业务方面的调查数据进行/相关的挖掘处理,从而获得关于用户行为特征和需求的间接反映市场动态的有用信息.这些信息在指导运营商的业务运营和辅助业务提供商的决策制定等方面具有卜分重要的参考价值.人、思考与蛛习1 .如何从频率项集中寻找关联规则2 .如何对APriBi算法进行优化垂口数据分布关Iii点:相当于把原始数据进行行转列的操作,弁且记录每个元素的个数九、实3报告整理实验数据,分析实聆数据,编制实验报告.实验六关联规则FP-growth一、实验目的1 .掌握频繁项集与关联规则的概念2 .掌握FP-SroWth算法3 .修用pythnn谱有完成FP-growth算法二、实验任务任务r简述FP-growth的班本原理任务1:根据数据完成FPgrOWIhW法任务三:简述Apriori与FP-grow<h之间的区别三、实验原理(部分it程可以除此90PP-growth算法是基于APriOri原理的,通过将数据集存他在FP(FrrqucntPattern)树I:发现颇繁项集,但不能发现数据之间的关联规则.FP-grOWth算法只偌要对数据库进行两次扫描,而Apriori舞法在求每个潜在的频繁项集时都需要扫描一次数据集,所以说Apriori律法是高效的,其中算法发现频繁限集的过程是:U)构建FP树:(2)从FP树中挖妲频率项集.四、实险设备1.Wndows电脏4 .鼠标5 .犍盘五、实物准备1 .导入必要的模块2 .需要的数据集3 .熟悉FP-growth的基本原理Tab1.eau9Mat1.ab13python3图i展示树1.t1.jFuMat1.abw和“python"都是"TabICaUu,所以在展示树的结构时.“Mat1.ab”和“pyihon”的缩进深度相同,都比"Tab1.eau”的墙.进深度更深一级.除此之外,我们还需要把原始事务数据集处理成字典的形式,方面后面的函数调用.2.构城FP树Fp树第一次扫描数据库是为了获得旬个元素项的出现频率。实现这一步的代码如卜(注;代码中dataSet是经过上面的CreaieIniiSeUdataSeO)函数处理后的数据结果,也是个字典结构In(31:defCrea1.eTree<daiaSe.ninSu=I):hcadcrTab1.e=用来存储框顶元素及其出现次数#第一次扫描数据集IbrtransindaiaSet游遍.历每条记录,计算item出现频数foritemintrans:#遍历f条记录的每项元素IieaderTabIeIitemI=headerTab1.e.gc1.(item.0)+dataS风(TanSW计算每元索的出现次数headerTab1.e=(k:vfork.vinheaderTab1.e.items()ifV>-minSupfreqh

    注意事项

    本文(《数据分析与挖掘技术》实验指导书.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开