《数据分析与挖掘技术》实验指导书.docx
《《数据分析与挖掘技术》实验指导书.docx》由会员分享,可在线阅读,更多相关《《数据分析与挖掘技术》实验指导书.docx(45页珍藏版)》请在课桌文档上搜索。
1、校企合作共编实验讲义数据分析与挖掘技术实验指导书,t.4一刖三本书是编者在多年教学经验基础上,根据职业本科培养目标的要求,结合电子技术新的发展而编写的“作为职业本科院校电子、自动化、通信类等专业数字电子技术实验课程操作指导用书,也可供从事电子技术的工程技术人员参考。教材在内容安排上,以应用为目的,以“必需、够用”为度,将理论知识的讲授与学生能力的培养有机地结合起来。在加强必备的战础知识的前提下,保证内容的实用性。尽量做到深入浅出、删繁就简、重点突出。本书遵循“理论够用、重在应用”的指导思想,将知识点困人到实例中,讲解细致,操作简单,内容F富、实用,图文并茂,实践性强。本书为了巩固学生的学习成果
2、,每章均附有课后训练项目及练习题,以期激发学生的学习兴趣,并使学生通过实验与习题获得能力的提而.由于编写时间仓促,加之编者水平有限,难免有不足或疏漏之处,恳请读者批评指正。编者2021年5月实验一相关性系数I一、实验目的1二、实险任务1三、实验原理(:以删除此项II四、实验设备4五、实验准爸4六、实脸步骤5七、注遨事项8八、思考与练习9九、实验报告IO实险二等深分箱10一、实验目的10二、实验任务IO三、实验原理部分课程可以删除此项)IO四、实险设需13五、实脸准备13六、实验步骡15七、注意“项20八、思考与练习20九、实验报告20实验三等宽分箱21一、实验目的21二、实验任务21三、实验原
3、理(部分课程可以删除此项)21四、实验设备21五、实骁准法23六、实验步臊27七、注意小项33八、思考与练习34九、实验报告35实瑛四主成分分析36一、实验目的36二、实验任务37三、实验原理(部分课程可以删除此项)37四、实险设的3931.实验准备39六、实验步骤40七、注意小项47八、思考与练习47九、实验报告48实验五关联规则APriori49一、实验目的49二、实脸任务49三、实验原理(部分课程可以删除此项)49四、实验设备51五、实验准备51六、实舱步骤52七、注意事项59八、思考与练习61九、实验报告61实险六关联规则FP-grwih62实险目的62二、实验任务62三、实验原理(部
4、分课程可以删除此项)62四、实脸设符62五、实验准备62六、实验步骡63七、注意5项72八、思考与练习72九、实验报告72实验七决策树73一、实验目的73二、实验任务73三、实验原理部分课程可以IW除此项)75四、实验设备76五、实验准卷76六、实脸步探83七、注意事项85八、思考与缥习86九、实验报J86实般八战性回归87一、实验目的87二、实验任务87三、实验原理部分课程可以删除此项)87四、实脸设备88五、实验准备88六、实验步骡88七、注意小项89八、思考与练习91九实验报告91实验九DBSCAN聚类92,、实验目的92二、实险任务92三、实验原理(部分课程可以删除此项)92四、实验设
5、备92五、实验准备92六、实脸步臊93七、注意事项93八、思考与练习93九、实验报告93实验卜KmeanS聚类1一、实验目的1二、实验任务I三、实验原理(部分课程可以删除此项)1四、实脸设得1五实验准备1六、实验步骤2-匕、注一事项2八、思考与练习2九、实验报告2实验一相关性系数一、实3目的1 .掌握相关性分析的概念2 .能膨FHPyI1.Hm求解相关性系数3 .能够用python绘制欣戊图二、实舱任务任务一:根据给出的数据求解相关性系数任务二:绘制散点图,裤糅绘制的图形的含义三实验!理(部分课程可以除此项)相关系数是最早由统北学.家K尔皮尔逊设计的统计指标,是研究变盘之间线性相关程度的吊:,
6、一般用字母r表示。由于研究对象的不同,相关系数有多种定义方式,较为常用的是皮尔逊相关系数相关表和相关图UJ反映两个变居之间的相互关系及其相关方向,但无法确切地表明两个变成之间相关的程度,相关系数是用以反映变砥之间相关关系密切程度的统计指标,相关系数是按积差方法计算,同样以两变最与各自平均侑的离差为基础,通过两个离差相柒来反映两变局之间相关程度:虫研究成性的单相关系数,需要说明的是,皮尔逊相关系数并不是唯一的相关系数.但是最常见的相关系数,以下解择都是针对皮尔逊相关系数.依据相关现象之间的不同特征,其统计指标的名称有所不同.如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判
7、定系数):符反映两变及间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数:符反映多元线性相关关系的统计指标称为复相关系数、复判定系数等.相关关系是一种泮确定性的关系,相关系数是研究变量:之间线性相关程度的量,由于研究对象的不同,相关系数有如下几种定义方式“商单相关系数:又叫相关系数或线性相关系数,一般用字母r表示,用来度量:两个变电间的线性关系,红相关系数;又叫多费相关系数.发相关是指因变革与多个自变址之间的相关关系,M如,某种商品的季节性需求麻与其价格水平、职工收入水平等现象之间呈现笈相关关系.典型相关系数:是先对原来各组变盘进行主成分分析,得到新的税性关系的综合指标,再通过琮合指标
8、之间的线性相关系数来研咒原各组变fit间相关关系.NumPy是一个开源的Python库.主要用在数据分析和科学计算.基本I:可以把NUmpy看做是Pvthon数据计6的基础,因为很多非常优秀的数据分析和机器学习框架底层使用的都是NUmPy。比如:Pandas.SciPy.Miitp1.o1.1.ib.scikit-1.ea11,scikit-image等。NumPy库主要包含多维数组和矩阵数据结构。它为ndamy(一个n维数组对象提供了对其进行有效操作的方法。NUmPyUJ以用于对数祖执行各种数学运算。并H.提供了可在这些数组和矩阵上运行的庞大的高皱数学函数库,Pyihon中有一个数据类型叫做
9、1.isi,1.ist中可以存储不同种类的对象。在应用程序中这样做没有什么问题,但是如果是在科学计算中,我们带一个数殂中的元素类型必须是一致的,所以有了NUmPy中的Array,NumPy可以快速的创建Array.并且时其中的数据进行操作.NumPy中的AITay要比Py1.hon中的1.iSI要快得多,并H占用更少的内存空间.什么是NumPy?NumPy是用于处理数组的python库.它还掘有在线性代数、傅立叶变换和矩阵领域中工作的函数.NumPyi1.1.TravisO1.iphant于2005年创建.它是一个开源项目,您可以自由使用它.NumPy指的是数值Python(Numerica1
10、.Py1.hon)。为何使用NumPy?在Python中,我们有满足数组功能的列表,但是处理起来很慢。NumPy旨在提供一个比传统Pvthon列表快50倍的数组对阪,NumPy中的数组对象称为Marray,它提供了许多支持函数,使得利用ndaay常名勒.数组在数据科学中非常常用,因为速度和资源非常玳要.数据科学:计算机科学的一个分支,研究如何存储、使用和分析数掘以从中兼取信息.为什么NumPy比列表快?与列表不同.NumP)数组存谛在内存中的一个连续位置.因此进程可以非常疗效地访问和操纵它们.这种行为在计算机科学中称为引用的对部性.这是NUmPy比列我更快的主要原因,它还经过了优化,可与最新的
11、CPU体系结构一同使用.NumPy用哪种语言编写?NUmPy是一个Python阵,部分用Py1.hon编写,但是大多数需要快速计算的部分都是用C或C+编写的。NumPy代码N在哪里?NumPy的源代码位于这个github贷料阵中:htpsgithub.conVnumpynmpygiihub:使许多人可以在同一代码库上工作。1.Python最景耍的绘图工具如今数据分析最常用的两种编程瑞吉分别为R和Python,其中R作为老牌的数据分析谱吉.集成了大fit的数理统计、经济学常用的工具,是数据分析必备的第程语音。而近几年Python凭借其强大的生态,行许多开源的数据处理模块.如Numpy.Panda
12、s.scipy.Matp1.ot1.ib.SKIcarn等,一跋成为数据分析编程语言的黑9.说到使用Python进行数据UJ视化,最重要的模块便是Ma1.p1.o1.1.ib,其期初是模仿Matp1.ot1.ib的方式开发的绘图模块,经过迭代己经可以成熟的对NUmPy和Pandas进行兼容.使用起来方便而快Mb另一方面,像SCabom等更加高级的模块也是在MEP1.OWb时,你会收到类似【无命名模块和模块名称的锵误,这意味着你还需要安装该模块.一个常见的问即是缺少名为six的模块.这选味着你需要使用PiP安装S1.Xo或者,你Ur以前往Matp1.ot1.ib.org并通过访问卜或页面卜或适当
13、的版本进行安装。请记住,因为你的操作系统为M位.你不一定禽要64位版本的Py1.hsu如果你不打算鲁试64位,你可以使用32位。打开ID1.E并阅读顶部。如果它说你是64位,你就是64位,如果它说是32位,那么你就是32位.一旦你安装了Pymon,你就做好了准备.你可以编写任何你想要的逻辑.我喜欢使用ID1.E来编程,但你可以随意使用任何你喜炊的东西.importmatp1.o1.ib.pyp1.otasph这一行导入集成的PyPM我们招在整个系列中使用它.我的将PyP1.ot导入为Pk这是使用PykH的pyihon程序的传统惯例.p1.t.p1.o(1.2.3.1.5.7.4)接卜来,我们调
14、用PkH的PO方法绘制一线坐标,这个pkM需要许多参数,但前两个是和T坐标,我们放入列表。这懑味蕾,根据这些列去我们拥有3个坐标:1.52.7和3.4。ph.p1.o(在后台绘制J这个绘图,但绘剌了我们想要的一切之后,当我们准;好的时候,我们衢要把它带到屏幕上。p1.thow()辿过numpy的CorrCOCf函数计免出相关系数,再通过matp1.odib进行可视化.四、实验设备!.WindowsB3 .以标4 .键盘五、实睑准备1 .导入必要的模块2 .加载数据3 .相关性系数计算与散点图绘制4 .相关性系数的理论知识皮尔逊相关系数泅盘变地之间的线性关联.它的值可以这样解择:+1-完全正相关
15、+0.8-强正相关+0.6中等正相关0无关联 0G中度负相关 OA强烈的负相关 I-完全负相关我们将说明相关系数如何BS不同类型的关联而变化.在本文中,我们还将显示零关联并不总是意味着零关联。非线性相关变量的相关系数可能接近零。皮尔逊相关系数是多少?皮尔逊相关系数也称为皮尔逊枳矩相关系数它是两个随机变成X和Y之间线性关系的度;丸在数学上,如果(OXY)是X和丫之间的协力差,并且(OX)是X的标准偏差,则皮尔逊相关系数P可以由下式给出;使用Numpy的Python中的Pearson相关系数皮尔逊相关系数可以使用COf1.rCOefONUmPy中的方法在Python中计算。此函数的输入通常是一个矩
16、阵,例如SiZCmXn,我中:每列代衣一个叨机变显的伯每行代奏一个n的机变fit样本11代表不同随机变盘的总数m代表每个变量的样本总数对于n随机变量,它返回一个nxn方矩阵M,其中M(ij)指示了随机变量i和之间的相关系数j,由于变随与变景自身之间的相关系数为1,因此所有对角线项(ii)均等于1.六、实验步1 .计算相关性系数ino11nunpyasnimportmatp1.o1.ibimpo11map1.o1.ib.pyp1.otaspitnp.random.sccd(1.)x=np.random.randint(0.1n.randin1.(0.1.(X).50)r1.=np.co11rf(
17、x.y1r2=np.corrcocRx,y2)r3=np.corrcocf(x,y3)1.0.849224550.849224551.1.-0.84225625-0.842256251.1.0.048487660.048487661.图I计算相关性系数2 .绘制相关性散点图fig-pit.figure()p1.t.subp1.ot(151)pit.scatter(x,y1.co1.or-k*)pit.subp1.ot(153)pit.scattor(xy2,co1.or=k,)pit.subp1.ot(155)pit.scatter(x,y3,co1.or=*k*)print(rDprint(
18、r2)print(r3)pit.show()1006020100图2绘制相关性做点图相关性例题练习importnumpyasnpimportnutp!ot1.ibimportna(p1.t1.ib.pyp1.o1.asphnp.,andom.seed(1.)x=np.array(1.4.2J6.4J.9J5.2J8.5,22.IJ9.4,25.1.23.4J8.1,22.6J7.2)y=np.array(215.325.1X5.332.4()6,522,412,614.544.421.445.408)r=np.corrcef(x.y)fig=ph.figure()ph.scattcr(x5y,
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析与挖掘技术 数据 分析 挖掘 技术 实验 指导书
链接地址:https://www.desk33.com/p-1777867.html