欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    2023Python大数据特征与算法分析.docx

    • 资源ID:1081635       资源大小:285.72KB        全文页数:49页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2023Python大数据特征与算法分析.docx

    Pythorl大数据特征与算法分析目录第1章大数据分析概述31.1 大数据分析背景31.2 大数据分析的应用41.3 大数据分析算法51.4 大数据分析工具81.5 小结11第2章数据特征算法分析122.1 数据分布性分析122.2 数据相关性分析242.3 数据聚类性分析302.4 数据主成分分析342.5 5数据动态性分析422.6数据可视化462.7小结48第1章大数据分析概述大数据作为时下火热的IT行业的词汇,随之而来的数据仓库、数据安全、数据分析、数据挖掘等围绕大数据商业价值的利用,逐渐成为行业人士争相追捧的利润焦点。随着大数据时代的来临,大数据分析应运而生。1.1 大数据分析背景1 .大数据的狭隘定义大数据(BigData)是指无法在特定时间范围内用规范化手段进行捕获、处理和筛选的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2 .大数据的产生“大数据”的名称来自于未来学家托夫勒所著的第三次浪潮,自然杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。2004年出现的社交媒体则把全世界每个人都转变成了潜在的数据生成器,向摩尔定律铸成的巨鼎中贡献数据,这是“大容量”形成的主要原因。3 .大数据的特征 容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息。 种类(Variety):数据类型的多样性。 速度(Velocity):指获得数据的速度。 可变性(VariabiIity):妨碍了处理和有效地管理数据的过 程。真实性(Veracity):数据的质量。 复杂性(Complexity):数据量巨大,来源多渠道。 价值(VaIUe):合理运用大数据,以低成本创造高价值。4 .大数据的结构大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。5 .大数据分析大数据分析的产生旨在IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后进行大数据分析并发现它们所需的模型。反过来,帮助预测和预防未来运行中断和性能问题。6 .大数据分析的意义现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物。阿里巴巴创始人马云在演讲中就提到,“未来的时代将不是IT的时代,而是DT的时代”,DT就是DataTechnology(数据科技),可以看出大数据对于阿里巴巴集团来说举足轻重。有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更重要。对于很多行业而言,如何利用这些大规模的数据是赢得竞争的关键。1.2 大数据分析的应用未来将是一个“大数据”引领的智慧科技的时代,随着社交网络的逐渐成熟,移动带宽迅速提升,云计算、物联网应用更加丰富,更多的传感设备、移动终端接入网络,由此产生的数据及增长速度将比历史上的任何时期都要多、要快。虽然大数据在不同领域有不同的应用,但是总的来说,大数据的应用主要体现在三个方面,分别是分析预测、决策制定和技术创新。同时,大数据在很大程度上推动了人工智能的发展。1 .分析预测分析预测是比较早的落地应用之一,同时能够比较直观地获得价值,所以当前大数据的场景分析依然是比较重要的落地应用。分析预测涉及的行业非常多,比如舆情分析、流感预测、金融预测、销售分析等,随着传统行业信息化改造的推进,数据分析将是比较常见的大数据应用。2 .决策制定决策制定通常是大数据应用的重要目的,销售部门需要根据数据分析来制定产晶的销售策略,设计部门需要根据数据分析来制定产品的设计策略,生产部门需要根据数据分析来优化生产流程,人事部门需要根据数据来衡量员工的工作价值从而制定考核策略,财务部门需要根据数据分析来制定财务策略,等等。通常来说,数据分析一个重要的目的就是为了制定相应的策略。3 .技术创新大数据应用能够全面促进企业创新,不仅体现在技术创新上,还体现在管理创新上。通过数据能够挖掘出更多关于产品和市场的信息,这些信息会指导企业进行相应产品的设计,以满足市场的需求。同时在企业管理方面,以数据为驱动的管理方式能够极大地调动员工的能动性。1.3 大数据分析算法1 .大数据分析与数据分析的区别大数据分析是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息处理模式。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,从而对数据加以详细研究和概括总结的过程。大数据分析的优势是能清楚地阐述数据采集、大数据处理过程及最终结果的解读,同时提出模型的优化和改进之处,以利于提升大数据分析的商业价值。大数据分析与数据分析的核心区别是处理的数据规模不同,由此导致两个方向从业者的技能也不同。大数据分析与数据分析的根本区别是分析的思维与分析所用的工具不同。2 .机器学习和数据挖掘的联系与区别从数据分析的角度来看,数据挖掘与机器学习(MachineLearning,ML)有很多相似之处,但不同之处也十分明显,例如,数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,数据挖掘中的数据分析是针对海量数据进行的,从某种意义来说,机器学习的科学成分更重一些,而数据挖掘的技术成分更重一些。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断改善自身的性能。数据挖掘是从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习领域提供的数据分析技术,以及数据库领域提供的数据管理技术。机器学习不仅涉及对人的认知学习过程的探索,还涉及对数据的分析处理。实际上,机器学习已经成为计算机数据分析技术的创新源头之一。由于儿乎所有的学科都要面对数据分析任务,因此机器学习已经开始影响计算机科学的众多领域,甚至影响计算机科学之外的很多学科。机器学习是数据挖掘中的一种重要工具。然而数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪声等实践问题。机器学习的涉及面很宽,常用在数据挖掘上的方法是“从数据学习”。然而机器学习不仅仅可以用在数据挖掘上,一些机器学习的子领域甚至与数据挖掘关系不大,如增强学习与自动控制等。3 .统计学习与机器学习的联系与区别统计学和机器学习之间的界定一直很模糊。无论是业界还是学界一直认为机器学习只是统计学披了一层光鲜的外衣。而事实是统计学与机器学习的不同,统计模型与机器学习的不同。机器学习和统计的主要区别在于它们的目的。机器学习模型旨在使最准确的预测成为可能。统计模型是为推断变量之间的关系而设计的。首先,我们必须明白,统计和统计建模是不一样的。统计是对数据的数学研究,除非有数据,否则无法进行统计。统计模型是数据的模型,主要用于推断数据中不同内容的关系,或创建能够预测未来值的模型。通常情况下,这两者是相辅相成的。机器学习通常会牺牲可解释性以获得强大的预测能力。例如,从线性回归到神经网络,尽管解释性变差,但是预测能力却大幅提高。统计模型与机器学习在线性回归的应用上是有差异的,或许是因为统计建模和机器学习中使用方法的相似性,使人们认为它们是同一类算法,但事实上不是这样的。统计模型和机器学习在回归分析建模方法的相似性,是造成这种误解的主要原因,其实它们的目的是不同的。线性回归是一种统计方法,通过这种方法既可以训练一个线性回归器,又可以通过最小二乘法拟合一个统计回归模型。机器学习(这里特指有监督学习)的目的是获得一个可反复预测的模型,通常不关心模型是否可以解释,只在乎结果。而统计建模更多的是为了寻找变量之间的关系和确定关系的显著性,恰巧迎合了预测。4 .统计学与数据挖掘的联系与区别统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,有人认为数据挖掘是统计学的分支。这种看法有偏差。因为数据挖掘还应用了其他领域的思维、工具和算法,尤其是计算机科学技术,例如数据库技术和机器学习,而且数据挖掘关注的某些领域和统计学家关注的有很大差别。5 .大数据分析的10个统计方法数据分析师不完全是软件工程师,应该是编程、统计和批判性思维三者的结合体。统计学习是培养现代数据分析师的一个基本素材。下面分享10个统计方法,任何数据分析师都应该学习,进而更高效地处理大数据集。(1)线性回归线性回归是一种通过拟合因变量和自变量之间的最佳线性关系来预测目标变量的方法。线性回归主要分为简单线性回归和多元线性回归。简单线性回归使用一个自变量,通过拟合一个最佳线性关系来预测因变量;而多元线性回归使用一个以上的自变量来预测因变量。(2)分类分类是一种数据挖掘技术,用来将一个整体数据集分成几个类别,以便更准确地预测和分析。(3)重采样方法重采样是从原始数据样本中反复抽样的方法,是一种非参数统计推断方法。重采样在实际数据的基础上生成唯一的抽样分布。(4)子集选择子集选择首先确定我们认为与反应有关的P预测因子的一个子集,然后使用子集特征的最小二乘拟合模型。(5)特征缩减技术通过对损失函数加入正则项,使得在训练求解参数的过程中将影响较小的特征的系数衰减到0,只保留重要的特征。(6)降维降维是将估计P+1个系数减少为M+1个系数,其中M可以将主成分回归描述为从一组大的变量中导出低纬度特征集的方法。(7)非线性回归非线性回归是回归分析的一种形式,在这种分析中,观测数据通过模型参数和因变量的非线性组合函数建模,数据用逐次逼近法进行拟合。(8)树形方法树形方法可以用于回归和分类问题,这些涉及将预测空间分层或分段为一些简单的区域。由于分割预测空间的分裂规则可以用树形总结,因此这类方法也被称为决策树方法。(9)支持向量机支持向量机(SupportVectorMachine,SVM)是一种分类技术,简单地说,就是寻找一个超平面以最好地将两类点与最大边界区分开。(10)无监督学习无监督学习就是在无类别信息的情况下寻找到好的特征。1.4 大数据分析工具1 .大数据分析前端展现用于展现分析的前端开源工具有JaSPerSoft、Pentaho、Spagobi>OPeni、Birt等。用于展现分析的商用分析工具有StyIeIntelligenceRapidMinerRadoop、CognosNBO、MicrosoftPowerBI、OracIeMicroStrategyQlikViewTableaU等。国内大数据分析工具有BDP、国云数据(大数据魔镜)、思迈特、FineBl等。2 .大数据分析数据仓库有TeradataAsterData>EMCGreenPlumsHPVertiCa等。3 .大数据分析数据集市有QlikView、Tableau>StyleInteIIigenCe等。4 .统计分析统计分析法是指通过对研究对象的规模、速度、范围、程度等数量关系的分析研究,认识和揭示事物间的相互关系、变化规律和发展趋势,借以实现对事物的正确解释和预测的一种研究方法。5 .可视化辅助工具数据可视化技术的基本思想,是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。一旦原始数据流被以图像形式表示时,以此做决策就变得容易多了。为了满足并超越客户的期望,大数据可视化工具应该具备这些特征: 能够处理不同种类型的传入数据。 能够应用不同种类的过滤器来调整结果。 能够在分析过程中与数据集进行交互。 能够连接其他软件来接收输入数据,或为其他软件提供输入数据。 能够为用户提供协作选项。下面介绍目前比较实用和流行的4种大数据可视化工具,它们提供了上述所有或者部分的特征。(1) Jupyter:大数据可视化的一站式商店JUPyter是一个开源项目,通过十多种编程语言实现大数据分析、可视化和软件开发的实时协作。JUPyter的界面包含代码输入窗口,通过运行输入的代码基于所选择的可视化技术提供视觉可读的图像。(2) Tableau:AI、大数据和机器学习应用可视化的最佳解决方案TabIeaU是大数据可视化的市场领导者之一,在为大数据操作、深度学习算法和多种类型的Al应用程序提供交互式数据可视化方面尤为高效。(3) GoogleChart:GOogIe支持的免费而强大的整合功能GoogleChart(谷歌图表)是大数据可视化的最佳解决方案之一,它是完全免费的,并得到了GoOglC的大力技术支持。(4) D3.js:以任何用户需要的方式直观地显示大数据D3.js代表DataDrivenDocument,是一个用于实时交互式大数据可视化的JS库。由于D3.js不是一个工具,因此用户在使用它处理数据之前需要对JaVaSeriPt有一个很好的理解,并且要以一种能被其他人理解的形式呈现。除此以外,这个JS库将数据以SVG和HTML5格式呈现,所以像IE7和IE8这样的旧式浏览器不能使用D3.js的功能。6 .大数据处理框架随着这些年全世界数据的几何式增长,数据的存储和运算都将成为世界级的难题。分布式文件系统解决的是大数据存储的问题。下面介绍一些分布式计算框架。(1) HadoOP框架HadoOP是目前世界上应用最广泛的大数据工具,它凭借极高的容错率和极低的硬件价格,在大数据市场上风生水起。HadoOP是第一个在开源社区上引发高度关注的批处理框架,它提出的MaP和RedUCe计算模式简洁而优雅。迄今为止,Hadoop已经成为一个广阔的生态圈,实现了大量算法和组件。由于HadoOP的计算任务需要在集群的多个节点上多次读写,因此在速度上会稍显劣势,但是其吞吐量是其他框架所不能匹敌的。(2) StOnn框架与HadOoP的批处理模式不同,StOnn采用的是流计算框架,由TWitter开源并且托管在GitHubJto与HadOOP类似的是,StornI也提出了两个计算角色,分别为SPoUt和BOlt。(3) SamZa框架SmaZa是一种流计算框架,但它目前只支持JvM语言,灵活度上略显不足,并且SamZa必须和Kafka共同使用。相应地,其也继承了Ka珠a的低延时、分区、避免回压等优势。(4) SPark框架SPark属于HadOOP和StOnn两种框架形式的集合体,是一种混合式的计算框架。它既有自带的实时流处理工具,又可以和HadOOP集成,代替其中的MaPRedUce,甚至SPark还可以单独拿出来部署集群,但是还得借助HDFS等分布式存储系统。SPark的强大之处在于其运算速度,与Stonn类似,SPark也是基于内存的,并且在内存满负载的时候,硬盘也能运算。运算结果显示,SPark的速度大约为HadooP的一百倍,并且其成本可能比HadoOP更低。但是SPark目前还没有像HadoOP那样拥有上万级别的集群,因此现阶段的SPark和HadOoP搭配起来使用更加合适。7 .数据库数据库可视为电子化的文件柜一存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。8 .数据仓库/商业智能数据仓库(DataWarehouse,DW或DWH),是为企业所有级别的决策制定过程提供所有类型数据支持的战略集合。它是为单个数据存储,出于分析性报告和决策支持的目的而创建的。数据仓库可以为需要业务智能的企业提供业务流程改进指导,监视时间、成本、质量以及控制。商业智能(BusinessIntelligence,BD又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。伴随数据库技术的提高和数据处理技术的发展以及各行业业务自动化的实现,商业领域产生了大量的业务数据,想要从这些海量数据中提取出真正有价值的信息,将数据转化为知识,以支持商业决策,需要用到能提取和存储有用信息,并能支持决策的数据仓库、联机分析处理(On-LineAnalysisProcessing,OLAP)以及数据挖掘(DataMining,DM)等技术。因此,从技术层面讲,商业智能不是什么新技术,它是数据仓库、联机分析处理和数据挖掘等技术的综合运用。9 .数据挖掘数据挖掘,又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过统计、在线分析处理、情报检索、机器学习、专家系统(通过算法搜索隐臧于其中信息的过程。数据挖掘通常与计算机科学有关,靠过去的经验法则)和模式识别等诸多方法来实现数据中发现知识。10 .编程语言做好大数据分析不能缺少编程语言基础,如掌握PythOn、R、Ruby、JaVa等编程知识是必不可少的。1.5小结大数据技术经过多年的发展已经趋于成熟,逐渐形成了一个较为清晰的产业链,包括数据的采集、整理、分析、呈现等,不同的环节往往都有众多的参与者,随着大数据逐渐落地到广大的传统行业,大数据的应用场景会得到进一步的拓展,大数据的价值也将逐渐提升。本章简要介绍了大数据分析的背景知识、场景应用、分析算法和大数据分析的必备技能和工具。第2章数据特征算法分析大数据分析挖掘是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。数据和特征决定了大数据分析的模型构建,模型和算法是逼近这个大数据分析的工具手段,特征工程的目的是最大限度地从原始数据中提取特征以供算法和模型使用。2.1 数据分布性分析统计数据的分布特征可以从两方面进行描述:一是数据分布的集中趋势;二是数据分布的离散程度。集中趋势和离散程度是数据分布特征对立统一的两方面。本节通过介绍平均指标和变异指标这两种统计指标的概念及计算来讨论反映数据集中趋势和离散程度这两方面的特征。2.1.1 数据分布特征集中趋势的测定集中趋势是指一组数据向某中心值靠拢的倾向,集中趋势的测度实际上就是对数据一般水平代表值或中心值的测度。不同类型的数据用不同的集中趋势测度值,低层次数据的集中趋势测度值适用于高层次的测量数据;反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据。选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定。通常用平均指标作为集中趋势测度指标。本节重点介绍众数、中位数两个位置平均数和算术平均数、调和平均数及几何平均数3个数值型平均数。1 .众数众数是指一组数据中出现次数最多的变量值,用Mo表示。从变量分布的角度看,众数是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的变量值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数就可以不存在;如果有多个高峰点,就有多个众数。(1)定类数据和定序数据众数的测定在使用定类数据与定序数据计算众数时,只需找出出现次数最多的组所对应的变量值即可。(2)未分组数据或单变量值分组数据众数的确定在使用未分组数据或单变量值分组数据计算众数时,只需找出出现次数最多的变量值即可。(3)组距分组数据众数的确定对于组距分组数据来说,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下理解:设众数组的频数为众数前一组的频数为F-,众数后一组的频数为F当众数相邻两组的频数相等时,即F1=/+1,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即f1>+1,众数会向其前一组靠,众数小于其组中值;当众Mq=L +-×i(fm -)÷(A -)(2.1)数组后一组的频数多于众数组前一组的频数时,即FV,众数会向其后一组靠,众数大于其组中值。基于这种思路,借助几何图形而导出的分组数据众数的计算公式如下:M)三Ufm-f+l×/(-)÷(A-.)其中,£表示众数所在组的下限,表示众数所在组的上限,了表示众数所在组的组距,为众数组的频数,fT为众数组前一组的频数,F+1为众数组后一组的频数。上述下限和上限公式是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性会很差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此众数是一个位置代表值,它不受数据中极端值的影响。2 .中位数中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。各变量值与中位数的离差绝对值之和最小,即:(2.2)(1)定序数据中位数的确定定序数据中位数确定的关键是确定中间位置,中间位置所对应的变量值即为中位数。未分组原始资料中间位置的确定中位数位置=*N为奇数2N(2.3)中位数位置="N为偶数2分组数据中间位置的确定中位数位置(2.4)2(2)数值型数据中位数的确定未分组资料数值型数据资料=A如也何单变量值分组资料分组资料,r*,、,一一未分组资料首先必须将标志值按大小排序。设排序的结果为:X1x2x3xzj,则:当N为奇数时Me =(2.5)T+,当N为偶数时单变量分组资料(2.6)Me=组距分组资料根据位置公式确定中位数所在的组,假定在中位数组内的各单位是均匀分布的,则可利用下面的公式计算中位数的近似值:/s,今、m-1Mtl=L+ifmZ/_S,Me=U(2.7)efm其中,S是到中位数组前面一组为止的向上累计频数,f+则是到中位数组后面一组为止的向下累计频数,为中位数组的频数,为中位数打的组距。3 .算术平均数算术平均数(ArithmetiCMean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。算术平均数在统计学中具有重要的地位,是集中趋势的主要测度值,通常用亍表示。根据所掌握数据形式的不同,算术平均数有简单算术平均数和加权算术平均数。(1)简单算术平均数(SimpleArithmeticMean)未经分组整理的原始数据,其算术平均数的计算就是直接将一组数据的各个数值相加除以数值个数。设总体数据为XZ2,,样本数据为X-x2,X,则统计总体均X和样本均值了的计算公式为:NyX,".+占+八白,NNnYxx1+x2+xn'(2.8)nn(2)加权算术平均数(WeightedArithmeticMean)根据分组整理的数据计算的算术平均数,就要以各组变量值出现的次数或频数为权数计算加权的算术平均数。设原始数据(总体或样本数据)被分成人或4组,各组的变量值为X,才2,才',或X|,X2,Xk,各组变量值的次数或频数分别为尸F2,,FK,或则总体或样本的加权算术平均数为:f1 + f2 + + fk XiFi ”1K EFi /=I亍三再工+/1+=自芍工人一C1.Z+÷÷(2.9)fl=l公式(2.9)中是用各组的组中值代表各组的实际数据,使用代表值时是假定各组数 据在各组中是均匀分布的,但实际情况与这一假定会有一定的偏差,使得利用分组资料计 算的平均数与实际平均值会产生误差,它是实际平均值的近似值。加权算术平均数其数值的大小不仅受各组变量值X /大小的影响,而且受各组变量值 出现的频数(权数F/)大小的影响。如果某一组的权数大,说明该组的数据较多,那么 该组数据的大小对算术平均数的影响就越大,反之,则越小。实际上,我们将上式变形为 下面公式(2.10)的形式,就能更清楚地看出这一点。(2.10)由上式可以清楚地看出,加权算术平均数受各组变量值(X;)和各组权数(频率F,/)大小的影响。频率越大,相应的变量值计入平均数的份额也越大,对平均数的影响就越大;反之,频率越小,相应的变量值计入平均数的份额也越小,对平均数的影响就越小。这就是权数权衡轻重作用的实质。算术平均数在统计学中具有重要的地位,它是进行统计分析和统计推断的基础。从统计思想上看,算术平均数是一组数据的重心所在,它是消除了一些随机因素影响后或者数据误差相互抵消后的必然性结果。算术平均数具有下面一些重要的数学性质,这些数学性质在实际中有着广泛的应用,同时也体现了算术平均数的统计思想。(1)各变量值与其算术平均数的离差之和等于零,即:(2.11)Saj-亍)=o/=I(2)各变IHfi与其算术平均数的离接平方和最小,即: 3 -三尸=min 或 Z (xl- x)2 4 = min<2.I2)4 .调和平均数,Hamic Mean >在实际工作中.是常会遇到只fj着组变域例和各组标志总址而跳少总体取位数的情 «.这时就要用调和平均效法计算平均指标调和平均数是各个变盘值倒数的前术平均数 的历数,习惯上用衣示.计算公式如下:h =叫+叫M = tr + 叫.m Vw X. A ×i Sr l<2.I3)调和平均数和籁术平均数在木桢上是一致的,唯一的区别毡计翼时使用了不同的数 据 在实际又用时可掌捏这样的原则:节汁打算术平均数K分F资料未知时,就采用加权 黛术平均散计算平均数,当分母资料未知时.就采用加权调和平均数计算平均数.“÷-l1_r-4-G 达 z占苞 U局 Ti(2.14)5 .几何平均数 Gecoetric Mean 1几何平均数是送血于特殊数据的一种平均数,在实际生活中,通常用来计灯平均比率 和平均速度C当所笊握的变IIt伍本身是比率的形式,而H各比率的柒枳等于总的比率时, 就应采用儿月平均法计算平均比率.GM - VMx *N -也 X、(2.15)也可以看作!7术平均数的种变形:lElogxIogGAfYaogXl+log*2】OgxG,!=Llr/VC6.众数、中位数与算术平均数的关系算术平均数Lj众数.中位数的关系取决于频数分布的状况.它们的关第如E(1)当数抠具有单一众数旦箱数分布对称时,算术平均数与众数、中位数三者完全相等,WMo=Mc=X(2)当知数分布呈现右偏态时,说明数据存在就大伍,必然拉动算术平均数向极大值一方靠,则三者之间的关系为T>Mr>Mc(3)当知数分布呈现左铜态时,说明数据存在最小伍.必然拉动算术平均数向极小值,方舔,而众故和中位数由于是位置平均数.不受极例的影峋,因此三者之间的关系为XVMCF。当领数分布出现偏态时极端值对尊术平均数产生很大的影响.而对众数中位数没有影响,此时用众数中位数作为TH数据的中心值比算术平均数有较高的代表性.除术平均数与众数中位数从数值上的关系希,当顿数分布的偏斜程度不是很大时,无论足左儡还是右偏众数与中位数的那密约为尊术平均数与中位数的即离的两倍即:C-M0=27-JW0三X-XX-Af)-3fr-2X(2.17)2.1.2数据分布特征离散程度的测定数据分布的离依科收足描述数据分布的另一个诚要特征,反映各安植位远离其中心价的程度,因此也称为禹中势,从另一个WJ面说明了蛆中心将测度值的代表程哽,不同类型的数招有不同的尚故程度测度GL描述数据典收程度的iM度伍主耍有异众比率、板筌、四分位差、平均茏、方差和标准差、离敝系tk等.这些指标又称为变异指标.1 .异众比率异众比率的作用毡衡Ia众数对一呦数据的代表性程度的指标,异众比率殛大,说明非众数tn的箱数占总扳数的比疝就越大,众数的代表性炊越空;反之,异众比率也小.众数的代表性就超好.井众比率主要用于测度定类数则、定序数据的离散理欧.Vr=I-2k.(2.18)rZFIFl其中,EF,为变量值的总频数,户.为众数扭的频数,2.极差极关是一组数据的最大侦。最小tf(之差,是离依科收的仙谕华洌度御,极茏的洌度如下:(1)未分组数据R-max(X)-min(X)(2.19)(2)Sl距分ifl数据上Ia-最低组下一3.四分位差中位数是从中间点将全部数楙等分为网部分与中位数类似的还有四分位数、八分位数.十分Z数和仃分位数等.它们分别是用3个点、7个点、9个点和99个点将依据四号分.八等分十等分和100等分后各分位点上的曲,这里只介蚂四分位数的计算,其他分位数与之类似.一组数据杼序后处于25%和75fe置上的值称为四分位数,也停四分位点。四分仲数是通过3个点将全部数梏等分为4部分,共中体粒分包含25%的数据,很显然,中间的分位数就是中位数.因此通常所说的四分位数是指处在25%位置上的数例(下则分位数)和处在75M置上的数仅(上四分位数).与中位数的计算方法类似根裾龙分州数据计W四分位数时,首先对数据进行推序,然后确定四分位.Ik所在的位ZL(I)四分位数确定设下四分位数为。,上四分位数为未分班数抠Ql=X*Qv(2.20)当四分位数的位置不在某一个位置IJM.可根据四分位数的位贸按比例分知四分位数两W的强优.不受嫉色分粗数裾QL=Xq=<221)殂距分组数据<2.22)3t2=U÷-1yJv(2)四分位差四分位数是昌依程度的测度值之一,是上四分位数、下月分位数之差,又称为四分位差.亦称为内距或四分间距(Inter-QuartileRange).用。“我示四分位茏的计算公式为I(2.23)C=Q-04 .平均差MeanDeriation)平均也是施Iftfi;度的测度M之,是各变m伍其优术平均数整绝对值的平均数.用表示.平均若能全回反映一祖数批的掰收程度,但该方法数学性质较控,实际中应用较少,(1)简单平均法对于未分组资料采用简单平均法“其计寐公式为£-ElX叫WJ-DN(2)加权平均法在贡料分组的情况下.胸采川加权平均法.其计妹公式为:5 .方差IVariance>和标准差<StandardDeviation>方差和标准差同平均空一样,也是根抠全部数据计费的.反映每个数屈与其灯术平均Sk相比平均相差的数值,因此能鲂准确地反映数裾的差异科度.但勺平均差的不同之处是在计豫时的处理方法不矶平均竺是取离差的绝对值消除正负号,而方船、标准犬是取阕空的平方消除正负耳,这更便于数学上的处理C因此,方如、标准丝是买体中应用广泛的卷中程度度M值.(!)总体的方差和标准更ih6-x)2(2.26:设总体的方差为。2.标准差为。,对于未分期整理的原始资料.方差和标准短的计算公式分别为.Z(XT)I2N对于分组数据.方差和标准茏的计算公式分别为,(2.27)(2)样本的方差和标准差样本的方差、标准差与总体的方差、标准差在计算上行所差别.总体的方差和标准茏在对各个阳差平方平均时是除以数据个数或总颠数而样本的方差和标准差在对各个用差平方平均时能用样本数第个数或总较数减I(自由麽去除总离差平方和,设样本的方差为6,标准整为S,对于未分俎整理的帆蛤资料,方差和标准型的冲克公式为,<2.28)对f分组数据.方差和标准少的计©公式为,£巧-门"<2.29)i=l当。汉大时,样本方差S与总体方差。:的计算结果相基很小.这时样本方船也可以用以体方差的公式来诃口,6 .相劝离散程吱:离散系数A44U三rBAR*WUtM*.Te.lfftM4HlX.Hn.÷nHKHfVftk<4*f.*0¾f4<tM.*1¾41L)U<*F.I,虑标HtlNgMWAWE蜜HR”“以M<iM*"W)©K.HLJfrR.AVle411C4MMV<ft-WHW<.THfMtlMe4PKKIiKttfIH<<r3ItJ&处,I5“9全一»以信KtMeiMld>tU*mMRM4.4*M<UMaU*RlM-Mr*n*tH*K-H/M=WWi1*<*I.的。M2,KM.««*«V7ICir<<<X<n¢ft-J,46IUH?<»Uft<rZBAX<1I«»««U.(VtH,1t*4f&*>»<t2.««».ttFA.MSUZKqafKBA<t三f&«,射“力Jr、<M,fUOZA><.tKCKBdiAe.MX«;<Z7«r4E.*d<M卑<XMEMCmS*<1M(2.3)当O=T时,即变做以口术平均数为中心,上式称为万的中心动差,用小写英文字母8表示一阶中心动差;(X-X)a-/W1-三0(2.35)N二阶中心动茏,(236)N三阶中心动罡:(X-Xml=(2.37)JN2.(W态及其测度偏&是对分布Wi斜方向及程度的度量.从前面的内容中我W已经知道,频散分俗有刻停的,在不劝林的(俏态的)在偏态的分布中.又有两种不同的形态即左偏和右偏.我们可以利用众数中位数和如术平均数之间的关系列新分布能左偏还是右低的,但娈度量分布偏俱的程度就需要计口偏态系数ra =采用动茏法计算偏态系数是用我植的三阶中心动差对,。进行给比.计算公式为,<2,38)当分布对其时,变Ia的三阶中心动能W,由于禺第三次方后正负相互抵消而双行0假,因此H=0:当分布不对称时,正负肉经不便抵消,坡形成正的或负的三阶中心动如YJ,当而为正例时表示正偏离差仙比例俏离差值大,可以判断为正偏或右偏:反之当然3为负值M表示负伯禹差值比正保岗整假大,可以判新为负偏或左WLa,I越大,表示偏斜的程度就超大.由于三阶中心动差网台,川崎单位,川;小有;的影响,就用。'去除N一使我转化为相对数.同样地.H的绝对位越大.表小偏斜的程度就越大.3.峰度及其测度峥度是用来施抻分布的集中印度或分布曲线的尖嬉程度的指标1计售公式加Fi(2.39)n二d"分布曲浅的尖峭程度与德数阶中心动经的数依大小行直接的关系.是方差.于世就以四阶中心动差8,来收量分布曲线的尖蜡程度.4是一个绝对数.令有计敝/位,为消除计盘电

    注意事项

    本文(2023Python大数据特征与算法分析.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开