数据服务数据分析.pptx
数据服务数据分析方法,指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。在统计的基础上,查找数据群体特征;简而言之:就是对群体数据的描述、判别、预测、决策的过程。,数据分析,描述性数据分析,诊断性数据分析,预测性数据分析,01,02,03,目录,CONTENTS,指令性数据分析,04,描述性数据分析,01,PART ONE,描述性数据分析属于比较初级的数据分析,常见的分析方法包括对比分析法、平均分析法、交叉分析法等。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形等。描述性分析是对数据进一步分析的基础。,均值、中位数、众数体现了数据的集中趋势。极差、方差、标准差体现了数据的离散程度。偏度、峰度体现了数据的分布形状。,常用指标,展示方式,excel、wps等表格输出复杂的数据、数据关系等;合计、同比、环比等;,数据可视化主要旨在借助于柱状图、饼图、散点图、折线图等图形化手段,清晰有效地传达与沟通信息。目的是简化信息、突出重点。,文本,表格,图形,诊断性数据分析,02,PART TWO,描述性数据分析的下一步就是诊断性数据分析。通过评估描述性数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。按照时间序列进行数据读入、特征过滤和钻取数据等,以便更好的分析数据。,诊断分析的目标是了解事情发生的原因。例如,二七广场的人流量,工作日约为20万,周末约为30万,假期为35万,就需要对人流量进行多维度分析,进行分类或聚类,进而得出几个人流量特征(逛街、购买物品、游玩、乘火车路过、工作等),然后分析每个特征对人流量的影响度。,研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。例如,人的身高和体重之间;空气中的相对湿度与降雨量之间的相关关系都是相关分析研究的问题。,因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即将相关比较密切的几个变量归在同一类中,每一类变量就成为一个因子,以较少的几个因子反映原资料的大部分信息。运用这种研究技术,我们可以方便地找出影响消费者购买、消费以及满意度的主要因素是哪些,以及它们的影响力。,相关模型,因子模型,一组将研究对象分为相对同质的群组的统计分析技术。聚类分析也叫分类分析,或者数值分类。聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或者相似度将其划分成若干个组,划分的原则是组内距离最小化而组间(外部)距离最大化。聚类和分类的不同在于:聚类所要求划分的类是未知的。,聚类模型,k-means算法中的k代表类簇个数,means代表类簇内数据对象的均值(这种均值是一种对类簇中心的描述),因此,k-means算法又称为k-均值算法。k-means算法是一种基于划分的聚类算法,以距离作为数据对象间相似性度量的标准,即数据对象间的距离越小,则它们的相似性越高,则它们越有可能在同一个类簇。数据对象间距离的计算有很多种,k-means算法通常采用欧氏距离来计算数据对象间的距离。邻近算法,或者说K最近邻(KNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。,预测性数据分析,03,PART THREE,预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署,也可为规划流程提供各种信息,作用,决策管理决策管理是用来优化并自动化业务决策的一种卓有成效的方法。它通过预测分析让企业能够在制定决策以前有所行动,以便预测哪些行动在将来最有可能获得成功。,滚动预测可以对业务绩效进行前瞻性预测;为未来计划周期提供一个基线;捕获变化带来的长期影响;与静态年度预测相比,滚动预测能够在觉察到业务决策制定的时间点得到定期更新,时间序列分析的主要目的是根据已有的历史数据对未来进行预测。,时间序列模型,时间序列预测法可用于短期预测、中期预测和长期预测。根据对资料分析方法的不同,又可分为:简单序时平均数法、加权序时平均数法。简单平均数法:也称算术平均法。即把若干历史时期的统计数值作为观察值,求出算术平均数作为下期预测值。加权平均数法:把各个时期的历史数据按近期和远期影响程度进行加权,求出平均值,作为下期预测值。,回归模型,回归是一种运用广泛的统计分析方法,可以通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各参数,然后评估回归模型是否能够很好的拟合实测数据,如果能够很好的拟合,则可以根据自变量作进一步的预测。,指令性数据分析,04,PART THREE,指令性数据分析也可以称作决策型数据分析指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令性分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。,决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。,决策树,决策点:是对几种可能方案的选择,即最后选择的最佳方案。如果决策属于多级决策,则决策树的中间可以有多个决策点,以决策树根部的决策点为最终决策方案。状态节点:代表备选方案的经济效果(期望值),通过各状态节点的经济效果的对比,按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。结果节点:将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。,数据分析常用软件,数据分析常用软件,Excel:是一个面向商业、科学和工程计算的数据分析软件,它的主要优点是具有对数据进行分析、计算、汇总的强大功能。SPSS:是世界上最早采用图形菜单驱动界面的统计软件,它最突出的特点就是操作界面极为友好,输出结果美观漂亮。SAS:一个模块化、集成化的大型应用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。Statistica:是由统计软件公司(Statsoft)开发、专用于科技及工业统计的大型软件包。R、python:用来进行数据探索、统计分析、作图的解释型语言。,