电子商务数据分析《数据分析基础》教案.pptx
《电子商务数据分析《数据分析基础》教案.pptx》由会员分享,可在线阅读,更多相关《电子商务数据分析《数据分析基础》教案.pptx(118页珍藏版)》请在课桌文档上搜索。
1、数据分析基础,第1章 数据分析概述,数据分析是数学与计算机科学相结合的产物。数据分析的数学基础在20世纪早期就已确立,但直到计算机的出现才使得实际操作成为可能,并使得数据分析得以推广。随着互联网的发展和大数据时代的来临,数据分析的重要性显得比任何时候都更为突出。,1.1 什么是数据分析,数据分析是指对大量数据进行整理后,利用适当的统计分析方法,把隐藏在数据背后的信息提炼出来,并加以概括、总结的过程。,数据分析的内容主要包括:现状分析:分析已经发生了什么原因分析:分析为什么发生某一现状预测分析:分析将来可能发生什么,1.1.1 数据分析的过程,一、确定分析目的二、收集数据三、数据处理四、数据分析
2、五、数据展现六、撰写报告,数据分析过程主要包括六个既相对独立又相互联系的阶段,分别是:,1.1.2 数据分析的工具,数据分析的相关工具可以分成三种:存放数据的工具在数据量大的情况下,需要动用到专门的数据库软件。数据量在一百万条以内,可以用Excel作为数据库。分析数据的工具我们选择最通用的工具Excel。做分析报告的工具我们用word、PPT就可以了。,1.2 统计学的几个基本概念,1.2.1 现象总体和现象个体,1.2.2 标志和标志表现,1.2.3 统计指标,数据分析是统计学的重要内容与扩展,因此,在学习数据分析之前,我们来学习一些统计学基本概念。,1.2.1 现象总体和现象个体,现象总体
3、(简称总体),是由客观存在的、具有某种共同性质又有差别的许多个别单位所构成的整体。现象个体(简称个体),是构成现象总体的每一个事物或基本单位。,分析表1-1,(1)如果研究全校学生的体质,什么是总体?什么是个体?(2)如果研究全校学生的身高,什么是总体?什么是个体?,现象总体必须具备三个特性:,(1)大量性,是现象总体的量的规定性,即指现象总体的形成要有一个相对规模的量,仅仅由个别单位或极少量的单位不足以构成现象总体。因为个别单位的数量表现可能是各种各样的,只对少数单位进行观察,其结果难以反映现象总体的一般特征。(2)同质性,是指构成现象总体的各个单位至少有一种性质是共同的,同质性是将现象总体
4、各单位结合起来构成现象总体的基础,也是现象总体的质的规定性。(3)变异性,是指现象总体各个单位除了具有某种或某些共同性质以外,在其它方面则各不相同,具有质的差异和量的差别,这种差别叫变异。,总体和个体也是相对而言的,随着统计研究目的及范围的变化,总体和个体可以相互转化。同一事物在不同情况下,可以作为总体,也可以作为个体。,分析表1-2,(1)如果研究江西省所有工业企业的工业总产值,何为总体?何为个体?(2)如果研究其中某一个企业的工业总产值,何为总体?何为个体?,1.2.2 标志和标志表现,通常,每个现象个体具有许多属性和特征,这些属性或特征,叫标志。标志的属性或数量在每个个体的具体表现,叫标
5、志表现。比如表1-1:,标志,按其性质可以分为数量标志和品质标志。数量标志,以数量的多少来表示的标志,表示事物量的特性。如表1-1中的“身高”和“体重”。品质标志,不能用数量而只能以性质属性上的差别即文字来表示的标志。品质标志表示事物质的特征。如表1-1中的“性别”和“爱好”。,品质标志,1.2.3 统计指标,假如通过对表1-1的统计计算,可能得出以下统计结果:学校总人数5000人男生人数2600人女生人数2400人男女性别比1.08:1平均身高172cm平均体重62kg,这些数据,在统计学上都称为统计指标。,所谓统计指标,就是反映现象总体的数量特征的概念和具体数值。通常,一个完整的统计指标包
6、含指标名称和指标数值两部分。,1.3 统计指标的分类,按照其反映的内容或其数值表现形式划分:总量指标、相对指标、平均指标,(1)总量指标,反映现象总体规模的统计指标,通常以绝对数的形式来表现,因此又称为绝对数。例如“总人数5000人”、“男生人数2600人”。有时,总量指标也表现为同一总体在不同的时间、空间条件下的差数。例如:2005年我国粮食总产量为43067万吨,2006年我国粮食总产量比2005年增加了5933万吨,这个增加量也是总量指标。(2)相对指标,是两个总量指标之比,因此又称相对数。例如“男女性别比1.08:1”;再如,经济增长率、物价指数、固定资产增长率等。(3)平均指标,平均
7、指标又称平均数,是现象总体在某一空间或时间上的平均数量状况。例如“平均身高172cm”、“平均体重62kg”;再如,家庭人均消费水平、人均寿命等。,按其所反映的数量特点和内容划分:数量指标、质量指标(1)数量指标,反映总体现象范围的广度、规模大小和数量多少的指标。它表示事物外延量的大小,通常有计量单位、用绝对数表示。其指标数值大小随总体范围的大小而增减变动。例如,销售量、销售额、人口总数、工业总产值等,都属于数量指标。(2)质量指标,反映现象总体的质量、强度、经济效果等的统计指标。它表示事物内涵量的状况,通常用相对数或平均数表示。其指标数值大小与总体范围大小没有直接的关系。例如,商品价格、产品
8、合格率、利润率、劳动生产率等,都属于质量指标。,1.3.1 总量指标,按总量指标所反映的时间状况来划分,总量指标可以分为时期指标和时点指标。(1)时期指标,是反映现象总体在一段时间内累计总和。(2)时点指标,是反映现象总体在某一时点上状态总数。例如,商品销售额、总产值、基本建设投资额、国内生产总值、利润总额、产品销售收入等,都属于时期指标。例如,人口数、房屋居住面积、企业数、储蓄存款余额、库存额、固定电话用户数、商品库存量、在校学生数等,都属于时点指标。,时期指标与时点指标的区别:,(1)性质相同的时期指标的数值可以相加,而时点指标相加则无意义;(2)同类时期指标数值的大小与时期长短有直接关系
9、,而时点指标则没有这种关系;(3)时期指标数值是经常登记取得,而时点指标则不是。,区分时期指标和时点指标决定了统计处理与应用上的不同,在运用时期指标和时点指标时,应注意同一类指标若从不同的角度考虑,其性质也不同。例如,年末人口数和年初人口数是时点指标,但年末人口数减去年初人口数人口净增数,人口净增数是时期指标,而不是时点指标。,指标与标志的区别(1)标志是用于描述个体的,指标是用于描述总体的。(2)标志只是一个名称,不含数值(标志表现);指标既含名称又含数值。,指标与标志的联系(1)具有对应关系。标志与指标名称往往是同一概念。(2)具有汇总关系。统计指标的数值由标志表现汇总得来。(3)具有变换
10、关系。随着研究目的的变换,原有的总体转变为个体,相应的统计指标名称也就成为标志;反之亦然。,1.3.2 相对指标,相对指标分为结构相对指标、对比相对指标、完成程度相对指标等。,结构相对指标=总体某部分的数值 总体总量,例如,表1-3的第3列数据就是结构相对指标。,结构相对指标,1、结构相对指标,又称结构相对数,或比重指标,是在统计分组的基础上,现象总体中某一组的数值与总体指标数值的比值,以说明总体内部组成情况,一般用百分数表示。,结构相对指标具有如下特点:,分子分母不能互换;指标值1;指标值之和1。,常用的合格率、恩格尔系数都属于结构相对指标:(1)合格率=合格产品 全部产品,说明工作质量的高
11、低,合格率越高,工作质量越高。(2)恩格尔系数=食品支出总额 个人消费总额,说明生活质量的高低,恩格尔系数越低,生活质量越高。,2、对比相对指标,任何事物都是既有共性特征,又有个性特征的,只有通过对比,才能分辨出事物的性质、变化、发展的规律。数据分析亦如此,对庞大的数据做单独分析,通常很难发现其意义,只有将不同数据进行对比,才能发现更多本质现象。通常情况下,数据对比可以分成静态对比和动态对比。,静态相对指标静态相对指标是指同一总体在相同时间下,不同组(部门、单位、地区)的数据对比。通常用用比值、倍数、系数或百分数表示。静态相对指标=总体中某一组的指标数值 总体中另一组的指标数值,例1、某地区某
12、年末人口数位1000万人,其中男性514万人,女性486万人,该地区男性人口数是女性人口数的105.8%,男女性别比例为105.8:100。例2、某月甲商场总销售额120万元、乙商场总销售为156万元,则甲商场的总销量为乙商场的76.9%,或者说,乙商场的总销量为甲商场的1.3倍。,静态相对指标有如下特点:同一总体、同一指标、同一时间、不同组的数值对比;分子、分母可以互换。,静态相对指标的作用:通过静态对比,可以了解自身的发展在行业内处于什么样的位置,哪些指标是领先的,哪些指标是落后的,进而找出下一步发展的方向和目标。,动态相对指标动态相对指标,是指同一总体在不同时间下的数据对比,以说明现象总
13、体在不同时间上的发展变化情况,所以也叫发展速度,通常用百分数表示。,(1)同比发展速度=报告期指标数值 上年同期指标数值(2)环比发展速度=报告期指标数值 上一期指标数值,例如,2014年淘宝双11的单日销售总额为571亿元,2015年淘宝双11的单日销售总额为912亿元,则2015年的发展速度为2014年的160%。,例如同比发展速度和环比发展速度。,动态相对指标有如下特点:同一总体、同一指标、不同时间的数值对比;分子、分母不可以互换。,再如,某企业2014-2015年各月销售额资料见表1-4,则2015年12月的同比发展速度为 270 266=102%,2015年12月的环比发展速度为 2
14、70 250=108%。,例如,某年某商业企业,商品销售额计划指标为3000万元,当年该企业实际商品销售额为3600万元,则完成程度相对指标 3600 3000=120%,3、完成程度相对指标,完成程度相对指标,是实际完成值与目标计划值进行对比,通常用百分数表示。其计算公式为:,完成程度相对指标 实际完成值 计划完成值,1.3.3 平均指标,平均指标,又叫平均数,是指反映现象总体各单位某一数量标志值在具体时间、地点、条件下达到的一般水平的综合指标。,1、算术平均数,算术平均数,是指现象总体的总量指标与单位总数的比值。,1+2+,例如:某班40名学生的共捐款4200元,则人均捐款额=4200 4
15、0=105(元),平均指标按计算和确定方法的不同,分为算术平均数、几何平均数。,算术平均数是一种应用最为广泛的平均数,其计算公式为:,2、几何平均数,几何平均数,是n个数连乘积开n次方根。其计算公式为:,=1 2,对于同一组数据来说,几何平均数算术平均数。几何平均数适用于计算平均合格率、平均本利率、平均发展速度、平均增长速度等。,例1、某工厂生产机器,有粗加工、精加工2道连续作业的工序,所以有2个相应的生产车间,各车间产品合格率分别为90%、80%,问:该工厂产品的总合格率是多少?平均合格率是多少?例2、某公司的业绩从2012年开始连年增长,2013年的发展速度为105%,2014年的发展速度
16、为110%,2015年的发展速度为115%,问:该公司三年来业绩的总发展速度是多少?平均发展速度是多少?例3、某笔为期5年的投资按复利计算收益,第1年的利率为10%,以后每年利率增加一个百分点,问5年的总利率是多少?平均本利率是多少?,小结(1),1、什么是数据分析2、数据分析的过程3、数据分析的工具4、现象总体和现象个体5、标志和标志表现,小结(2),一、统计指标按照其反映的内容或其数值表现形式划分:,二、按其所反映的数量特点和内容划分:,三、指标与标志的区别,(1)具有对应关系。标志与指标名称往往是同一概念。(2)具有汇总关系。统计指标的数值由标志表现汇总得来。(3)具有变换关系。随着研究
17、目的的变换,原有的总体转变为个体,相应的统计指标名称也就成为标志;反之亦然。,指标与标志的联系,(1)标志是用于描述个体的,指标是用于描述总体的。(2)标志只是一个名称,不含数值(标志表现);指标既含名称又含数值。,练习,1、请分析下表中的数据,探讨何为总体?何为个体?,2、请判断以下哪些标志为数量标志,哪些为品质标志?(1)工人的性别、年龄、工种、工龄、工资、民族、文化程度。(2)企业的工人数、产量、产值、固定资产。,练习,3、判断以下统计指标哪些是时期指标,哪些是时点指标?,4、已知6名学生的月生活费分别是750元、800元、920元、950元、1000元和1100元,求其平均月生活费。5
18、、某班一共有40名学生,他们向地震灾区捐款统计分别是:3人10元,20人20元、10人50元、5人100元、2人200元,求该班级的平均捐款额。6、某工厂招聘人才,设有初试、笔试、面试3个连续环节,各环节的通过率分别为60%、70%、80%,求招聘的平均通过率。,7、已知某公司2011-2015年固定资产投资额发展速度资料表如表1-6所示,请计算5年来固定资产投资额的平均发展速度。,第2章 数据的收集,传统的数据收集方法主要包括实验数据、调查数据以及各种途径收集到的其它数据,这样收集得到的数据大多存在误差,容易导致分析结果的偏差。随着互联网的发展和大数据的出现,数据的收集环节实现了跨越,更多地
19、方法是直接从网上下载海量数据。,很多人一开始并不能清晰地认识到数据分析对数据有什么要求,正因为如此,当进行数据分析时,就会有比较迷茫、无从下手的感觉。因此,对数据的正确理解是数据分析的一个重要前提。,2.1 理解数据,2.1.1 数据的类型,从不同的角度、不同学科,数据类型的分类不尽相同。在Excel中,数据类型细分起来有很多,但是归根结底还是四大类,分别是:数值、货币、日期与时间、文本。,在数据运算过程中,我们发现,数值、货币、日期与时间都可以进行加、减、乘、除等算术运算,所以统称为数值型;而文本只能进行简单的“计数”,不能进行数学运算,仍称文本型。所以,在数据分析中,我们把数据类型分成两种
20、:数值型数据和文本型数据。数值型数据对应统计学中的数量标志的标志表现,文本型数据对应统计学中的品质标志的标志表现。,1、不同个体在同一标志上的不同取值,2、数据清单:不同个体在多个标志上的取值所组成的二维表格,Excel数据清单包含一行列标题和多行数据,清单中的每一列称为一个字段,列标题称为字段名(即统计学中的标志),清单中每一列的数据的类型和格式完全相同,清单中每一行数据称为一条记录。数据清单中不能有合并单元格的形式。,2.1.2 数据的呈现形式,多个相关的数据清单在一起,就称为一个数据库。,据数据的来源不同,可以将数据分成一手数据和二手数据。,2.2 数据的来源,一手数据也称为原始数据,是
21、指通过调查或实验等方式直接获得的数据。获取一手数据的方法有:,二手数据也称为次级数据,是指那些从同行或一些媒体上获得的、经过加工整理的数据,比如国家统计局定期发布的各种数据、从报纸电视上获取的各种数据。,1、导入Access数据2、导入网站表格数据3、利用爬虫软件下载网络数据,案例操作(15-18页),课后练习:,收集调查全班各位同学的姓名、学号、性别、年龄、籍贯、身高、体重、爱好、家庭年收入、本人月生活费、上学期考试科目平均分。,第3章 数据的处理,数据处理的基本目的是将大量的、杂乱无章、难以理解的数据加工整理成便于数据分析的数据,数据处理主要包括数据的清洗和数据的简单加工。,数据清洗就是将
22、格式错误的数据进行处理纠正,将错误的数据纠正或删除,将缺失的数据补充完整,将重复多余的数据删除除。,3.1 数据清洗,案例操作(21-24页),经过清洗后的数据,并不一定是我们想要的数据,可能还要对数据进行信息提取、计算、分组、转换等加工,让它变成我们想要的数据。数据加工的手段主要有:数据转置、字段分列、字段匹配、数据抽取、数据计算。,3.2 数据加工,案例操作(24-31页),现象总体在一段较长的时间内,由于普通的、持续的、决定性的基本因素的作用,往往呈现逐渐向上或向下变动的趋势(左图);但也不排除受一些偶然因素或不规则因素的影响,出现与整体趋势相差很大的极端数据(右图)。,下面介绍常用的移
23、动平均法对数据进行修整。移动平均法,就是从时间数列的第一位数值开始,按一定项数求平均数,逐项移动,形成一个新的动态数列。,如果用这些极端数据直接进行数据分析,分析的结果可能有失偏颇,所以有必要用一定的数学方法对这些数据进行加工修匀,使数据长期变化的趋势更加明显,为预测现象总体的未来提供更准确的依据。,3.3 数据的修整,常用的移动平均法有:三项移动平均法和四项移动平均法。,案例操作(32-38页),小结,若采用奇数项移动平均,平均值对准居中时间数列的项数,一次可得趋势值。若采用偶数项移动平均,平均值未对准居中原时间数列的项数,需再通过一次移动平均进行正位。数据过少不适宜用移动平均法进行数据的修
24、正。,第4章 数据的分析,在计算机基础课程中,我们已经学习过Excel数据的排序、筛选、分类汇总、数据透视表等基本方法。在这一章,我们要继续深入学习数据透视表的使用、系统学习描述性统计指标的计算,动态数列的分析与预测、相关分析与回归分析法、综合评价分析法、四象限分析法。,按照每组标志表现的多少,统计分组可以分成单项式分组和组距式分组。,4.1 数据分组,4.1.1 统计分组的概念,1、单项式分组:每一个变量值均作为一组。一般适用于离散型变量且变量变动不大的场合。2、组距式分组:以一个区间作为一组。一般适用于连续型变量或离散数据较多的场合。组距式分组又可以分成等距分组和不等距分组。,统计分组,是
25、根据统计研究的需要,按照一定的标志,将总体区分为若干个性质不同而又有联系的组成部分,并计算各组的频数或比重的一种统计方法。这些组成部分称为这一现象总体的“组”。,组距式分组的几个基本概念(45页),组距式分组的步骤:,第一步:确定组数。,一般5-10组。,一般情况下,组距(最大值最小值)组数,例如,某组数据最大值为139,最小值为107,一共分成7组,则组距=(139107)7=4.6。为便于计算,组距宜取5或10的倍数,而且第一组的下限应低于最小变量值,最后一组的上限应高于最大变量值,因此组距可取5,分成7组:105-110、110-115、115-120、135-140。,第二步:确定各组
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据分析基础 电子商务 数据 分析 基础 教案
链接地址:https://www.desk33.com/p-379458.html