数据统计与分析方法.ppt
《数据统计与分析方法.ppt》由会员分享,可在线阅读,更多相关《数据统计与分析方法.ppt(121页珍藏版)》请在课桌文档上搜索。
1、数据统计与分析方法,1、数据统计的一般方法;2、数据分析的一般方法;3、了解数据统计和分析在实际案例中的应用;4、了解时间序列分析及相关软件应用;,培训主要内容:,心电图的由来,1780年有一天,43岁的意大利解剖学家伽伐尼Galvani Luigi,1737-1798),在实验室解剖青蛙,在用银质手术刀触碰放在铁盘上的青蛙的时候,无意间发现青蛙腿部肌肉抽搐了一下,仿佛受到电流的刺激如果换用一种金属器械去触动青蛙,就无此种反应。,1832年,一个晴朗的日子,还是意大利,还是青蛙,只是做实验的人换成了马泰乌奇。这一次,马泰乌奇探测到损伤和未损伤的肌肉之间存在一种电流,他称之为“肌肉电流”。他发现
2、,包括心脏在内,一切正在收缩的肌肉都会产生肌肉电流。,医学研究者通过大量的临床数据发现正常和非正常的心电图,1、什么是数据?,数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。,数据表现形式,表现形式一,数据列表,数据表现形式二,描述性分析:数据分时段走势、差距变化情况以及 相应的时间背景,销售码洋趋势图,数据表现形式三,销售码洋结构比,图形可以帮助我们将数据转换成信息,数据类型的分类,1、计量资料(measurement data),用仪器、工具等测量方法获得的数据,又称数值变量。,特点:有计量
3、单位,如患者的身高(cm),体重(kg),血压(kPa)等.,2、计数资料(count data),按某种属性分类计数后得到的数据,又称无序分类变量,有二分类和多分类两种情形.,特点:无计量单位,如肤色(黑白)、血型(ABO)、职业(工农兵)、性别(男,女)等.,3、等级资料(ordinal data),半定性或半定量的观察结果,有大小顺序,又称有序分类变量.,如 癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。尿蛋白:,+,+及以上,实例数据,计量资料,计数资料,三类资料间关系,例:一组2040岁成年人的血压,以12kPa为界分为正常与异常两组,统计每组例数,8 低血压 8 正常血压
4、 12 轻度高血压 15 中度高血压 17 重度高血压,计量资料,等级资料,计数资料,第一部 数据统计概述,什么是统计方法,统计方法是指有关收集、整理、分析和解释统计数据,并对其所反映的问题作出一定结论的方法。统计方法是一种从微观结构上来研究物质的宏观性质及其规律的独特的方法。,一般统计方法,根据数据的类型可以分为以下三种统计方法1、计量资料的统计方法*2、计数资料的统计方法3、等级资料的统计方法,运用统计方法应遵循的原则,坚持用数据说话的基本观点。有目的地收集数据。掌握数据的来源。认真整理数据。,统计分析流程,确定问题确定分析目标,采用科学方法收集数据,考察数据时效性整理数据,统计分析,出具
5、分析报告,提出解决意或建议,计量资料的统计描述,1、频数分布(frequency distribution),为了了解数据的分布情况,可以编制频数表(frequency table).,(1)求极差(range):即最大值与最小值之差,又称为全距。(2)数据分组:由样本容量n确定组数、通常分10-15个组;一般采取等距分组,组距=极差/组数。(3)列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值,其它组段上限值忽略。(4)划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,频数表的编制步骤,表2-1:160名正常成年女子的血清甘油三酯(mmol/L),编制频数表,
6、绘制频数分布图,对称分布:以频数最多组段为中心左右大体对称.右(正)偏态分布:频数最多组段右侧组段数多.(skewed to the right distribution)左(负)偏态分布:频数最多组段左侧组段数多.(skewed to the right distribution),2、集中趋势的描述,统计上使用平均数(average)来反映计量资料的集中趋势(central tendency).,常用平均数有:1.算术均数(arithmetic mean),简称均数(mean)2.几何均数(geometric mean)3.中位数(median)4.百分位数(percentile),3、离
7、散趋势的描述,反映数据的离散度(Dispersion),即个体观察值的变异(variation)程度,常用的统计指标有:1.极差(Range)(全距)2.四分位数间距(Quartile range)3.方差(Variance)4.标准差(Standard Deviation)5.变异系数(Coefficient of Variation),四分位间距:QRP75 P25,三、SPSS实现计量资料的统计描述,下面是SPSS软件中绘制频数图的步骤,四、计数资料的统计描述,1、计数资料数据的整理,按年龄(2岁一组)与职业整理,2、常用相对数指标,计数资料常用的数据形式是绝对数,如某病的出院人数,治愈
8、人数等.但绝对数不具可比性,需要计算相对数.,率(rate):说明某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)比例基数 比例基数:100%、1000、10000/万、100000(1/10万)等 如:发病率、死亡率、发生率、阳性率、患病率等构成比(proportion):说明某一事物内部,各组成部分所占的比重,也叫百分比。构成比=(某部分观察单位数/各组成部分观察单位总数)100%如:教研室20人中高级职称有5人,占25。相对比(relative ratio):是A、B两个有关指标之比,说明A是B的若干倍或百分之几,通常用倍数或分数表示。如:男:女、医生:护士、教师:学生,
9、例:率与构成比,(1)不能以构成比代替率。(2)计算相对数的分母不宜过小,小则直接叙述。(3)进行率的对比分析时,应注意资料可比性。如比较疗效时,比较组间应病情轻重相同,性别影响,应按性别分组后再作比较。(4)正确求平均率。例:若P1=x1/n1 P2=x2/n2 P3=x3/n3 P(x1+x2+x3)/n1+n2+n3)(正确)P(P1+P2+P3)/3(错误),3、相对数应用注意事项,计数资料和等级资料的SPSS表示,五、统计表与统计图,统计表(statistical table)数据代替文字描述,便于统计结果的精确、简洁的表达和对比分析.统计图(statistical chart)用图
10、形代替数据,获得直观、形象的效果.,统计表,统计图,定义:将统计分析的事物及指标用表格列出.特点:避免长篇文字叙述,便于阅读和对比分析;数据具体.,定义:用点的位置,线段的升降,直条的长短或面积的大小等形式表达统计资料.特点:直观,醒目,常给人以深刻印象.,统计表由以下几个部分组成:标题、标目、线条、数字、备注,表2-9 某省某工厂 1994、1998年四项检测指标异常检出率,:TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。(丁建生等.中国卫生统计 1999;16(3):166),1、统计表的结构,备注:,表号 标题(包括何时、何地、何事),2、三线表,根据分组标目的复杂程度,统计表可大
11、致分为简单表和复合表。简单表(simple table):只按一个特征或标志分组。如表2-8。复合表(combinative table):按两个或两个以上特征或标志结合起来分组。如表2-9。,3、统计表的分类,3、不良统计表的修改,统计图(statistical chart 或statistical graph)是用点、线、面等几何图形,直观形象地表达、描述数据或结果。,3、统计图,SPSS绘制基本图形,SPSS绘制基本图形,条形图(Bar Chart),用途:用等宽直条的长短来表示相互独立的各统计指标的数值大小,也叫直条图.分单式和复式两种.,单式条形图,复式条形图,圆图(Pie Char
12、t),用途:以圆的半径将圆面分割成多个大小不等的扇形,以扇形面积来表达构成比的图形。,线图(Line Chart),用途:适用于连续变量资料,说明某事物因时间、条件推移而变迁的趋势。,直方图(Histogram),用途:直方图是以面积表示数量,适用于表达连续性资料的频数或频率分布。,第二部 数据分析概述,什么是数据分析,请牢记:所有的分析要从“结果”出发,没有结论的数字罗列并不是分析;“结果”:发现问题和解决问题。,数据分析不是一门复杂的科学;而是一些简单的“common sense”;复杂的运算通常只是令分析结果更差而不是更好;绝大多数是简单的想法和简单的沟通数据分析有时候是一门艺术同样的数
13、据会有不同的解读优秀和平庸的差异,有时候差在一种灵感,数据分析目的,让数据说话;行动的向导;杜绝浪费;提供决策的依据。,数据分析误区,误区一:展示元素不宜大于3个,数据分析误区,误区二:时间序列数据最好使用折线图,而不宜使用柱状图等,误区三:研究用数据最好不使用三维立体图,数据分析误区,误区四:为避免图表的欺骗性,图线最好占据2/3 至3/4的高度(调整Y轴刻度),数据分析误区,常用的数据分析方法,1、抽样法*2、聚类分析(Cluster Analysis)*3、因子分析(Factor Analysis)4、相关分析(Correlation Analysis)5、对应分析(Correspond
14、ence Analysis)6、回归分析(regression analysis)7、方差分析(ANOVA/Analysis of Variance)8、时间序列分析*,总体:,总体、个体,个体:,总体又叫母体,是研究对象的全体。出版商一个批次到货的全部都可以称为总体。,构成总体的基本单位,称为个体。每册书都是一个个体。,来货检验常用抽样方法进行,即从来货总件数中抽出一部分件数,并测试每件的有关册数是否够数的特性数据,进行统计分析后,对总体作出估计和判断。,一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(nN),如果每次抽取使总体内的各个个体被抽到的机会都相等,就把这种抽
15、样方法叫做简单随机抽样。抽样方法主要包括:随机抽样、分层抽样、整体抽样、系统抽样。,样本:,样本,样本又叫子样,是从总体中抽出来一部分个体的集合。样本中每个个体叫样品,样本中所包含样品数目称为样本大小,又叫样本量,常用n表示。对样本的特性进行测定,所得的数据称为样本值。当样本个数越多时,分析结果越接近总体的值,样本对总体的代表性就越好。,抽样方法,用的统计抽样方法主要有以下三种,随机抽样法分层抽样法系统抽样法,书业公司,抽样方法,随机抽样,指总体中每一个个体都有同等可能的机会被抽到。这种抽样方法事先不能考虑抽取哪一个样品,完全用偶然方法抽样,常用抽签或利用随机数表来抽取样品以保证样品代表性。,
16、当图书品种不多时,随机抽样是一种有效的抽样方法;,抽样方法,分层抽样,分层抽样是先将总体按照研究内容密切有关的主要因素分类或分层,然后在各层中按照随机原则抽取样本。分层抽样可以减少层内差异,增加样本的代表性。,当到货产品较多时,分层抽样是一种有效的抽样方法;,抽样方法,系统抽样,从总体中每隔K个个体抽取一个个体的抽样方法,比值K是总体容量N与样本容量n之比;,当出版商批量发货及产品特别多时,并且易作某种次序的整理时,系统抽样比分层抽样好;,1,2,.K K+1,K+2,.,2K 2K+1,2K+2,.,3K 直到 N为止,例,从具有1000个个体的总体中抽取50个个体。,总体、样本、数据间的关
17、系,总体,样本,结论,数据,抽样,分析,管理,测试,数理整理和统计,抽样的目的是通过样本来反映总体。在书业公司经营管理中,常常将测试的样本数据,通过整理加工,找出它们的特性,从而推断总体的变化规律、趋势和性质。一批数据的分布情况,可以用中心倾向及数据的分散程度来表示,表示中心倾向的有平均值、中位值等,表示数据分散程度的有方差、标准偏差、极差等。,描述总体数据离散程度的参数为方差2,描述总体数据中心倾向的数为均值。若利用样本参数近似描述总体状况时,可以利用样本方差S2近似代替总体方差2,利用样本均值X近似代替总体均值p。,数理整理和统计,样本平均值,样本中位值,X=,X1+X2+X3.+Xn,n
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 分析 方法
链接地址:https://www.desk33.com/p-250717.html