数据处理、统计方法与数据分析.ppt
《数据处理、统计方法与数据分析.ppt》由会员分享,可在线阅读,更多相关《数据处理、统计方法与数据分析.ppt(100页珍藏版)》请在课桌文档上搜索。
1、,学习目的,了解数据处理的程序与方法1、数据的检查与复查2、数的编码3、数据的录入(数据模板的建立与数据库的建立)掌握基本统计分析方法及其操作懂得统计分析方法的选择,一、调查数据的处理,一、数据的审核 1数据审查的基本任务:审查数据的可靠性、标准性和完整性。2数据审核的办法)问卷检查()合格问卷:数据真实;操作规范;填答完整不合格问卷的处理:重做、补救;作废)问卷复查:从完成的调查问卷中,随机抽取515的重新进行调查。一是核实原来的调查员是否真的对个案进行过调查;二是可将两次调查结果进行对比以检查第一次调查的质量,二、数据的编码(将问卷中的文字答案转换成数字的过程),1、封闭式单选问题的编码这
2、类问题,通常调查问卷在设计时就已将答案的代码确定好了。例如:A1 您的性别:男 女A2 您现在读:大一 大二 大三 大四A3 您的 户口是:农村 城镇 假如有一样本是来自农村的大二男生,他在这三个问题上的答案,用编码表示就是121。,、矩阵式问题与表格式问题的编码,你觉得下列现象在你们学校是否严重?(请在每一行适当的格中打),()矩阵式问题,您和您父母的文化程度*,()表格式问题,3、封闭式多选问题的编码,问题:你上大学的学费来源是()1-助学贷款 2-勤工俭学 3-父母给与 4-自己做兼职 5-社会赞助通常,多项选择题编码时,把多项选择题的每一个选项看作一个变量来定义。0代表没有被选中,1代
3、表被选中。这样,多项选择题中有几个选项,就会变成几个单选变量,这些单选变量的选项都有两个,就是选中和未选,即0或1。如上述问题有5个多选项,则可将5个选项分别设置5个变量:A1、A2、A3、A4、A5,这样该问题分解为5个变量,每个变量设置变量值0和1。,假如某被调查的大学生选择的是勤工俭学和父母给与,那么他对此题回答,相应的编码是01100,4、排序题,(1)对选项重要性进行排序例1:您购买商品时在 品牌 流行 质量 实用 价格 中对它们的关注程度先后顺序是(请填代号重新排列)第一位 第二位 第三位 第四位 第五位编码:定义五个变量,分别可以代表第一位 第五位,每个变量的Value都做如下定
4、义:“1”品牌,“2”流行,“3”质量,“4”实用,“5”价格录入:录入的数字1、2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的变量下输入“3“。,(2)选择排序题:例2:“你认为开展保持党员先进性教育活动的最重的目标是哪三项,并按重要性从高到低排序”。A、提高党员素质 B、加强基层组织 C、坚持发扬民主D、激发创业热情 E、服务人民群众 F、促进各项工作编码:以ABCDEF6个选项分别对应定义6个变量,每个变量的Value都做同样的如下定义:“1”未选,“2”排第一,“3”排第二,“4”排第三。录入:以变量的Value值录入。比如三个括号里分别选的是 ECF,则该
5、题的6个变量的值应该分别录入:1(代表A选项未选)、1、3(代表C选项排在第二)、1、2、4。注:该方法是对多选题和排序题的方法结合的一种方法,对重要性排序题也同样适用,只是两者用的分析方法不同(例1用频数分析、例2用描述分析),输出结果从不同的侧面反映问题的重要性(前一种方法从位次从变量的频数看排序,后一种方法从变量出发看排序)。,5、开放题编码,()固定多种答案类:依次编码或归类编码。如职业;学历;收入;年龄等()文段类:列出答案;合并答案;编码、半开放题编码:封闭题“其他”选项,同上,三、数据的录入,(一)数据的简录:把编码后的数据简单记录下来(为机录做准备)简录的基本形式有两种,即个案
6、式和表列式1个案简录,2列表式简录表表列式简录表是将所有个案的数据都记录在一张表上。如表,*数据录入:将计算机不可识别的形式转换成计算机能识别的形式的过程数据录入有两种力法:机器录入和人工录入常用的录入软件:xcel SpssSPSS(Statiscal Package for Social Sciences)社会科学统计软件包)是世界上著名的统计分析软件之一,SPSS数据的录入,SPSS数据的录入,第一步:建立数据模板:即把调查问卷中的每一个题输入统计软件、在SPSS“Variable View”页面定义一些变量属性,如变量名、变量长度、变量标签、变量的缺失值等等。对于某些变量属性还会拉出对
7、象框,可以作进一步定义、输入问卷每一个变量名、变量标签、和答案编码,、当用户启动SPSS后系统首先显示一个提示窗口,询问用户要SPSS做什么时,把鼠标移至“Type in data”项上单击左键选中,然后单击“OK”按钮,2定义变量,在数据编辑窗口左下角激活(Variable View)变量定义窗口 在此窗口中,定义数据变量的名称、数据类型、宽度、小数位和标记等信息。1)变量名称:Name:变量名,,2)Type:变量的类型Numeric为数值型变量;例如:12345.67 Comma为逗号型变量:用句号分割数据的整数和小数,整数部分从个位开始往前逢3位用逗号分隔。如原始数据12313342.
8、78表示成逗号型为12,313,342.78;Dot为句号型变量:用逗号分割数据的整数和小数,整数部分从个位开始往前逢3位用句号分隔。如原始数据12313342.78表示成句点型为12.313.342,78;Scientific notation为科学计数型变量。如原始数据1231.3表示成科学计数型为12.313E2;Date为日期格式型变量;例如:mm/dd/yyyy Dollar为美元型变量;例如:$12345.67 Custom currency自定义性。String为字符串型变量。,3)Width:数据或字符串的宽度,默认值为8个字符。4)Decimal:小数位数。5)Label:变
9、量标签,用来说明变量所代表的意义。6)Value:变量赋值。7)Missing:定义缺失值类型 8)Columns:定义数据视区中该变量对应列的显示列宽,默认值为8个字符。9)Align:定义数据在单元中的对齐方式。10)Measure:定义度量变量类型。可有Scale、Ordinal和Nominal,它们代表3种变量,第二步:建立数据库:即将问卷调查所得信息或数据输入统计软件在“DateView”页输入数据数据输完之后,最后单击file,选择Save,把输入的数据保存为后缀为*.sav的数据文件。,数据检查,(1)统计方法检查(2)逻辑检查()缺失值的处理:)替代:以该统计量的平均值代替;还
10、可以将缺失值定义为一个没有用到的数字比如0或,然后界定有效选项不包括0或)删除:删除有缺失值的个案或仅在相应的分析中作必要的删除,四统计分析方法,统计分析方法的内容分为单变量分析、双变量分析和多变量分析。统计方法:频数分析、集中趋势分析离散程度分析、差别分析;相关分析、回归分析、聚类分析等*统计分析的类型 描述分析、推论分析,描述统计分析描述统计的主要目的在于用最简单的概括形式反映出大量变量资料所容纳的基本信息首先要确定变量的层次。变量的层次由低到高依次为:定类层次、定序层次、定距层次与定比层次,定类层次是指变量的值只能把调查对象分类。性别分为男、女两值。定序变量的值能把调查对象排列高低或大小
11、,有比较的数学特质。成绩分为优秀、良好、及格和不及格。定距能确定变量值与值之间的距离,具有加减的数学特质。适用较低测量层次的统计方法,也可以适用于较高的层次。,一、单变量的描述统计(一)频数与百分数分析 1.定类层次1)频数分析(frequencydistribution)这是最基本的一种方法描述的是变量取不同值的个案的次数分布情况,一般用频数分布表的形式来表达。假如我们调查某校550个学生父亲的职业,通过频数分析,很容易看出其中农民最多,干部最少。,某校学生父亲职业的频数分布,2)百分率/频率(rates distribution)百分率分布是指变量取不同值的个案的次数相对于总数的比例分布的
12、情况。在SPSS软件中频数分布和频率分布的统计功能可以通过如下步骤获得。某校学生父亲职业的百分率分布,2定序层次 1)累积频数(cumulatefrequency):累积频数就是把频数逐级相加起来。分为两种,一种是向上累加,一种是向下累加。它们的作用是使我们容易知道某值以上或以下之次数总和。2)累积百分(cumulativepercentage)累积百分率就是把各级的百分率数值逐级相加,其作用与累积频数,3定距、定比层次通常定距和定比层次所适用的统计分析方法是基本一致的。由于定距、定比变量的值是非常多的,比如某社区居民每月用于日常消费的费用可能会有630元、700元、850元、1200元等等,
13、如果每个值都要计算其频数有多少就会很麻烦很琐碎。所以对于定距和定比变量,一般是先将各值分成若干组,然后再计算每组的频数。,某社区居民每月用于日常消费的费用频数分布,(二)集中趋势分析(measures of central tendency):用一个数值来代表资料的集结情况。频数分布和频率分布用来简化变量的资料分布情况,但还不够精简,还可以用集中趋势测量法,找出一个代表性的数值来反映变量资料的集结情况。这种方法可以根据这个代表数值来估计或预测每个个案的数值。不同测量层次的变量有相应的集中趋势测量法,1定类层次 众数(mode):频数最大的数值。()定义:样本对变量取值中出现次数最多的值。例如:
14、(众数)()特点:简单直观地描述变量的主要趋势。()注意:一组数据中可能会有不只一个众数。()适用范围:定类变量;当然也可以用来分析定序、定距和定比等较高层次的变量。众数的计算方法是先列出频数分布表,然后找最大的频数,最大频数所对应的变量的取值就是众数众数适合于分析定类层次的变量,,甲校学生的父亲的职业,但是,众值的代表性有多大呢?我们要根据各个个案之间的差异情况而定。如果个案之间的差异很大,众值的代表性就会很低。对于定类变量而言,可以用离异比率(variation)来检测。v=(n-fmo)/n 其中fmo为众值次数,n为个案数。离异比率反映了个案偏离众值的情况。,2定序层次 中位数(med
15、ian简写Md):针对原始数据而言,中位值的计算是将各个案由低至高或由高全低排列起来,位于中间位置的个案的值就是中位数。如这组数据是奇数个,则中间位置的数值为众位数;如取值是偶数个,则中间位置的两个数值的平均数为中位数如某楼栋住户的人数由少至多排列如下:2,3,4,6,8中位数:,3定距、定比层次定距和定比层次的变量是可以作加减运算的,所以可以将所有变量的值相加起来,求取一个平均的数值,即均值或称平均数(mean)平均数是最常使用的中心趋势度量指标。平均数等于变量值之和除以个案数。特点:最有意义的统计量;所含信息量最大;但极易受极端值的影响,与众位数相比不够稳定。如果存在极端值或分布很偏时使用
16、中位数可能更为合适,分析定距变量个案的集中情况 用(Mean):把变量的各个数值相加起来,求取一个平均的数值。比如:某村10户家庭的月收入如下:600元,400元,400元,800元,200元,200元,400元,300元,600 元,300元。每户家庭的平均月收入为420元。,在SPSS中,众数、中位数、均值的计算可由下列操作达成:首先打开 Analyze-Descriptive Statistics-Frequencies进入Frequencies对话框后,在左边的变量列表中选择要统计频数的变量,运用黑色箭头,移入右边Variables(变量)框中。然后单击对话框下边的Statistics
17、(统计量)按钮,展开Frequencies:Statistics对话框,在Central Tendency(集中趋势)项,可以选择计算平均数(Mean)、中位数(Median)、众数(Mode)等统计量。最后单击Continue。单击Chats(图表)按钮,可以选择适当的图表类型,Histograms(直方图),Pie charts(圆瓣图)。然后点击Continue。最后单击OK,运行频数统计程序。输出频数分析结果。对于输出结果,读者既可以在SPSS结果框中双击表或图进行编辑,也可以把统计结果拷贝到Word文档中进行编辑。,举例:假如我们要对某企业公司雇员的受教育年限和当前的薪金进行频率分析
18、。我们可以这样操作:第一步:在SPSS中打开该企业雇员的相关数据库。如下图。,第二步:打开 Analyze-Descriptive Statistics-Frequencies。在左边的变量列表中选择Educational Level(受教育年限)和Current Salary(当前薪金),运用黑色箭头,移入右边Variables(变量)框中。如下图,第三步:单击对话框下边的Statistics(统计量)按钮,展开Frequencies:Statistics对话框,在Central Tendency(集中趋势)项,可以选择计算平均数(Mean)、中位数(Median)、两个统计量。最后单击Co
19、ntinue。如下图,第五步:单击“OK”。出现Frequencies统计结果表。(见下表)在表中我们发现,该公司雇员的平均受教育年限是13.49年,当前的平均薪金是34,419.57元,(三)离散趋势分析,离散趋势测量法是用一个值来反映个案与个案之间的差异情况。离散趋势与集中趋势相互对应相互补充如果个案之间的差异很大,则众数、中位数和均值的代表性就会很低。因此对于每个变量的资料,就要测量集中趋势,也要测量离散或差异的程度,1、定类层次:离异比率(Variation Ratio)离异比率即非众数与全部个案数目的比率。计算公式为,其中,n为全部个案数目,fmo为众数的频数。离异比率愈大,就表示众
20、数的代表性愈小,用众数来作估计或预测时所犯的错误就愈大。,2定序层次:四分位差 四分位差的计算方法,是将个案由低至高或由高至低排列,然后分为四个等分(即每等分包括25的个案),则第一个四分位的值(Q1)与第三个四分位的值(Q3)的差异,就是四分位差(Q),即QQ3-Q1,上图表示四个等分。Q:就是中位数,两边各有50的个案。要注意的是,在中位数的两旁的Q1和Q3之间,共有50的个案。因此,Q1和Q3的差异越大,表示有50的个案的分布越远离中位数,因而中位数的代表性就越小,以之作为估计或预测所犯的错误就越大。,计算四分位差,要先求出的Q1位置和Q3的位置,然后计算在这两个位置上的值的差异。对于一
21、组的数据,Q1的位置和Q3的位置的计算公式为:,其中n是全部个案的数目。,3定距、定比层次 标准差(stand deviation)分析定距和定比的变量的离散情况,最常用的方法就是标准差,简写为S即将各数值(x)与其均值()之差的平方各除以全部个案数目,然后取其平方根,公式*如下:,在SPSS统计软件中离散趋势的分析可以通过下述过程实现:打开 Analyze-Descriptive Statistics-Frequencies进入Frequencies对话框后,在左边的变量列表中选择要统计频数的变量,运用黑色箭头,移入右边Variables(变量)框中。然后单击对话框下边的Statistics
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据处理 统计 方法 数据 分析

链接地址:https://www.desk33.com/p-250663.html