数据分析方法培训.pptx
,数据分析方法培训,目录,数据分析前的思考,案例分享,深层次数据分析,数据分析前,我们需要思考,3,孙子兵法谋攻篇:故上兵伐谋,其次伐交,其次伐兵,其下攻城;攻城之法为不得已。,像一场战役的总指挥影响着整个战役的胜败一样,数据分析师的思想对于整体分析思路,甚至分析结果都有着关键性的作用。,问题,分析结果呈现,分析思路与方法,数据选取,数据分析前,我们怎么去思考?,每一个步骤可能面临的问题以及需要准备的东西?4,选取的分析,软件以及分,析方法(统,计学相关方,法)。,分析问题和解决问题的思路,5,定义问题,第一步,首先,要搞清问题的实质,准确、完整、真实地表达问题。,其次,弄清楚为什么要解决这个问题?最后,解决这个问题的意义何在?是必须解决还是无关紧要,或是需要马上解决还是不太着急。,第二步,收集整理信息,搜集、整理关于要解决问题的历史资料、类似情况和现状。,第三步,选取分析方法,分析涉及到的主要维度,为后面提取数据需求作准备;,第四步,数据提取整理,根据分析内容以及分析方法,提出分析所需的数据需求;,对于反馈回来的数据,需要进行部分加工,以便更能反应所要分析的问题。,第五步,分析结果及结论,根据分析的结果,得出一些当前问题产生的一些结论。这,里注意分析的方法以及维度,结果的展示方式等。结论需要求足够的数据做支撑。,第六步,实施及建议措施,针对数据分析结论,给出当前问题的解决建议措施。,一方面从业务层面进行建议措施,另一方面,可以就问题点进行更深层次分析,给出数据挖掘层面的解决措施。,第七步,实施效果评估及报告整理,根据措施实施效果进行实际评估,将完成的分析过程,结,果以及评估整理报告,为以后出现问题提供经验教训。对于本次没有完全解决的问题,进行说明。,例如,从现有的报表数据中就能够看到当前问题点的数据情况或者一段时间的趋势;两个重点步骤,精确的陈述问题,Where-哪里存在问题?What-存在的问题是什么?,Why-原因在哪里?When-什么时候开始出现这样的问题?Who-与什么对象有关?How many-发生的次数和数量?How much-损失有多大?,爱因斯坦说:“精确的陈述问题比解決问题还来得重要”5W2H法:5W:What,When,Where,Who,Why;2H:How及How many;,使用这个方法,阿根廷队世界杯输球了,如果你,是马拉多纳,你怎么去思考?,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,问题展现方式,问题现状直接原因,最终原因,问题的结构如同这座冰山初步的问题分析,深层次的问题分析,问题结构是由现状、直接原因以及最终原因构成的。针对直接原因进行的叫初步问题分析,针对最终原因进行分析的叫深层次问题分析。7,治标,治本,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,问题分解,8,问题陈述,问题/假设1,问题/假设2,问题/假设3,分支问题分支问题,分支问题分支问题分支问题,分支问题,为什么使用逻辑树?,1.将问题分成几个部分使解决问题的工作可以分成智力上能够解决的几个部分不同部分可按轻重缓急区分工作责任能分派到各人,2.保证问题获得完整地解决将问题的各个部分解决好,即可解决整个问题所分问题的各个部分各不相同,而且包括了各个方面(即没有重叠没有遗漏)3.使项目小组共同了解解决问题的框架,4.协助重点使用组织框架及理论,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,分析方法,统计方法的三大特性,用三句话来简单概括一下:,反应客观现象的数据,描述性统计(包括统计数据的收集、整理、显示和分析),实用性:除了实情,数据能证明一切;丰富性:统计就像比基尼,露出来的部分固然诱人,没露出来的部分才是最要命的;公平性:我们相信上帝,其它人请用数据说话。概率论(包括分布理论、大数定律和中心极限定理),推断统计(利用样本信息和概率论对总体的数量特征进行估计和检验等),总体内在的数量规律性9,样本数据总体数据,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,描述性统计分析,“五点法”:最小值,1/4分位数,均值,3/4分位数,最大值“两度”:峰度,偏度六西格玛:检验统计量的取值空间6 10,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,2,1,2,0,y,-1,y,-2,-2,-1,0,1,-1,-2,0,2,2,1,y,0,y,4,6,8,负相关,相关但非线性相关,推断统计分析,11,回归分析是统计分析思想中最基础、最集中的一个领域。,高斯、高尔顿相关分析&回归分析,-3,-2,1,2,(a),-2,1,2,(b),x,-2,-1,0,1,2,x,-3,-2,-1,0,1,2,3,x,-1 0不相 x 关(c),-1 0正相关(d),变量的选取;预测推断;P值:回归分析就是放“P”,放得好,就合格。,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,变量分析方法选取,对象,变量的关系,类型,因变量自变量,预测和解释变量的个数,变量的,相,互关系,变量的,结,构关系,多因变量与自变量多因变量与自变量单一变量存在多,存在多重关系存在单一关系重关系,变量,样本,因变量测量尺度,结构方程式模式数量型非数量型,数量型非数量型,自变量尺度测量,典型相关分析多元方差分析,因变量尺度测量多元回归分析结合分析,数量型非数量型多元判别分析Logistic回归离散选择模型CHAID,因子分析/主成分析,聚类分析,变量,测,量,尺度,数量型,非,数量型,多维尺度分析,对应分析,一张简单的图胜过千言万语!12,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,数据挖掘分析,13,按挖掘方法分类:包括统计方法,机器学习方法,神经网络方法和数据库方法,其中:,统计方法可分为:判别分析(贝叶斯判别、费歇尔判别、非参数判别等),聚类分析(系统聚类、动态聚类等),探索性分析(主成分分析等)等。机器学习方法可分为:归纳学习方法(决策树、规则归纳等),基于范例学习,遗传算法等。神经网络方法可以分为:前向神经网络(BP算法等),自组织神经网络(自组织特征映射、竞争学习等)。数据库方法分为:多为数据分析和OLAP技术,此外还有面向属性的归纳方法。,关联规则关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物预测到。,Ps:,多元统计分析中的聚类分析有个阈值,用于确定分类的一个临界值,平时会遇到把它读成f,误以为它是“阀”字。正确的应该是阈(念y)值,而不是阀值.,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,网管中心数据 CRM数据,一经数据 第三方调查数据 14,海量的数据,eg,数据提取时注意的几点问题。经分数据 BOSS数据,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,选取分析所需的相关数据,制定数据提取需求,15,人口统计 性别 年龄 户藉 职业 婚姻状况 教育程度 收入,客户,办理时间地点 办理的渠道 办理的业务种类 生效和失效时间,购买行为 消费行为 沟通记录 销售概率,帐单信息,分群特征 离网概率 离网原因,客户价值高利润率中等利润率低利润率负利润率 服务与产品 使用的产品 使用的服务功能 接受的营销offer 享受的客户服务,态度形象价值观生活方式心理因素 客户偏好 渠道偏好 联络时间偏好 服务内容偏好,帐户信息,高级资料 性格和爱好 反感的业务 家庭情况 缴费方式,使用清单 缴费记录行为信息,基本资料地址、电话、email、籍贯等语言、行业手机相关信息网络状况,业务办理信息,行为方式通话时段繁忙和非繁忙通话量漫游服务方便程度行为方式的变化 客户交互信息 客户交互概况 整合的投诉历史 整合的咨询历史 主动联络客户历史客户分析信息,注意数据提取粒度,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,数据质量的评估,在现实社会中,存在着大量的“脏”数据 不完整性(数据结构的设计人员、数据采集设备和数据录入人员)缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 噪音数据(采集数据的设备、数据录入人员、数据传输)数据中包含错误的信息 存在着部分偏离期望值的孤立点 不一致性(数据结构的设计人员、数据录入人员)数据结构的不一致性 Label的不一致性 数据值的不一致性,业务角度对于数据质量进行初步评估!16,数据类型冲突 性别:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String 数据标签冲突:解决同名异义、异名同义 学生成绩、分数 度量单位冲突 学生成绩 百分制:100 0 五分制:A、B、C、D、E 字符表示:优、良、及格、不及格 概念不清 最近交易额:前一个小时、昨天、本周、本月?聚集冲突:根源在于表结构的设计,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,数据质量的评估,技术角度进行数据质量评估17,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,数据的清洗处理,主要任务:补充缺失数据识别孤立点,平滑噪音数据,处理不一致的数据,处理方法:,分箱(Binning)的方法:聚类方法:检测并消除异常点线性回归:对不符合回归的数据进行平滑处理人机结合共同检测:由计算机检测可疑的点,然后由用户确认 18,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,指标分析与政策分析并重;反应重点问题、实事求是;材料、数据要真实,论据要有说服力。,切记,分析角度:缺乏分析中心思想或主干线,文字表达:“一图二表三文字”逻辑结构:论点、论据、论证19,收集整理 定义问题 信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,怎样将分析的结果呈现出来?,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,分析结果呈现基本原则,20,确定表达的主题 使用图形的目的:将思想和观点形象化的表达,加深读者或听众的印象。使用图表时,必须明确通过图表要表达的信息是什么。,确定对比关系 同一类别不同项目间的对比 不同类别不同项目间的对比 时间对比:把时间作为项目分类的标准 频率对比:以部分占整体的百分比为项目分类的标准 相关性对比:按照项目之间的函数关系作为项目分类的标准 其他对比:逻辑关系的对比(因果,时间序列),选择图形饼图柱状图百分比柱状图堆积柱状图线形图雷达图面积图点图气泡图矩阵图逻辑图,数据分析结果呈现准备工作:,如何用图来表示数据?,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,定量数据的图表示,对于一个定量变量;用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,x 10000,定性数据的图表示,定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。丌同页面内容访问量和累计访问量,大众化网页,单类网页访问次数占,比大于10;,累积网页访问次数占,比达81.05;,单类网页访问次数占,比510;,累积网页访问次数占,比达15.41;,单类网页访问次数占,比小于5;,累积网页访问次数占,比丌足10;,个性化网页,小众化网页,44.60%,81.05%,96.42%,20%0%,40%,80%60%,100%,100,3020,5040,60,博客,娱乐,体育,游戏,女性,星座,金融,笑话,音乐,彩票,搜索,微博,视频,页面访问量,累计占比,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,常见的分析模式,内容决定形式,形式服务于内容,当形式经过实践考验被普遍接受后就固化成一种模式。分析报告的模式主要包括:金字塔式;综合式;三步曲;专题式;通报;简报式;工作汇报式.24,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,针对问题1建议措施针对问题2建议措施,针对问题3建议措施现状及问题总结数据分析分析总结25,建议措施分类业务层面数据挖掘,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,分析总结及建议措施,定义问题,收集整理信息,选取分析方法,数据提取整理,分析结果及结论,实施及建议措施,实施效果评估及报告整理,实施效果评估及报告整理,营销活动效果反馈数据,分析对于问题的解决程度;活动历史响应数据的积累;活动流程固化;业务模型优化提升;对比组,显示模型本身的优越性;营销活动数据对于模型的提升情况;26,回顾一下,27,分析前的思考?,目录,数据分析前的思考,案例分享,深层次数据分析,29,四大套餐沉默率高,非沉默用户人均流量低,占套餐用户总人数80.55的5元套餐沉默率为39.44,高于当前套餐沉默率指标30。其它套餐虽然沉默率低,但总人数也低,故降低5元套餐沉默率是当前急需解决的问题。,四大套餐非沉默用户人均流量均远低于套餐包含的标准流量,而人数最多的5元套餐(含30MGPRS流量)人均流量也只有10.72M,是套餐可使用量的35.73。,怎样降低套餐沉默率,怎样提升套餐均流量,手机上网当前遇到的问题“一高两低”按沉默用户和非沉默用户分析,沉默用户,注:沉默用户指套餐沉默用户,由于2元、5元、10元、20元这四大套餐用户占总套餐用户的85%(5月数据),故取四大套餐为研究对象。各套餐人数占比=套餐用户数/四大套餐用户总数;套餐使用率=人均套餐使用量/套餐包含的标准流量。,非沉默用户,手机上网问题分解及用户定义,普及率偏低,提升缓慢套餐沉默率偏高套餐流量利用率偏低部分用户套餐需要升级30,查找潜在用户查找可激发的套餐沉默用户查找可提升流量用户寻找到超量用户,扩大手机上网用户规模,提升普及率激活沉默用户,降低套餐沉默率增强营销,提升手机上网流量套餐升级,相关分析数据字段提取,定制手机报类型 彩铃主动下载次数是否使用手机搜索31,基本属性手机号码 品牌 付费类型imei号终端是否支GPRS入网时间年龄性别ARPU,数据业务点对点短信上行条数 梦网短信条数点对点彩信上行量短信计费量新业务费用是否是转转赢用户是否是大赢家用户是否飞信用户是否无线音乐高级会员,GPRSGPRS套餐类型GPRS流量GPRS费用CMWAP流量CMNET流量cmwap登陆次数cmnet登陆次数,语音业务语音业务费用 本地通话时长本地通话次数总打入号码数总打出号码数,32,查找潜在用户(略去),沉默用户流量提升分析总结及建议措施,分析总结 手机上网整体普及率较低,仅33;近半年多来手机上网普及率提升较慢;动感地带品牌对于手机上网接受程度最高;手机上网业务粘性较差;手机上网与特定业务订购有很强关联性;5元套餐是提升重点;,建议措施手上网潜在用户查找建议措施:较低的普及率为手机上网潜在用户查找提供了上升的空间;上月或上上月是手机上网活跃用户;使用特定业务的手机上网沉默用户;加强手机上网业务体验营销和手机上网助手业务的宣传;加强手机上网用户主动偏好需求研究。,对于不满足建议查找条件的非手机上网用户,利用数据挖掘技术进行查找。33,34,手机上网套餐沉默用户,查找,潜在手机上网活跃用户,结果,查找思路,手机上网潜在活跃用户查找潜在手机,上网活跃用户20.8%,非手机上网营销目标用户:,79.2%,目标用户提取规则,目录,数据分析前的思考,案例分享,深层次数据分析,这样的客户需求,我们怎么处理?,36,用户和需求:对于复杂现象的简单结论,市场谁将会购买这个产品?预测我们将面临何种需求?忠诚度 谁最有可能流失?,信用哪一类人群不还款的倾向严重?欺诈什么时候会发生?,当然这些问题,从业务角度,能够有一定的回答,但是,如果有更深层次的分析,会得到比业务层面更好的效果!,37,简单的呈现一样当前的一些数据 描述性的统计分析方法,不同维度交叉分析回归统计,多元统计分析方法,数据分析与数据挖掘的关系数据挖掘数据分析数据呈现更深层次分析,数据挖掘模型相关算法,更深层次的分析,38,基于数据分析之上的数,据挖掘,数据挖掘的重点和难点是什么?,数据挖掘是数据分析的一个环节,同时是解决实际问题的一个环节,当然,数据挖掘的应用就能体现出来!,竞争优越性,数据挖掘过程,数据准备,数据收集,模型开发准备,模型数据转换,商业理解耗用时间70%时间用于数据处理39,模型开发期数据探索,经营分析支持业务模型模型部署Scoring ADS,Modeling ADS,Thank-you,