大数据分析与挖掘.pptx
《大数据分析与挖掘.pptx》由会员分享,可在线阅读,更多相关《大数据分析与挖掘.pptx(28页珍藏版)》请在课桌文档上搜索。
1、大数据与机器学习,海量数据可广泛获得,所稀缺的是如何从中挖掘出智慧和观点。Google 首席经济学家 Hal Varian 大数据分析主要依靠机器学习和大规模计算,机器学习已成为大数据的基石。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。简而言之,机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。,机器学习的常见用途,统计分析与数据挖掘,什么是数据挖掘?,数据分析与数据挖掘的区别
2、,数据分析只是在已定的假设、先验约束上处理原有计算方法,统计方法,将数据分析转化为信息,而这些信息如果需要进一步的获得认知,转化为有效的预测和决策,这时就需要数据挖掘,数据分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具,如果我们想要从数据中提取一定的规律(即认知)往往需要数据分析和数据挖掘结合使用。,大数据分析与挖掘的常见用途,1、自动预测趋势和行为,数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。,谷歌预测冬季流感的传播,初步锁定与流感相关的关键词条,谷歌数据库用户搜索记录,美国疾控中心记录的流感事件发生的区域和时间,预
3、测模型,预测结果,谷歌准确的预测出2009年甲型H1N1流感的爆发,并明确指出爆发地所在的州以及时间。与滞后的官方数据相比,谷歌成为一个更有效及时的指示者。,优化词条筛选,大数据分析与挖掘的常见用途,2、关联分析,数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。,购物篮分析,经过关联分析,发现顾客经常同时购买的产品中,啤酒与尿布同时出现的频率最高,大数据分析与挖掘的常
4、见用途,3、聚类,数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。,经过对电信行业用户的特征进行聚类,可以完成客户的画像,可以基于多个维度完成画像,也可以基于关联分析的基础上进行降维处理后再开展画像。,群体A:年龄50岁以上 年收入20K以下 月话费支出50元以下群体B:年龄3050岁 年收入80K以上 月话费支出200元以上群体C:年龄2030岁 年收入50K 月话费支出100元,大数据分析与挖掘的常见用途,4、概念描述,概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者
5、描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。,决策树,大数据分析与挖掘的常见用途,4、概念描述,概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。,大数据分析与挖掘的常见用途,5、偏差检测,数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在
6、的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。,一个人的年龄为-999可能是程序处理缺省数据的方式导致的一个公司的高管工资明显高于普通员工可能成为异常数据但也许是合理的一部住宅电话的话费由每月200元以内增加到数千元可能因为盗打或其他原因所致一张信用卡突然出现明显的高额消费也许是因为盗用的信用卡,1、异常数据与众不同,往往具有相对性 如高与矮、疯子与常人2、常用的检测方法 异常挖掘、离群挖掘、例外挖掘、稀有事件挖掘,大数据分析与挖掘项目的特点,1.1大数据分析与挖掘经常是从技术角度切入:
7、未知的探索1.2比传统项目多了很多尝试成本:1.3算法与模型的适用性与时间、地域以及其他外部条件影响1.4经常要在目标要求与算法的复杂性、性能之间做出取舍,数据挖掘工作常见误区,只依赖一项技术/算法,MCLP多目标线性规划算法,KNNK近邻算法,数据挖掘工作常见误区,同样研究对象应用一种模型,算法模型的选择,需要考虑模型对数据的适用性,只有结合数据的内在特征、模型的假设条件,才能建立合适的模型,也只有针对具体数据集,才能谈模型的好坏。因此数据本身的差异,决定了算法模型选择的差异。即使研究目的相同,研究对象相似,由于影响数据生成过程的因素差异性较大,数据的具体表现形态也有较大差异,算法也会有截然
8、不同。随着时间的推移,数据的形态发生改变,因此有可能需要重新选择合适的模型,或者,对原有相同模型进行参数调整。,数据挖掘工作常见误区,缺乏数据,对于分类问题或预估问题来说,常常缺乏准确标注的案例。,例如:欺诈侦测(Fraud Detection):在上百万的交易中,可能只有屈指可数的欺诈交易,还有很多的欺诈交易没有被正确标注出来,这就需要在建模前花费大量人力来修正。信用评分(Credit Scoring):需要对潜在的高风险客户进行长期跟踪(比如两年),从而积累足够的评分样本。,数据挖掘工作常见误区,同样研究对象应用一种模型,负荷较稳定专业技术支持,负荷总量逐步提高至稳定,周期性强节假日特性强
9、日夜负荷差大,有学校的台变,成熟小区台变,商铺较多的台变,新建小区台变,大数据分析与挖掘项目的开展,大数据分析与挖掘的标准流程,数据挖掘方法论,跨行业数据挖掘标准流程(CRISP-DM),业务理解,数据理解,数据准备,评估,部署,需求分析:从业务的角度理解项目的目的、范围、业务定义。问题识别:识别需求中待所需业务问题的内涵。问题定义:对业务问题进行定义,确定问题概念范畴。问题分解:将复杂问题分解为几个相当对简单的子问题。问题转化:将业务问题转化为能够被数据挖掘问题。,关键要素:问题转化,工作内容,将业务需求转化为数据挖掘问题。如:分类、推荐、回归、聚类、关联规则分析、时间序列分析、特征选择、流
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 挖掘

链接地址:https://www.desk33.com/p-354531.html