大数据之数据挖掘技术.ppt
《大数据之数据挖掘技术.ppt》由会员分享,可在线阅读,更多相关《大数据之数据挖掘技术.ppt(50页珍藏版)》请在课桌文档上搜索。
1、S,数据挖掘技术,3/23/2023,数据挖掘技术的由来,大量信息在给人们带来方便的同时也带来了一大堆问题:第一:是信息过量,难以消化;第二:是信息真假难以辨识;第三:是信息安全难以保证;第四:是信息形式不一致,难以统一处理。,网络之后的下一个技术热点,3/23/2023,数据挖掘技术的由来,“要学会抛弃信息”“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?”数据开采和知识发现(DMKD)技术应运而生,网络之后的下一个技术热点,3/23/2023,数据挖掘技术的由来,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的
2、信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。,数据爆炸但知识贫乏,3/23/2023,数据挖掘技术的由来,海量数据搜集强大的多处理器计算机数据挖掘算法,支持数据挖掘技术的基础,3/23/2023,数据挖掘技术的由来,从商业数据到商业信息的进化,3/23/2023,数据挖掘技术的由来,数据挖掘逐渐演变的过程,算法学习,专家系统,机器学习,3/23/2023,数据挖掘的定义,数
3、据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,技术上的定义及含义,3/23/2023,数据挖掘的定义,数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题,技术上的定义及含义,3/23/2023,数据挖掘的定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。按企业既定业务目标
4、,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。,商业角度的定义,3/23/2023,数据挖掘的定义,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识.数据挖掘所得到的信息应具有先未知,有效和可实用三个特征.,数据挖掘与传统分析方法的区别,3/23/2023,数据挖掘的定义,数据仓库是为决策支持而不是为事务处理所设计的数据库,它是将不同来源的事务处理数据库中对决策有用的数据提取出来而建立。数据仓库的发展是数据挖掘的动力之一。但数据挖掘既可以在数据仓库中进行,也可以在
5、传统的事务型数据库中进行。,数据挖掘和数据仓库,3/23/2023,数据挖掘的定义,数据挖掘和数据仓库,数据源,数据仓库,各分公司数据集,分析数据集,数据挖掘数据集,3/23/2023,数据挖掘的定义,在线分析处理(OLAP,On-Line analytical processing)是一种增强的查询技术,是决策支持领域的一部分。但又不同于传统的查询技术。传统的查询和报表工具是告诉你数据库中都有什么(what happened),OLAP则更进一步告诉你下一步会怎么样(What next)、和如果我采取这样的措施又会怎么样(What if)。用户首先建立一个假设,然后用OLAP检索数据库来验证
6、这个假设是否正确。,数据挖掘和在线分析处理,3/23/2023,数据挖掘的定义,比如,一个分析师想找到什么原因导致了贷款拖欠,他可能先做一个初始的假定,认为低收入的人信用度也低,然后用OLAP来验证他这个假设。如果这个假设没有被证实,他可能去察看那些高负债的账户,如果还不行,他也许要把收入和负债一起考虑,一直进行下去,直到找到他想要的结果或放弃。,数据挖掘和在线分析处理,3/23/2023,数据挖掘的定义,数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。,数据挖掘和在线分析处理,比如,一个用数据挖掘工具
7、的分析师想找到引起贷款拖欠的风险因素。数据挖掘工具可能帮他找到高负债和低收入是引起这个问题的因素,甚至还可能发现一些分析师从来没有想过或试过的其他因素,比如年龄。,3/23/2023,数据挖掘的定义,数据挖掘,机器学习和统计分析,数据挖掘,统计分析,预测,简单的方法,复杂的方法,3/23/2023,数据挖掘的定义,数据挖掘,机器学习和统计分析,数据挖掘,统计方法,模式识别,人工智能,封装,预测,3/23/2023,数据挖掘的定义,软硬件发展对数据挖掘的影响,存贮性能的提高,计算能力的提高,并行处理技术,3/23/2023,数据挖掘应用,欺诈侦测,AT&T 使用根据数据挖掘开发的系统来侦测盗打国
8、际电话的行为。由HNC 公司开发的队LCON 欺诈评估系统用于提示可能存在的盗用信用卡的交易。金融犯罪执法网络Al 系统(FAIS)使用包括数据挖掘在内的几种技术,识别大型现金交易中可能存在的洗钱行为。个人通讯高级安全(Advanced security for Personal communications)欧洲研究组织己经利用无指导聚类侦测移动电话网络中的欺诈。对每个用户,系统储存用户的历史和使用特征文件。在当前使用与用户的历史情况有明显区别时,怀疑为欺诈行为。,3/23/2023,数据挖掘应用,卫生保健,Merck-Medco Managed care,Merck 的一个医药保险和处方电
9、邮订购单位,使用数据挖掘来帮助找出对某种类型的病人减少费用但疗效相同的治疗方法。生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因,这都需要数据挖掘技术的支持。,3/23/2023,数据挖掘应用,商业和金融,Farmers Group 有限公司如何使用数据挖掘方法得出拥有跑车的人不具有高事故风险的假设。美国银行(Bank of America)使用数据挖掘侦测哪个客户正在使用美国银行的哪种产品,以便他们能够提供正
10、确的产品和服务组合,更好地满足客户的需求。美国西部通信(US West Communications)根据诸如家庭的大小、家庭成员的平均年龄和所在地这些特征,使用数据挖掘和数据仓库来确定客户的倾向和需要。20 世纪Fox公司分析票房收入来确定哪个演员、情节和电影在各市场环境中更容易为观众接受。,3/23/2023,数据挖掘应用,科学应用,射线爆是短暂的伽玛射线反射,它来源于我们太阳系之外。有关事件的记录已经超过1000 次。科学界普遍认为存在两种射线爆。Mukherjee 等人使用统计聚类分析法(一种数据挖掘方法)发现了第3 类射线爆。,3/23/2023,数据挖掘应用,运动和游戏,大约20个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术
![提示](https://www.desk33.com/images/bang_tan.gif)
链接地址:https://www.desk33.com/p-248172.html