数据挖掘在电子商务中的应用与实现.docx
数据挖掘在电子商务中的应用与实现数据挖掘技术作为解决“数据爆炸”时代浮现的最有效手段之一,受到了企业界的极大关注。如何最大限度地利用企业各个部门多年来在数据库系统上积累下来的大量数据进行整合及二次开辟,本文针对数据库营销系统,研究了数据挖掘工具、统计分析工具和客户关系管理工具的协同运用,以及对数据挖掘所采用的技术框架、数据资源等进行了深入的分析。近十几年来,无数个数据库被用于商业管理、政府办公、科学研究和工程开辟等,这一势头仍将持续发展下去。于是,一个新的挑战被提了出来:在这被称之为信息爆炸的时代,如何才干不被信息的汪洋大海所淹没,从中及时发现实用的知识,提高信息的有效利用率呢要想使数据真正成为一个公司的资源,惟独充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据将可能成为包袱,甚至成为垃圾。因此,面对“人们被数据淹没,却饥饿于知识”的挑战,数据挖掘和知识发现(DMKD)技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。同时在日常生活中我们时常会遇到这样的情况:超市的经营者希翼将时常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户普通具有哪些特征;医学研究人员希翼从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些匡助。对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希翼能够提供更高层次的数据分析功能,从而更好地对决策或者科研工作提供支持。正是为了满足这种要求,从大量数据中提取出隐藏在其中的实用信息,将机器学习应用于大型数据库的数据挖掘(DataMirIing)技术得到了长足的发展。一、数据挖掘技术和电子商务的概念数据挖掘(DataMining)就是从大量的、不彻底的、有噪声的、含糊的、随机的原始数据中,提取隐含在其中的、人们事先不知道的、但又是潜在实用的信息和知识的过程。或者说是从数据库中发现实用的知识(KDD),并进行数据分析、数据融合(DataFUiOrI)以及决策支持的过程。人们把数据看做是形成知识的源泉,数据挖掘就像从矿石中采矿、沙石中采金一样,从浩瀚的原始数据海洋中,淘出自己所需要的一点点信息。同时原始数据可以是结构化的,如关系型数据库中的数据;也可以是半结构化的,如文本、图形、图象数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于对数据自身的维护。因此,数据挖掘是一门广义的交叉学科,它汇聚了不同领域的研究者,特别是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。电子商务是指以Internet网络为载体、利用数字化电子方式开展商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部采集了大量的数据,并且迫切需要将这些数据转换成实用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地匡助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,为客户提供动态的、个性化的高效率服务。数据挖掘概念就是从这样的商业角度开辟出来的。数据挖掘涉及的学科领域和方法不少,其核心技术历经了数十年的发展,其中包括统计、近邻、聚类、决策树、神经网络和规则等方法。今天,这些成熟的技术在电子商务中已进入了实用阶段,并取得了良好的效果。本文结合数据挖掘技术在电子商务中的应用,从挖掘任务和数据信息两个角度进行分析,指出各种数据挖掘技术合用的场合,以便开辟出切实可用的数据挖掘系统。二、数据库与数据挖掘技术的发展与研究数据库技术在经过了80年代的辉煌之后,已经在各行各业成为一种数据库文化或者时尚,数据库界目前除了关注分布式数据库、面向对象数据库、多媒体数据库、查询优化和并行计算等技术外,已经在开始反思。数据库实质的应用仅仅是查询吗理论根基最深的关系型数据库最本质的技术进步点,就是数据存放和数据使用之间的相互分离。查询是数据库的奴隶,发现才是数据库的主人。由于数据库文化的迅速普及,用数据库作为知识源具有坚实的基础;另一方面,对于一个感兴趣的特定领域一一客观世界,先用数据库技术将其形式化并组织起来,就会大大提高知识获取起点,以后从中发掘或者发现的所有知识都是针对该数据库而言的。因此,在需求的驱动下,不少数据库学者转向对数据仓库和数据挖掘的研究,从对演绎数据库的研究转向对归纳数据库的研究。在研制一个专家系统时,知识工程师首先要从领域专家那里获取知识,这一过程实质上是归纳过程,是非常复杂的个人到个人之间的交互过程,有很强的个性和随机性。因此,知识获取成为专家系统研究中公认的瓶颈问题。其次,知识工程师在整理表达从领域专家那里获得的知识时,用if-then等类的规则表达,约束性太大,用常规数理逻辑来表达社会现象和人的思维活动局限性太大,也太艰难,勉强抽象出来的规则有很强的工艺色采,差异性极大,知识表示又成为一大难题。此外,即使某个领域的知识通过一定手段获取并表达了,但这样做成的专家系统对常识和百科知识出奇地贫乏,而人类专家的知识是以拥有大量常识为基础的。人工智能学家Feigenbaum估计,普通人拥有的常识存入计算机大约有100万条事实和抽象经验法则,离开常识的专家系统有时会比傻子还傻。例如战场指挥员会根据“在某地发现一只刚死的波斯猫”的情报很快断定敌高级指挥所的位置,而再好的军事专家系统也难以顾全到如此的信息。以上这3大难题大大限制了专家系统的应用,使得专家系统目前还停留在构造诸如发动机故障论断一类的水平上。人工智能学者开始着手基于案例的推理,特别是从事机器学习的科学家们,再也不满足自己构造的小样本学习模式的象牙塔,开始正视现实生活中大量的、不彻底的、有噪声的、含糊的、随机的大数据样本,也走上了数据挖掘的道路。数理统计是应用数学中最重要、最活跃的学科之一,它在计算机发明之前就诞生了,迄今已有几百年的发展历史。如今相当强大有效的数理统计方法和工具,已成为信息咨询业的基础。信息时代,咨询业更为发达。然而,数理统计和数据库技术结合得并不算快,数据库查询语言SQL中的聚合函数功能极其简单,就是一个证明。咨询业用数据库查询数据还远远不够。一旦人们有了从数据查询到知识发现、从数据演绎到数据归纳的要求,概率论和数理统计就获得了新的生命力,所以才会在DMKD这个结合点上,即将呈现出“忽如一夜春风来,千树万树梨花开”的繁荣景象。一向以数理统计工具和可视化计算闻名的美国SAS公司,率先宣布进入DMKD行列。数据挖掘所能发现的知识有如下几种:广义型知识,反映同类事物共同性质的知识;特征型知识,反映事物各方面的特征知识;差异型知识,反映不同事物之间属性差别的知识;关联型知识,反映事物之间依赖或者关联的知识;预测型知识,根据历史的和当前的数据猜测未来数据;偏离型知识,揭示事物偏离常规的异常现象。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开辟和实施客户化的销售计划和策略是非常实用的。至于发现工具和方法,常用的有分类、聚类、模式识别、可视化、决策树、遗传算法、不确定性处理等。当前,DMKD研究正方兴未艾,估计在21世纪还会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特殊是在Internet上建立DMKD服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图象数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD将首先满足信息时代用户的急需,大量基于DMKD的决策支持软件工具产品将会问世。三、数据挖掘技术的实现(3)其它信息在面向电子商务的数据挖掘中,将客户登记信息和服务器日志有效地结合起来进行分析,可以提高挖掘的精度和深度,得出更理想的结果。此外,电子商务在InTernet上分布着大量异质的数据源中也隐含着其他实用的信息,挖掘后提供给有兴趣的客户也可以支持商业决策。2、数据挖掘技术的实现步骤面向电子商务的数据挖掘过程可以分为准备数据、发现模式和分析解释模式3个步骤。首先,进行数据挖掘的时候,普通并非对原始的数据进行挖掘,而是先要对数据作一些预处理,包括合并数据,将多个文件或者多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图象及多媒体等文件转换成可便于数据挖掘的格式等。接着,根据不同的挖掘目标,可以相应采用不同的挖掘方法,得到故意义的数据模式。数据挖掘的方法有不少种,主要包括3大类:统计分析、知识发现、其他可视化方法。最后,通过技术手段,对得到的模式进行数据分析,得出故意义的结论。3、数据挖掘常用的技术手段(2)分类给出类的公共属性描述,并将新的记录分配到预先定义好的类中去或者分类新的项。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或者建立分析模型或者挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。在电子商务中分类分析可以预测客户响应,如哪些客户最倾向于对直接邮件推销做出回应,又有哪些客户可能会换他的手机服务提供商,或者进行商店定位,如按成功的商店、普通商店和失败商店罗列得出这3类商店各自具有的属性。然后选择包含位置属性的地理数据库,分析每一预期的商店位置属性,以确定预期的商店定位属于哪一类。惟独那些符合成功一类要求的商店位置才作为商店定位的候选。用于分类分析的技术有不少,典型方法有统计方法的贝叶斯分类、机器学习的判定树归纳分类、神经网络的后向传播分类等。最近数据挖掘技术也将关联规则用于分类问题。此外还有一些其它分类方法,包括k-最临近分类、MBR.遗传算法、粗糙集和含糊集方法。目前,尚未发现有一种方法对所有数据都优于其它方法。实验研究表明,许多算法的准确性非常相似,其差别是统计不明显,而计算时间可能显著不同。(3)聚类分类的逆过程,按照“类内相似性最大,类间相似性最小”的原则,对数据进行类的会萃,多指客户群体聚类和Web网页聚类。客户群体聚类将具有相似浏览模式的用户分在一组,而Web网页聚类提供有针对性的网络服务应用。4、数据挖掘的工具数据挖掘工具:从数据仓库的组成入手,分析数据仓库的体系结构;在数据仓库的设计过程中必须注意3个关键的问题:选择数据仓库的目标数据库、数据抽取和转换工具及前端数据访问和分析工具。四、结论随着电子商务发展的势头越来越强劲,面向电子商务的数据挖掘将是一个非常有前景的领域。它能自动预测客户的消费趋势、市场走向,指导企业建设个性化智能网站,带来巨大的商业利润,可以为企业创建新的商业增长点。但是在面向电子商务的数据挖掘中还存在不少问题急需解决,比如怎样将服务器的客户数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘,如何控制整个Web上知识发现过程等。利用这些挖掘技术可有效统计和分析用户个性特征,从而指导营销的组织和分配,让企业在市场竞争中处于有利位置抢占先机。