人工智能与大数据分析.pptx
人工智能与大数据分析,目录,人工智能与大数据分析概述Python数据分析 NumPy与Pandas简介 泰坦尼克号案例,人工智能与大数据分析概述,人工智能与大数据分析概述,二十四节气歌、朝霞不出门,晚霞行千里。对于一些简单的自然现象,前人们通过归纳提取得出很多经验知识。但是现代世界中有很多复杂问题,数据量极大,已经远远超出了人脑可处理的范围。大数据分析是数学与计算机科学相结合的产物,在实用应用中,人们可以通过计算机工具和数学知识处理数据,得出结果作出判断,以便采取适当行动。,人工智能与大数据分析概述,数据(data)客观事物未经加工的原始素材。包括文本、数字、音频、图像、视频等等。大数据分析(data analysis)大数据分析是基于某种行业目的,有目的地进行收集,整理,加工和分析数据,提炼有价值信息的一个过程。,人工智能与大数据分析概述,大数据分析是将数据转化为知识/智慧的手段。,人工智能与大数据分析概述,数据分析师常用工具PythonRSQLExcelSPSS,人工智能与大数据分析概述,大数据分析非常普遍,日常出行、购物、企业生产决策处处有数据分析。几个实际的例子:沃尔玛购物篮分析 世界杯点球预测 UPS快递数据分析下的最佳行车路径 试衣间的数据分析应用 阿里信用贷款和淘宝数据魔方,人工智能与大数据分析概述,萨姆沃尔顿将一个百货商店沃尔玛奇迹般地经营为全球最大的连锁零售企业。早在1985年10月就被福布斯杂志列为全美富豪排行榜首位,连美国总统布什都赞扬他是地道的美国人,展现了企业创新精神,是美国梦的缩影,人工智能与大数据分析概述,1983年,当一般零售商还在进行信息化建设的时候,沃尔玛已经开始与休斯公司合作,花费了2400万美元发射了一颗人造卫星,此后先后投入6亿多美元建立起电脑与卫星系统,还发明了条形码、无线扫描枪、计算机跟踪存货等技术。借助于整套的高科技信息网络,沃尔玛的各部门沟通、各业务流程可迅速、准确的运行,数据库系统很快积累了海量的经营数据,包括大量的顾客消费行为记录。,人工智能与大数据分析概述,圣诞节快要到来时,沃尔玛的工作人员按照惯例筹备节日的营销策略。这一次它们使用了一种新的购物篮分析的软件,对海量的顾客消费行为进行分析,一个意外的发现让人们瞠目结舌,跟尿布一起购买最多的商品竟然是啤酒!,人工智能与大数据分析概述,沃尔玛派出市场调查人员和分析师对这一结果进行了深入研究,揭示了一条隐藏的在啤酒与尿布背后的美国人的一种行为模式:一些年龄在25-35岁的年轻父亲下班后经常要去超市买婴儿尿布,而他们中30%-40%的人会顺手为自己购买几瓶啤酒。,人工智能与大数据分析概述,沃尔玛马上采取行动,将卖场内原来相隔很远的妇婴用品与酒类饮料区的距离拉近。同时对这两个产品的价格也做出调整,并向一次购买达到一定金额的顾客赠送婴儿奶嘴以及其他小礼品,结果是尿布与啤酒的销量双双大增。,人工智能与大数据分析概述,2006年世界杯上,阿根廷和德国在1/4决赛中120分钟难分高下,在点球大战开始之前,老门将卡恩将一张纸条递到莱曼手中。结果是,莱曼所有点球都判断对了方向,除了两个点球质量太高无力回天外,其余全部扑出,阿根廷只能黯然出局。问题是,那张纸条上究竟写了什么?,人工智能与大数据分析概述,上面记录着阿根廷队的克鲁兹、阿亚拉、罗德里格斯以及坎比亚索习惯的脚法。德国队守门员教练科普克如此精确的预测出阿根廷球员射出的点球方向,并不是他有什么过人的占卜天才。扑点球秘籍来自于德国科隆体育学院数据分析小组夜以继日的努力。,人工智能与大数据分析概述,分析小组收集了阿根廷球队13000个点球的录像,并根据阿根廷射门练习的数据找出了一些可以描述射门动作的行为特征,比如“阿亚拉,短助跑,右下角;里克尔梅,斜上助跑,右下角;马克西,长距离助跑,左上角.”这些行为特征描述了阿根廷队谁罚点球、怎么罚点球的规律。最终从这些特征中提炼出更具体的特征,帮助德国队获得胜利。,人工智能与大数据分析概述,UPS(美国联合包裹公司)是一家美国快递公司,世界上最大的快递承运商与包裹递送公司。同时也是运输、物流、资本与电子商务服务的领导性的提供者。,人工智能与大数据分析概述,UPS是一个充分利用数据分析技术带来盈利和奖项的科技公司。UPS多效地利用了地理定位数据。为了使总部跟踪到车辆的位置和预防引擎故障,它的货车上装有传感器、无线适配器和GPS。,人工智能与大数据分析概述,这些设备方便了公司监督管理员工并优化行车线路。UPS为货车定制的最佳行车路径是根据过去的行车数据总结分析而来。2011年,UPS的驾驶员少跑了近4828万公里的路程。,人工智能与大数据分析概述,普拉达(PRADA)是意大利奢侈品牌,由玛丽奥普拉达于1913年在意大利米兰创建,当前全球最大的奢侈品牌之一。,人工智能与大数据分析概述,每件衣服上都有RFID码,当顾客拿起衣服进试衣间时,衣服上的RFID会被自动识别,数据传至PRADA总部。每一件衣服在哪个城市哪个旗舰店什么时间被拿进试衣间停留多长时间,数据都被存储起来加以分析。,人工智能与大数据分析概述,如果有一件衣服销量很低,以往的作法是直接被废弃掉。如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多。那就说明存在一些问题,衣服或许还有改进的余地。这项应用在提升消费者购物体验的基础上,PRADA还提升30%的销售量。,人工智能与大数据分析概述,中国最大的电子商务公司阿里巴巴(Alibaba)利用大数据的数据分析技术提供服务:阿里信用贷款与淘宝数据魔方。,人工智能与大数据分析概述,每天有数以万计的交易在淘宝上进行。相应的交易时间、商品价格、购买数量会被记录,同时这些信息可以与买方和卖方的年龄、性别、地址、甚至兴趣爱好等个人特征信息相匹配。,人工智能与大数据分析概述,淘宝数据魔方就是淘宝平台上的大数据应用方案。商家可以了解行业宏观情况、品牌的市场状况、消费者行为情况。消费者也能以更优惠的价格买到更心仪的宝贝。,人工智能与大数据分析概述,阿里信用贷款则是通过企业交易数据,借助大数据分析技术自动分析判定是否给予企业贷款,全程不会出现人工干预。,人工智能与大数据分析概述,开放数据 为了满足日益增长的数据需求,人们把很多数据资源放到了因特网上。这些被称为开放数据(open data)的数据资源对大众免费开放。,人工智能与大数据分析概述,开放数据 下面是网上比较常用的开放数据网站:开放数据中国(http:/,人工智能与大数据分析概述,数据分析流程 数据分析要做的事情可具体分为5步:与外界进行交互 读写各种各样的文件格式和数据库数据准备 对数据进行清理、整合、规范化、重塑、变形等处理数据转换 对数据集做一些数学和统计运算以产生新的数据集数据建模和计算 将数据跟统计模型、机器学习算法联系起来分析结果展示 创建图片或文字摘要,展示分析结果,Python数据分析,Python数据分析,为什么用Python?数据科学家们希望:用最小的编程代价在大数据集上进行数值分析;编写的代码可读性好、执行效率高、运行速度快;尽可能贴近一系列数学概念。,Python数据分析,为什么用Python?在科学计算领域,有很多符合这些要求的解决方案。在对比竞争中Python胜出,在科学领域被广泛使用,具体原因如下:容易在Python中调用C、Fortran或者R代码。Python是面向对象语言,比C和Fortran更高级。Python可以写出易读、整洁并且缺陷最少的代码。,Python数据分析,为什么用Python?另外Python还有很多方面的用途,比如:通用型脚本语言,可以作脚本来用,还能操作数据库;Django等框架的问世,Python近些年还广泛用于开发web应用。,Python数据分析,Python数据分析常用库NumPy 科学计算的基础包库Scipy 科学计算中的工具库Matplotlib 绘制数据图表库Pandas 基于NumPy的数据分析库Scikit-learn 机器学习建模库Pytorch 一种深度学习框架,NumPy和Pandas简介,NumPy和Pandas简介,NumPy是一个开源的Python科学计算库。可以很自然地使用数组和矩阵,也包含很多实用的数学函数。,NumPy和Pandas简介,为什么使用NumPy?对于数值计算任务,使用NumPy要比直接编写Python代码便捷得多。NumPy能够直接对数组和矩阵进行操作,可以省略很多循环语句。NumPy众多的数学函数能简化编写代码的工作。,NumPy和Pandas简介,Pandas是什么?Pandas源自panel data(面板数据)、Python data analysis(数据分析),NumPy和Pandas简介,Pandas的优势Pandas以NumPy为基础,能利用NumPy在计算方面性能高的优势。Pandas提供了大量处理数据的函数和方法,强大而高效。两种新型的结构Series和DataFrame使Pandas在处理表格数据非常有效。,NumPy和Pandas简介,本课程用得最多的Pandas对象是DataFrame,NumPy和Pandas简介,安装NumPy和Pandas:第一种安装方式:PythonpipNumPy/Pandas 第二种安装方法:Anaconda集成环境,NumPy和Pandas简介,第一种安装方式:PythonpipNumPy/Pandas NumPy是基于Python的,在安装NumPy之前,需要先安装Python。本课程使用的是Python3.6版本。安装时记得勾选安装pip选项,并配置环境变量。,NumPy和Pandas简介,安装NumPy和Pandas:本课程使用的NumPy版本为1.14,Pandas版本为0.23。NumPy:pip install numpy Pandas:pip install pandas,NumPy和Pandas简介,安装NumPy和Pandas:卸载安装包:pip uninstall package_name 更新安装包:pip install U package_name 查看安装模块版本号:pip list/pip freeze,NumPy和Pandas简介,第二种安装方式:Anaconda集成环境Anaconda 是一种Python语言的增值开源发行版,用于进行大规模数据处理,预测分析,和科学计算,致力于简化包的管理和部署。下载地址:https:/,NumPy和Pandas简介,安装NumPy和Pandas:更新Anaconda:conda update conda 查看Anaconda安装包:conda list Anaconda内置了大多数数据处理,预测分析,和科学计算的模块包(包括NumPy和Pandas),所以无需另外安装。,NumPy和Pandas简介,安装NumPy和Pandas:Anaconda安装模块包:conda install package_name Anaconda卸载模块包:conda uninstall package_name Anaconda更新模块包:conda update-package_name,NumPy和Pandas简介,集成开发环境:IDE:Integrated Development Environment,集成开发环境。数据分析领域:jupyter notebook,NumPy和Pandas简介,集成开发环境:pip下安装方式:pip install jupyter 安装后命令行输入 jupyter notebook 或 ipython notebook打开。,NumPy和Pandas简介,集成开发环境:Anaconda环境下自带jupyter notebook,NumPy和Pandas简介,启动jupyter notebook:,选择目录,上传文件,新建文件,NumPy和Pandas简介,工作界面:,重命名文件名,工具栏,输入框,泰坦尼克号案例,泰坦尼克号案例,泰坦尼克号是19世纪初世界上体积最庞大、内部设施最豪华的客运轮船,有永不沉没的美誉。然而讽刺的是,在处女航中,泰坦尼克号便遭厄运。,泰坦尼克号案例,1912年4月15日,载着1316号乘客和891名船员的豪华巨轮泰坦尼克号与冰山相撞而沉没,次日凌晨2时20分左右,船体断裂成两截,沉入大西洋底3700米处。这场海难被认为是20世纪人间十大灾难之一。1985年,泰坦尼克号的沉船遗骸在北大西洋两英里半的海底被发现。,泰坦尼克号案例,2200多名船员及乘客中,逾1500人丧生。二十世纪九十年代美国福斯电影公司、派拉蒙影业公司将泰坦尼克号拍成电影,这部爱情片也成为时代的经典,家喻户晓。从Kaggle网站下载Titanic数据集,我们可以通过Python对数据进行解读。数据集共有12列,目标变量Survived表示的是该乘客是否获救,1表示获救,0表示未获救,其余都是乘客的个人信息。,泰坦尼克号案例,11列个人信息包括:PassengerId=乘客IDPclass=舱位等级(1/2/3等舱位)Name=乘客姓名Sex=性别Age=年龄SibSp=堂兄弟/妹个数Parch=父母与小孩个数Ticket=船票信息Fare=票价Cabin=客舱Embarked=登船港口(C/Q/S港口),泰坦尼克号案例,首先将数据导入Python中,Pandas会读取数据转换为一个二维数据框,类似表格。,泰坦尼克号案例,Pandas中有汇总和描述性统计的函数,可以对数据进行一个整体的探索。,可以看到数据集中总共有891名乘客,但是观察后发现有些特征存在缺失值。例如:Age(年龄)只有714名乘客有记录,Cabin(客舱)只有204名乘客是已知的。,泰坦尼克号案例,观察上述数据我们可以获得一些简单信息,如:Survived变量均值告诉我们,约有38.38%的人获救。乘客的平均年龄约29.7岁。,泰坦尼克号案例,接下来,我们可以通过变量的分布来进行一个初步的分析。获救情况分布:数据集中共891位乘客,仅有300多位乘客幸免于难,占比38%。,泰坦尼克号案例,性别分布:数据集中共891位乘客,男性乘客就有577位,占比达64.76%。,泰坦尼克号案例,船舱分布:三等舱人数最多,一等舱人口次之。一等舱约占1/4,三等舱约占1/2。,泰坦尼克号案例,年龄分布:数据集中的乘客年龄都集中在20-40岁之间。,泰坦尼克号案例,探索自变量与因变量关系看过电影Titanic的人都会记得,女士与孩子、社会地位较高者优先得到了救助。这表明Age,Sex和PClass可能是影响生存的关键因素,那么我们将通过图形来 展现Sex和Pclass分别与Survived的关系。女性获救的比例远高于男性。,泰坦尼克号案例,同样,我们可以看到,头等舱乘客的幸存率高。,泰坦尼克号案例,下面以将Age变量切成六段:Infant,05岁Child,512岁Teenager,1218岁Young Adult,1835岁Adult,3560岁Senior,60100岁,查看分段后的年龄与生还的关系:,谢谢,