大数据软件测试.pptx
《大数据软件测试.pptx》由会员分享,可在线阅读,更多相关《大数据软件测试.pptx(32页珍藏版)》请在课桌文档上搜索。
1、,大数据测试实战,目录,大数据概念,大数据测试方法,面试大数据测试人才的必备技能介绍,第一部分,大数据背景,1.DT时代,数据将在生产品过程中起到激发、辅助的作用,让用户获得更大的经济价值。2.数据蕴涵着巨大的商业价值,人们需要的就是快速对数据进行处理和分析,从而产生有价值的业务决策。3.ETL(抽取(extract)、转换(transform)、加载(load)过程为联机分析处理、数据挖掘提供决策支持的数据。大数据概念最初起源于美国,是由思科、威睿、甲骨文、IBM 等公司倡议发展起来的。大约从2009年始,“大数据”成为互联网信息技术行业的流行词汇。,大数据概念提出者:麦肯锡全球研究所,给出
2、的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据是一个大的数据集合,通过传统的计算技术无法进行处理。这些数据集的测试需要使用各种工具、技术和框架进行处理。大数据涉及数据创建、存储、检索、分析,而且它在数量、多样性、速度方法都很出色。大数据最小的基本单位是bit;按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。大数据的特征:容量(Volume):数据的大小决定所考虑的数据的价值和潜在的信息;种类(Variety):
3、数据类型的多样性;速度(Velocity):指获得数据的速度;可变性(Variability):妨碍了处理和有效地管理数据的过程。真实性(Veracity):数据的质量。复杂性(Complexity):数据量巨大,来源多渠道。价值(value):合理运用大数据,以低成本创造高价值。,大数据概念,第二部分,TEXT HERE,TEXT HERE TEXT HERETEXT HERE TEXT HERE,TEXT HERE,TEXT HERE TEXT HERETEXT HERE TEXT HERE,TEXT HERE,TEXT HERE TEXT HERETEXT HERE TEXT HERE,
4、TEXT HERE,TEXT HERE TEXT HERETEXT HERE TEXT HERE,大数据测试方法-数据全链路,数据应用类,大数据测试方法,UDF类,实时数据类,MR类,深度学习算法类,数据产品类,代码走读,代码规范问题 代码性能问题,字段间关系,主键是否唯一 字段a字段b,枚举值分布,枚举类字段值,数据量及范围,整表数据量字段区间分布,大数据测试方法-数据应用类,代码走读,代码规范问题 代码性能问题,字段间关系,主键是否唯一 字段a字段b,枚举值分布,枚举类字段值,数据量及范围,大数据测试方法-数据应用类,一、代码走读:1.列对齐2.Insert overwrite表中不能出现
5、select*3.表别名是否重复4.Mapjoin里的小表是否在当层子查询中存在5.Join on 条件是否误写成一致等等二、字段间关系(最终输出表):如:PVUV、A=B+C、A=B+C等,主键是否唯一三、枚举值分布:校验枚举类字段的枚举值是否完整、通过枚举值分布校验数据正确性四、数据量及字段值范围如:一天支付量、一级类目个数、每日旺旺登陆UV、字段最大小值、字段长度,区间分布,数值类型的分布分析区间范围,特征值验证,异常数据反推,数据对比,系统迁移业务升级,对比测试,系统迁移业务升级,大数据测试方法-数据应用类,代码走读,代码规范问题 代码性能问题,字段间关系,主键是否唯一 字段a字段b,
6、枚举值分布,枚举类字段值,数据量及范围,大数据测试方法-数据应用类,一、区间分布:数值类型字段整体的分布情况例如:成交金额(笔记本电脑成交金额大部分分布在3k-1w,女装类目情况)二、特征值验证:构造数据复杂、成本高;反向从源头表中寻找异常数据取有代表性的数据、异常数据三、数据对比:系统迁移(数据结构变更、代码变更,调度系统迁移,历史数据迁移)业务升级(核心中间层数据变更),单机测试,本地测试单元测试,集成测试,结果是否合理运行时间结果是否出现倾斜,性能测试,Mapper数Reducer数CPU,MEM响应时间,对比测试,历史数据对比节点数据对比,大数据测试方法-MR类,代码走读,代码规范问题
7、 代码性能问题,字段间关系,主键是否唯一 字段a字段b,枚举值分布,枚举类字段值,数据量及范围,大数据测试方法-MR类,一、单机测试:本地测试:本地提交运行job,得到Reduce端输出,即只关心最终结果单元测试:构造Map端和Reduce端的输入数据,对Map端和Reduce端的输出断言二、集成测试:代码以jar包形式上传到集群上运行,可能发现:大资源文件读取到内存,程序是否正常,job启动是否变慢,日志是否有异常结果是否出现倾斜运行时间是否符合预期三、性能测试:关注业务基线产出时间;查看mapper数,reducer数,cpu,mem,响应时间等,单元测试,JUNITJENKINS,集成测
8、试,HIVE/ODPS环境,对比测试,重构,对比测试,大数据测试方法-UDF类,代码走读,代码规范问题 代码性能问题,字段间关系,枚举值分布,枚举类字段值,数据量及范围,大数据测试方法-UDF类,一、单元测试:基本同java、python的单元测试方法,通过JEKINS来持续集成,利用覆盖率插件来统计各种覆盖率二、集成测试:在HIVE/ODPS环境中验证case,例如:select udf_data_diff(2014-01-19,2014-01-20 12:00:00)from dual;,单机测试,集群测试,关心测试参数、模型文件关心性能,job时间等,参数调优,不同的参数导致模型的效果不
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 软件 测试
链接地址:https://www.desk33.com/p-362840.html