欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    2024年大数据挖掘分析专业考试题库(含答案).docx

    • 资源ID:1210153       资源大小:82.43KB        全文页数:97页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    2024年大数据挖掘分析专业考试题库(含答案).docx

    2024年大数据挖掘分析专业考试题库(含答案)一、单选题1 .个人信息的收集、处理和利用应当遵循()的原则,不得违反法律、法规的规定和双方的约定收集、处理和利用个人信息Q0A、正规、合法、必要B、合法、正当、必要C、合法、合规、正当D、合法、合理、合规参考答案:B2 .Tableau能够对数据进行处理包括()。A、将多个数据源数据拼接为一个宽表;B、修改、删除、新增数据行;C、对数据进行行列转换、重命名、格式修改;D、对数据进行计算、合并生成新的数据列参考答案:A3 .()是数据仓库体系架构的重要组成部分,具备数据仓库的部分特征和OLTP系统的部分特征。A、E.SB;B、D.MC、ODSD、E.TL参考答案:C4 .RFM方法中的F说明客户的()A、兴趣度B、粘性C、当前价值D、未来价值参考答案:A5 .关于主成分数目的选取,正确的是()A、保留多少个主成分取决于累计方差在方差总和中所占百分比B、一般选择50%以上C、选择前两个就可以D、选择的数目和变量的个数一致参考答案:A6 .下列关于数据重组的说法中,错误的是()A、数据重组是数据的重新生产和重新采集B、数据重组能够使数据焕发新的光芒C、数据重组实现的关键在于多源数据融合和数据集成D、数据重组有利于实现新颖的数据模式创新参考答案:A7 .在SQL中,创建数据库用的命令是()a、Createschemab、 Createtablec、 creteviewd、 Createdatabase参考答案:D8 .当时间序列数据点的一阶差分近似为一常数,可配合以下哪种预测模型()A、直线B、二次抛物线C、三次抛物线D、指数曲线参考答案:A9 .对于企业来说,数据使用的关键是()A、数据收集B、数据存储C、数据分析D、数据再利用参考答案:D10 .线性回归算法寻找()与预测目标之间的线性关系。A、属性B、根因C、表象参考答案:A11 .下面不属于明细数据质量评价指标的是()。A、接入率;B、自动采集率C、及时率D、完整率参考答案:B12 .以下哪些分类方法可以较好地避免样本的不平衡问题?()A、KNNB、SVMC、BayesD、神经网络参考答案:A13.()算法是最广泛使用的聚类算法,算法简单,易于理解和操作。A、gglomerativeB、C.UREC、KmeansD、k-中心点算法参考答案:C14贝叶斯决策是根据()进行决策的一种方法。A、极大似然概率B、先验概率C、边际概率D、后验概率参考答案:D15 .回归分析的第一步是()A、确定解释量和被解释变量B、确定回归模型C、建立回归方程D、进行检验参考答案:A16 .当所有观测值都落在回归直线上,则这两个变量之间的相关系数为()A、1B、-1C、+1或TD、O参考答案:C17 .()是进行项目投资效益评价的最终依据。A、现金流量B、盈亏平衡点C、净现金流量D、现金流入量参考答案:C18 .被广泛用于购物篮分析的是()。A、关联分析;B、分类和预测C、聚类分析D、演变分析参考答案:A19 .下面哪种不属于数据预处理的方法?()A、变量代换B、离散化C、聚集D、估计遗漏值参考答案:D20 .下列不属于关联分析的关键要素的是()A、支持度B、置信度、酒息度D、提升度参考答案:C2LNoSQL含义是指()A、 NO!SQL;B、 NomberSQL;C、 NotOnlySQLD、N0LLSQL参考答案:C22 .资金的时间价值是()A、同一资金在同一时点上价值量的差额B、同一资金在不同时点上价值量的差额C、不同资金在同一时点上价值量的差额D、不同资金在不同时点上价值量的差额参考答案:B23 .以下哪种方法不属于于监督学习模型()A、决策树B、线性回归C、关联分析D、判别分析参考答案:C24 .在多元回归模型的检验中,目的是检验每一个自变量与因变量在指定显著性水平上是否存在线性相关关系的检验是()A、r检验B、t检验C、f检验D、DW检验参考答案:B25 .关于混合模型聚类算法的优缺点,下面说法正确的是()A、当簇只包含少量数据点,或者数据点近似协线性时,混合模型也能很好地处理。B、混合模型比K均值或模糊C均值更一般,因为它可以使用各种类型的分布。C、混合模型很难发现不同大小和椭球形状的簇。D、混合模型在有噪声和离群点时不会存在问题。参考答案:B26 .大数据背景下,数据支撑业务的目的是()A、建立数据科学B、完成数据应用C、配备数据硬件D、吸纳数据人才参考答案:B27 .下面关于因子分析的说法正确的是()A、因子分析就是主成分分析B、因子之间可相关也可不相关C、因子受量纲的影响D、可以对因子进行旋转,使其意义更明显参考答案:D28 .快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析的是()0A、Map;B、ReduceC、H.iveD、SQL语句参考答案:D29 .企业要建立预测模型,需准备建模数据集,以下四条描述建模数据集正确的是()A、数据越多越好B、尽可能多的适合的数据C、数据越少越好D、以上三条都不正确参考答案:B30 .以下哪个类型的变量在作预测客户流失的模型中最有解释力度?A、人口基本数据,比如年龄和性别B、基本社会状态数据,比如收入和职业C、业务数据,比如消费频次D、业务数据的衍生变量,比如最近3个月消费频次的变化情况参考答案:D3L将复杂的地址简化成北、中、南、东四区,是在进行?A、数据正规化B、数据一般化C、数据离散化D、数据整合参考答案:B32.Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用()语言实现开源软件框架。A、 javaB、C、 +C、R语言参考答案:A33 .大数据特征错误的是()。A、容量大;B、类型多C、价值高D、系统多参考答案:D34 .Apriori算法是最基本的一种关联规则算法,它采用布尔关联规则的挖掘频繁项集的算法,利用()搜索的方法挖掘频繁项集。A、逐层B、逐级C、自底向上D、自上而下参考答案:A35 .分类算法以()定理为基础,采用概率方法对数据进行建模A、决策树B、K-最邻近C、SVMD、贝叶斯参考答案:D36 .自然界中某种事物发生时其他事物也会发生,则这种联系称之为OoA、连接B、联络C、关联D、联系参考答案:C37 .源业务系统接入数据中心的方式主要有:JDBCESB和()。A、D.XP;B、E.SPC、OGGD、E.TL参考答案:C38 .下列哪个不属于个人信息影响评估原则()A、个人信息的处理目的、处理方式等是否合法、正当、必要B、对个人的影响及风险程度C、谁主管谁负责D、所采取的安全保护措施是否合法、有效并与风险程度相适应。参考答案:C39 .以下哪项关于决策树的说法是错误的OA、冗余属性不会对决策树的准确率造成不利的影响B、子树可能在决策树中重复多次C、决策树算法对于噪声的干扰非常敏感D、寻找最佳决策树是NP完全问题参考答案:C40 .Hadoop框架中两大核心是:()和MapReducEA、H.CFS;B、H.DFSC、H.EFSD、H.FFS参考答案:B41 .将数据转换为可视化的形式,便于直观快速发现数据规律。的数据探索方法是()。A、汇总统计法B、概率统计法C、可视化法参考答案:C42 .矩估计的基本原理是()A、用样本矩估计总体矩B、使得似然函数达到最大C、使得似然函数达到最小D、小概率事件在一次试验中是不可能发生的参考答案:A43 .数据预处理目前常用的异常数据识别方法包括业务判别法、()、箱线图判别法、统计判别法A、聚类判别法;B、回归判别法C、抽样判别法参考答案:A44 .算法的核心思想是()逐层构造一个树QA、自上而下B、自下而上C、自左向右D、自右向左参考答案:A45 .下列关于大数据的分析理念的说法中,错误的是()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据参考答案:D46 .什么是KDD?()A、数据挖掘与知识发现B、领域知识发现C、文档知识发现D、动态知识发现参考答案:A47 .某家长为了使孩子在第3-6年上大学的4年中,每年年初得到100OO元助学基金,他应在2年前在银行存入多少钱?(年利率按5%计算)()A、 33771B、 30291C、 32163D、 45256参考答案:A48 .关于K均值和DBSCAN的比较,以下说法不正确的是()。A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇参考答案:A49 .SQL查询语句中HAVING子句的作用是()A、指出分组查询的范围B、指出分组查询的值C、指出分组查询的条件D、指出分组查询的内容参考答案:C50 .一组数据中出现次数最多的数据称为()。A、分位数B、中位数C、众数参考答案:C51 .JSON中的中括号一般来表示()。A、数组;B、标点符号C、对象D、注释参考答案:C52 .模型构建指基于()数据构建数据挖掘模型。A、线上B、线下C、实时D、历史53 .Tableau在处理离线地图时,需要将标记设置为()。A、路径;B、区域C、边形D、已填充地图参考答案:A54 .以下关于人工神经网络(ANN)的描述错误的有()A、神经网络对训练数据中的噪声非常鲁棒B、可以处理冗余特征C、训练ANN是一个很耗时的过程D、至少含有一个隐藏层的多层神经网络参考答案:A55 .美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()A、在数据基础上倾向于全体数据而不是抽样数据B、在分析方法上更注重相关分析而不是因果分析C、在分析效果上更追究效率而不是绝对精确D、在数据规模上强调相对数据而不是绝对数据参考答案:B56 .当时间序列的环比增长速度大体相同时,适宜拟合()A、指数曲线B、抛物线C、直线D、对数曲线参考答案:A57 .将多个指标转化为少数几个指标的一种统计分析方法是()。A、数据预处理;B、数据降维C、主成分分析D、假设检验参考答案:C58 .设X=1,2,3是频繁项集,则可由X可产生()个关联规则。A、3B、4C、5D、6参考答案:D59 .当一个连续变量的缺失值占比在85%左右时,以下哪种方式最合理OA、直接使用该变量B、根据是否缺失,生成指示变量,仅使用指示变量作为解释变量C、使用多重插补的方法进行缺失值填补D、直接删除该变量参考答案:B60 .大数据分析挖掘流程正确的是O。A、业务理解-数据理解一数据准备一建立模型-模型评估;B、业务理解-数据准备一数据理解一建立模型-模型评估;C、业务理解-数据准备一数据理解一模型评估-建立模型;D、业务理解-数据准备一模型评估一数据理解-建立模型参考答案:A6L()是统计学的基础,是统计学里面最重要的概率分布A、正态分布;B、静态分布C、动态分布D、稳态分布参考答案:A62 .因子分析的主要作用有()A、对变量进行降维B、对变量进行判别C、对变量进行聚类D、以上都不对参考答案:A63 .数据中心侧的数据流转方式未为()A、D.XP;B、E.SPC、OGGD、E.TL参考答案:D64 .给定历史时间数据,通过拟合时序模型,分析研究时序数据的发展变化规律,得出观测数据的历史统计特征,再据此进行外推预测目标的分析方法是()。A、聚类;B、回归C、时间序列D、汇总统计参考答案:C65 .智能健康手环的应用开发,体现了()的数据采集技术的应。A、统计报表B、网络爬虫C、API接口D、传感器参考答案:D66 .假设检验中显著性水平是()A、推断时犯取伪错误的概率B、推断时取伪弃真的概率C、正确推断的概率D、是推断的可信度参考答案:B67 .以下哪些算法是分类算法()A、DBSCANB、C4.5C、K-MeanD、EM参考答案:B68 .以下关于大数据应用说法错误的是()0A、大数据起源互联网,目前处于成熟期;B、目前金融、电信、零售、公共服务等领域在积极的探索和应用大数据;C、互联网是大数据的发源地;D、互联网上形成了多种相对成熟的应用模式。参考答案:A69 .下列关于计算机存储容量单位的说法中,错误的是()A、1KB<1MB<1GBB、基本单位是字节(Byte)C、一个汉字需要一个字节的存储空间D、一个字节能够容纳一个英文字符参考答案:C70 .当置信水平一定时,置信区间的宽度()A、随着样本量的增大而减小B、随着样本量的增大而增大C、与样本量的大小无关D、先随着样本量的增大而减小,到一定程度后会随着样本量的增大而增大。参考答案:A7L倒传递神经网络(BP神经网络)的训练顺序为何?(A:调整权重;B:计算误差值;C:利用随机的权重产生输出的结果)A、BCAB、CABC、BACD、CBA参考答案:D72 .个人信息保护影响评估报告和处理情况记录应当至少保存()年。A、B、十C、五D、三参考答案:D73 .资金的时间价值是()A、同一资金在同一时点上价值量的差额B、同一资金在不同时点上价值量的差额C、不同资金在同一时点上价值量的差额D、不同资金在不同时点上价值量的差额参考答案:B74 .有一条关联规则为A-B,此规则的信心水平(COnfidenCe)为60%,则代表()A、买B商品的顾客中,有60%的顾客会同时购买AB、同时购买A,B两商品的顾客,占所有顾客的60%C、买A商品的顾客中,有60%的顾客会同时购买BD、两商品A,B在交易数据库中同时被购买的机率为60%参考答案:C75 .有一组数据其均值是20,对其中的每一个数据都加上10,那么得到的这组新数据的均值是()。A、20B、10C、15D、30参考答案:D76 .与大数据密切相关的技术是()。A、蓝牙;B、云计算C、Wi-FiD、博弈论参考答案:B77 .在数据分析和处理方面具有分析方法丰富、分析模型扩展强、数据挖掘能力强等特点的分析工具是()。A、 WekaB、 SPSSC、SASD、R参考答案:D78 .用于分类与回归应用的主要算法有:()A、Apriori算法、HotSpot算法B、RBF神经网络、K均值法、决策树C、K均值法、SOM神经网络D、决策树、BP神经网络、贝叶斯参考答案:D79 .()提供的支撑技术,有效解决了大数据分析、研发的问题,比如虚拟化技术、并行计算、海量存储和海量管理等。A、点计算B、线计算C、云计算D、面计算参考答案:C80 .描述一组对称(或正态)分布数据的离散程度时,最适宜选择的指标是()A、极差B、标准差C、均值D、变异系数参考答案:B8L考虑下面的频繁3-项集的集合:1,2,3,1,2,4,1,3,4,1,3,5,2,3,4,2,3,5,3,4,5)假定数据集中只有5个项,若采用合并策略,则由候选产生过程得到4-项集不包含()A、1,2,3,4B、1,2,3,5C、1,2,4,5D、1,3,4,5参考答案:C82 .相关分析与回归分析的一个重要区别是()A、前者研究变量之间关系的密切程度,后者研究变量间的变动关系,并用方程式表示B、前者研究变量之间的变动关系,后者研究变量间关系的密切程度C、两者都研究变量间的变动关系D、两者都不研究变量间的变动关系参考答案:A83 .SQL语句中删除表的命令是()A、 DROPTABLEB、 DELETETABLEC、 ERASETABLEd、Deletedbf参考答案:A84 .已知事件A的概率P(八)=O.6,U为必然事件,则P(A+U)=1,P(AU)=A、0.4B、0.6C、0D、1参考答案:B85 .迈克尔波特的“五力模型”中,五种竞争力量中不包括()A、新进入者B、供应商议价能力C、其他利益相关者力量D、行业中现有竞争者参考答案:C86 .假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用等宽划分(宽度为50)方法将它们划分成四个箱,求15在哪个箱子?()A、第1个B、第2个C、第3个D、第4个参考答案:A87 .()是研究一种或者多种因素的变化对试验结果的观测值是否有显著影响的统计方法。A、因子分析;B、数据降维C、方差分析D、假设检验参考答案:C88 .某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?()A、关联规则发现B、聚类C、分类D、自然语言处理参考答案:A89 .以下哪个指标不能用于线性回归中的模型比较()A、R方B、调整R方C、AICD、BIC参考答案:A90 .下面关于聚类分析说法错误的是()A、一定存在一个最优的分类B、聚类分析是无监督学习C、聚类分析可以用于判断异常值D、聚类分析即:物以类聚,人以群分参考答案:A91 .分类变量使用以下哪个统计量进行缺失值填补较合适A、均值B、最大值C、众数D、中位数参考答案:C92 .若数据量较大,下面哪种方式比较适合()A、系统聚类B、快速聚类(k-11eans)C、A和B都可以D、A和B都不可以参考答案:B93 .在对历史数据集进行分区之前进行数据清洗(缺失值填补等)的缺点是什么A、违反了建模的假设条件B、加大了处理的难度C、无法针对分区后各个数据集的特征分别做数据清洗D、无法对不同数据清理的方法进行比较,以选择最优方法参考答案:D94 .数据仓库是随着时间变化的,下面的描述不正确的是()A、数据仓库随时间的变化不断增加新的数据内容B、捕捉到的新数据会覆盖原来的快照C、数据仓库随时间变化不断删去旧的数据内容D、数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合参考答案:C95 .SQL语言中,删除一个表中所有数据,但保留表结构的命令是()A、 DELETEB、 DROPC、 CLEARD、 REMORE参考答案:A96.依照中华人民共和国数据安全法和有关法律、行政法规的规定,()负责统筹协调网络数据安全和相关监管工作。A、工业和信息化部B、国家安全部门C、国家网信部门D、通信主管部门参考答案:C97.假设属性ine的最大最小值分别是12000元和98000元。利用最大-最小规范化的方法将属性的值映射到0至1的范围内。对属性ine的73600元将被转化为()A、0.751B、0.163C、0.457D、0.716参考答案:D98 .建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?OA、根据内容检索B、建模描述C、预测建模D、寻找模式和规则参考答案:C99 .自动化高级分析实验室,实现与统一数据资源库互联,实现数据的自助组表、自助分析功能,满足不同层级、不同水平的用户需求的是O初级分析;B、综合分析C、典型分析D、高级分析参考答案:D100 .下列选项中属于现金流入的项目是()A、所得税B、建设投资C、经营成本D、营业收入参考答案:D101 .一组N个观测值按数值大小排列,分成100份,处于X%位置的值称第X个百分位数称为()。A、分位数B、中位数C、众数参考答案:A102 .开始将N个样品各自作为一类,将规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其他类的距离,重复进行两个最近类的合并,每次减少一类,直至所有的样品合并为一类,此种聚类方法是()A、KmeansB、SOM聚类C、系统聚类D、有序聚类参考答案:C103 .指数平滑法可以用以下哪种指标来反映对时间序列资料的修正程度()A、平滑常数B、指数平滑数初始值C、跨越期D、季节指数参考答案:A104 .变量的量纲比如以厘米或者米为单位对下面哪种方法会有影响()A、方差分析B、回归分析C、聚类分析D、主成分分析参考答案:C105 .关于Tableau的特点,以下说法错误的是()A、学习成本低,简单易用;B、图表精美;C、开发快速,分享便捷;D、需要IT大量人员参与参考答案:D106 .在ID3算法中信息增益是指()A、信息的溢出程度B、信息的增加效益C、烯增加的程度最大D、燧减少的程度最大参考答案:D107 .一组数据中最大值与最小值的差值称为(),也称全距。A、极差B、极距C、距离D、方差参考答案:A108 .()是一种开源软件编程语言,主要用于统计分析,绘图和数据挖掘,内置多种统计及分析功能。A、H.IVE;B、H.ADOOPC、R;D、H.FDS参考答案:C109 .决策树中的InformationGain的计算是用来?A、剪枝B、使树成长C、处理缺失值和异常值D、砍树参考答案:B110 .泊松回归是一种广泛应用的()回归模型。A、线性B、非线性C、预测D、估算参考答案:BIIL数据库系统是由()组成的A、数据库、数据库管理系统和用户B、数据文件、命令文件和报表C、数据库文件结构和数据D、常量、变量和函数参考答案:A112 .下列四项中,不属于数据库特点的是()A、数据共享B、数据完整性C、数据冗余很高D、数据独立性高参考答案:C113 .某小区60%居民订晚报,45%订青年报,30%两报均订,随机抽一户。则至少订一种报的概率为()A、O.82B、O.85C、O.80D、O.75参考答案:D114 .关于统计学和大数据之间的关系,一下说法错误的是()。A、面临大数据,统计学的研究对象有所改变;B、在大数据环境中,需要首先将未知的问题转化为可用的统计方法;C、在大数据分析过程中,传统的统计分析过程“定量一定位一再定性”转变为“定量一定性”;D、在大数据环境中,需要将统计研究的对象范围扩展到一切数据。参考答案:A115 .在数据分析和处理方面具有分析方法丰富、分析模型扩展差、数据挖掘能力强等特点的分析工具是()。A、 WekaB、 SPSSC、SASD、R参考答案:B116 .下列说明错误的是()A、性别=“男”=>职业=“司机”,是布尔型关联规则B、性别=“女"=>avg(收入)=2300,是一个数值型关联规则C、肝炎二ALT(丙氨酸转氨酶)升高,是一个单层关联规则D、性别二“女”二职业二“秘书”,是多维关联规则参考答案:C117 .Hive是基于Hadoop的一个数据()工具A、分析;B、仓库C、制图D、可视化参考答案:B118 .数据记录内容完整比例,包括指标单位维度、业务维度组合记录条数完整,指标字段值完整称为()A、指标数据自动采集率;B、指标数据接入率C、指标数据接入及时率;D、指标数据完整率参考答案:D119 .EXCEL中,求标准差的函数是0A、 AVERAGEB、 MEDIANC、 MODED、 STDEV参考答案:D120 .对于下列实验数据:1,108,11,8,5,6,8,8,7,11,描述其集中趋势用。最为适宜,其值是()。A、平均数,14.4B、中位数,8.5C、众数,8D、以上都可以参考答案:C121 .个人信息保护法发布执行时间()。A、2021年9月1日;B、2021年10月1日;C、2021年11月1日D、2021年12月1日参考答案:C122 .检测一元正态分布中的离群点,属于异常检测中的基于()的离群点检测A、统计方法B、邻近度C、密度D、聚类技术参考答案:A123 .下列关于聚类挖掘技术的说法中,错误的是()A、不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别B、要求同类数据的内容相似度尽可能C、要求不同类数据的内容相似度尽可能D、与分类挖掘技术相似的是,都是要对数据进行分类处理参考答案:B124 .按数据的结构程度来划分,分为()A、结构化数据、半结构化数据、非结构化数据B、强结构化数据、弱结构化数据C、截面数据、面板数据D、一级数据、二级数据、三级数据参考答案:A125 .当前国内社会中,最为突出的大数据环境是()A、互联网B、物联网C、综合国力D、自然资源参考答案:A126 .()是一种松散耦合的服务和应用之间标准的集成方式。A、E.SB;B、D.MC、ODSD、E.TL参考答案:A127 .在建立线性回归(LinearRegression)之前我们可以利用何种方法挑选重要属性,以降低模型的复杂度?A、皮尔森相关系数B、卡方检定C、T-检定D、Z-Score参考答案:A128 .给定一个置信概率和置信区域,若误差超过置信区域,则认为误差不是随机误差引起,视为异常值的判别方法()。A、聚类判别法;B、回归判别法C、抽样判别法D、统计判别法参考答案:D129 .ROC曲线凸向哪个角,代表模型越理想?A、左上角B、右上角C、左下角D、右下角参考答案:A130.,给出下列结论:1)在回归分析中,可用指数系数R方的值判断模型的拟合效果,R方越大,模型的拟合效果越好;2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;(3)在回归分析中,可用相关系数r的值判断模型的拟合效果,r越小,模型的拟合效果越好;(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越宽,说明模型的拟合精度越高.以上结论中,正确的有()个.A、1B、2C、3D、4参考答案:A131 .回归是一种预测建模技术,研究()和()的依存关系。A、预测值、实际值B、自变量、因变量C、绝对误差、平方误差D、测试样本、集合参考答案:B132 .ODS是指()A、企业数据中心;B、数据仓库C、操作型存储D、总线参考答案:B133 .用简单随机重复抽样方法抽取样本单位,如果要使抽样平均误差降低50%,则样本容量需要扩大到原来的0A、2倍B、3倍C、4倍D、5倍参考答案:C134 .假设BCE为一频繁项目集(FrequentItemset),则根据AprioriPrinciple以下何者不是子频繁项目?A、BCB、CEC、CD、CD参考答案:D135 .假如学生考试成绩以“优”.“良”,“及格”和“不及格”来记录,为了说明全班同学考试成绩的水平高低,其集中趋势的测度()A、可以采用算术平均数B、可以采用众数或中位数C、只能采用众数D、只能采用四分位数参考答案:C136 .将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?()A、数据获取B、分类和预测C、数据预处理D、数据可视化参考答案:C137 .在有指导的数据挖掘中,有关测试集的说法错误的是()A、测试集和训练集是相互联系的B、测试集是用以测试模型的数据集C、通常测试集大约占总样本的三分之一D、K-次交叉验证中,测试集只有1个,训练集有K-I个138 .以下那一项不是大数据提供的用户交互方式是()。A、企业报表;B、查询C、大数据分析挖掘D、可视化参考答案:A139 .表示职称为副教授、性别为男的表达式为()A、职称二'副教授'OR性别='男'B、职称二'副教授'AND性别二'男'C、BETWEEN,副教授'AND'男'D、IN('副教授男')参考答案:B140 .Logistic回归是在商业领域上使用最广泛的预测模型,常用于()分类变量预测和概率预测。A、四值B、三值C、二值D、一值参考答案:C141 .检查异常值常用的统计图形是()A、柱状图B、箱线图C、帕累托图D、气泡图参考答案:B142 .以下哪条属于个人信息影响的评估场景:()A、处理敏感个人信息,利用个人信息进行自动化决策B、委托处理个人信息、向第三方提供个人信息、公开个人信息C、向境外提供个人信息D、以上皆是参考答案:D143 .个人信息保护法对于企业的影响不包括()A、需要强化个人信息处理这主体责任B、明确了可以量化的中国版执行罚则C、需要设立负责处理个人信息保护相关事务的专门机构和指定代表D、收集和处理数据时可以不遵循“最小化”原则参考答案:D144 .实际由源业务系统自动接入的指标数据占指标体系中应接指标总数的比例称为()A、指标数据自动采集率;B、指标数据接入率C、指标数据接入及时率;D、指标数据完整率145 .假设检验中,拒绝域的边界称为()A、临界值B、临界点C、置信水平D、边际值参考答案:A146 .以下关于大数据的概念和理解不正确的是()A、大数据是指无法再容许的时间内用常规的软件工具对其内容进行抓取、管理和处理的数据集合,大数据规模的标准是持续变化的,当前泛指单一的数据集的大小在几十TB和PB之间;B、大数据是一项技术,能够对复杂海量数据进行实时获取、传输、存储、加工和利用的高薪技术;C、大数据是一种挑战,现有的数据采集、传输、存储、处理和分析技术已无法适用于现有的需要;D、大数据是一个时代,拥有大数据是时代的特征、解读大数据是时代的任务、应用大数据是时代的机遇。参考答案:A147 .数据收集的标准为()而非动用企业全部数据。A、一致性、可靠性、时效性B、相同性、可靠性、时效性C、C相关性、可靠性、时效性D、一致性、可靠性、实际性参考答案:C148 .MySQL是()A、操作系统;B、数据库C、聊天软件D、浏览器参考答案:B149 .当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A、分类B、聚类C、关联分析D、主成分分析参考答案:B150 .某超市研究销售记录发现,购买奶的很概率会购买包,这种属于数据挖掘的哪类问题?()A、聚类分析B、关联规则C、分类分析D、自然语言处理参考答案:B151 .苹果公司对IPHONE的降价行为属于()A、地域性差别定价B、时间性差别定价C、非线性定价或数量折扣定价D、其他形式的定价参考答案:B152 .当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?A、分类B、聚类C、关联分析D、隐马尔可夫链参考答案:B153 .NaiveBayes是属于数据挖掘中的什么方法?A、聚类B、分类C、时间序列D、关联规则参考答案:B154 .中华人民共和国数据安全法中的数据,是指任何以电子或者其他方式对()的记录。A、数据B、信息C、文件D、知识参考答案:B155 .下列不属于原始数据来源的是()A、行政记录B、统计调查C、统计年鉴D、实验参考答案:C156 .数据挖掘技术包括三个主要的部分()A、数据、模型、技术B、算法、技术、领域知识C、数据、建模能力、算法与技术D、建模能力、算法与技术、领域知识参考答案:C157 .(),用于显示树状结构数据。A、矩形式树状结构图;B、平行结构树C、垂直结构树参考答案:A158 .在Excel工作表中,在某单元格内输入数值123,不正确的输入形式是()A、123B、 =123C、 +123D、 *123参考答案:D159 .分析顾客消费行业,以便有针对性的向其推荐感兴趣的服务,属于()问题。A、关联规则挖掘B、分类与回归C、聚类分析D、时序预测参考答案:A160 .在有关数据仓库测试,下列说法不正确的是()A、在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统测试B、当数据仓库的每个单独组件完成后,就需要对他们进行单元测试C、系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试D、在测试之前没必要制定详细的测试计划参考答案:D161

    注意事项

    本文(2024年大数据挖掘分析专业考试题库(含答案).docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开