大数据技术概论期末复习题2023-11(附参考答案).docx
《大数据技术概论期末复习题2023-11(附参考答案).docx》由会员分享,可在线阅读,更多相关《大数据技术概论期末复习题2023-11(附参考答案).docx(8页珍藏版)》请在课桌文档上搜索。
1、单项选择题1 .下列各项不属于数据的是()oA.文本B.图像C.视频D.印象2 .下列各项不属于大数据特征的是()oA体量大B.种类多C真实性D.数据生成慢3 .数据异常值的处理方法不包括()。A极小值替换B.删除C忽略D.视为缺失值进行填补4 .下列各项不能用于描述数据集中趋势的是()。A方差B.平均数C中位数D.峰值5 .下列各项不属于HadoOP的特点是()。A.存储迅速B.成本高C,计算能力强D.灵活性强6 .在工业网络实时监控系统中,需要连续不断地采集和处理数据。以下()不属于这种计算模式。A.在线处理B.实时处理C.流式计算D.批量计算7 .下面不是研究数据方法的是()。A.统计学
2、B.机器学习C.心理分析D.数据挖掘8 .下面不属于大数据的处理过程的是()。A.数据获取B.数据清洗C数据分析D.数据安全9 .下面不属于大数据计算模式的类型的是()。A.批量计算B.手动计算C.流式计算D,交互式计算10 .下列各项属于合规数据的是()oA非法收集隐私信息数据B.取得使用者同意的个人资料数据C泄露的隐私信息数据D.垄断数据11 .在HadOOP生态系统中,主要负责节点集群的任务调度和资源分配,将存储和计算资源分配给不同应用程序的组件是()。A.HDFSB.MapReduceC.YARND.Storm12 .下列属于图数据的主要特性的是()。A.数据驱动计算B.不规则问题C高
3、数据访问率D.以上均是13 .可以用来查看数值型变量的分布的可视化方法是()。A.箱线图B.直方图C小提琴图D,以上方法均可以14 .如果只是研究两个数值变量之间的关系,最常见的可视化方法是()。A.直方图B.散点图C饼图D.折线图15 .下列各项不属于批处理系统的特点的是()。A.可以实现实时的分析报告或自动响应B.可以实现无缝扩展以处理峰值数据量或数据请求C,支持数据在不同系统之间进行交换D.支持作业执行状态的监控16 .下列各项属于非结构化数据的是()0A.图像B.二维数据表CHTML文档D.以上均是17 .在大数据的处理流程中,()步骤是将数据转化为图形,以更直观的方式展示和表达。A存
4、储与管理B.可视化C采集与预处理D.分析与挖掘18 .下列关于异常值的描述中,错误的是()。A,可以使用箱线图检测异常值B.当异常值的数量不是很多时,可以直接将含有异常值的观测记录删除C,可以将异常值视为缺失值,按处理缺失值的方法处理异常值D.异常值的存在不属于数据质量问题,不会影响模型的预测能力19 .下列各项关于分类的描述中,错误的是()。A.可以借助分类方法根据电子邮件的标题判断其是否为垃圾邮件B.在进行建模之前就要有明确的分组预测目标C.k近邻算法是一种简单但强大的分类算法D.用来建立分类模型的输入数据称为测试集20 .假设散点图中的观测点分布较为分散,没有任何规律,说明两个变量之间的
5、关系为()。A.完全线性相关B.线性相关C,非线性相关D.不相关21 .在HadooP生态系统中,主要负责跨节点存储结构化或非结构化数据,并以日志文件的形式管理数据的组件是()oA.HDFSB.MapReduceC.YARND.Storm22 .下列各项不属于批处理系统的特点的是()。A.为开发者提供了一个简单、快捷的开发框架B.支持各种数据格式的处理C,支持数据在不同系统之间进行交换D.可以实现实时的分析报告或自动响应23 .为表示一组数据的分布特征,反映数据分布是否对称时,常用的可视化方法是()。A箱线图B.气泡图C.折线图D.散点图24 .如果要反映某学生在6个学期中每学期平均成绩的变化
6、情况,采用()可视化方法较为合适。A.饼图B.折线图C散点图D.直方图25 .下列各项属于结构化数据的是()。A.图像B.二维数据表C声音D.文本26 .在大数据的处理流程中,下列各项中最先进行的是()。A存储与管理B.可视化C.采集与预处理D.分析与挖掘27 .下列关于缺失值的描述中,错误的是()。A.缺失值是指数据集中有些变量的一个或多个取值无法获得B.数据缺失的现象大量存在C.回归插补的方法不会改变数据分布D.当缺失数据的记录所占比例在数据集中少于10%时,可以将缺失值直接删除28 .下列各项关于聚类的描述中,错误的是()。A.可以借助聚类方法进行异常检测B.在进行建模之前就要有明确的分
7、组预测目标C,可以利用聚类分析发现具有相似功能的基因组D.根据数据本身的自然结构对数据进行分组29 .假设散点图中的观测点恰好落在一条直线上,说明两个变量之间的关系为()。A.完全线性相关B,线性相关C.非线性相关D.不相关30 .下列各项属于数据仓库的特点的是()。A.数据以主题为导向,提供决策支持B.数据源单一C,数据质量低D.不支持历史数据分析31 .根据原始数据是否为数据的直接来源, A结构化、非结构化和半结构化数据 C观测数据和实验数据32 .大数据5V特征中的Variety表示(A.体量大B.种类多33 .大数据处理流程中的(A数据的采集与预处理 C.数据的可视化C价值大可以将数据
8、分为()。B.一手数据和二手数据D.截面数据和时间序列数据)。D.数据快)步骤是将数据转化为图形,以更直观的方式展示和表达。B.数据的存储与管理D.数据的分析与挖掘34 .下列各项不属于大数据在银行业的应用的是()。A.客户分析B.风险管理C运营优化D.疾病预防与治疗35 .数据的整理是根据分析目的对数据格式、形态和结构进行处理,其中()能够在不损失或损失较少数据本身价值的情况下压缩数据。A数据的聚合B.数据的提取C.数据的连接D.数据的变换36 .关于数据的离散化,下列描述中错误的是()0A.数据的离散化是指将数据由分类型变量变成数值型变量。B.离散化可以提高大数据处理的效率C.组距分组是常
9、见的离散化方法之一D,离散化可以实现样本量的缩减37 .异常值的处理方法包括()。A删除B.视为缺失值进行填补C忽略D.以上均是38 .下列关于数据仓库三层架构的描述中,正确的是()。A顶层由联机分析处理服务器组成B,底层由数据仓库服务器组成C.中间层由前端用户界面表示D.数据在中间层完成加载和存储39 .HDFS的高可用性是指()oA随着需求的增加,集群可以轻松扩展到更多节点B.实现节点集群上的并行数据处理C,即使集群中的某个节点发生故障,数据仍然可用D.出现故障时,可以从集群中的其他节点获取数据备份40 .下列各项不属于NOSQL数据库的是()。A关系数据库B.文档数据库C.键值存储数据库
10、D.图形数据库41 .以下可视化图形中,()是由数据集合中的最大值、最小值、中位数和两个四分位数绘制而成。A.柱形图B.饼图C.箱线图D.直方图42 .以下常用于时间序列数据可视化的方法是()0A折线图B.直方图C饼图D.箱线图43 .下列关于推断统计学的描述中,错误的是()oA参数估计是根据样本的统计量来估计总体中的参数B.假设检验可以度量变量之间的相关程度C判别分析是将某个对象归到已知类别中D.时间序列分析是研究时间序列数据变化规律的方法44 .根据概率的原则进行分类的机器学习算法是()。Ak近邻算法B.决策树C.朴素贝叶斯分类器D.随机森林45 .以下关于关联规则的描述中,错误的是()0
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 概论 期末 复习题 2023 11 参考答案
链接地址:https://www.desk33.com/p-1013523.html