国开大数据技术概论复习资料2024春.docx
B.×【答案】A批量数据处理是一种在线计算模式,可以满足系统对数据进行实时处理的需要。A.1B.×【答案】B在MaPRedUCe编程模型的执行流程中,数据洗牌/排序的工作是在输入阶段完成的。()A.B.X【答案】BMapReduce编程模型主要包括Map操作和Reduce操作两个阶段。OA.B.×【答案】AMaPRedUCe可以通过在存储数据的节点上进行有效地任务调度来减少对网络资源的浪费,并且因为所有节点都在并行处理数据,可以大幅度缩短处理时间。O.B.1X【答案】RHadooP是基于MaPRedUCe编程模型开发的个大数据处理框架。OA.B.×【答案】A批量数据处理旨在以最小延迟处理实时生成的数据潦。OA.B.1X【答案】BMaPRedUCe基于分而治之的算法范式,利用多台计算机完成数据处理O.JB.×【答案】A数据科学是通过科学方法探索数据,以获得有价值的发现。OA.B.1×【答案】A大数据中的"大”主要指的是数据种类的多样性,而不是指数据员的大小。().1B.1×【答案】B大数据的重要特征之是速度快。()A.B.×【答案】A数据科学的发展不仅可以推动学科的发展,而且能够助推相关产业的发展与进步。()A.B.X【答案】ADIKW模型描述J'数据如何逐步转化为信息、知识及智越的过程。()A.B.X【答案】大数据的五个V特性是:体量(Volume),速度(Velocity).价值(Value).多样性(Variety)和真实性(Veracity).OA.B.×【答案】A结构化数据不可以用关系型数据库进行表示、存储与管理。()A.1B.×【答案】B观测数据和试眩数据的区别是前者在自然未被控制的条件下观测到,而后者是在有人工控制的条件卜收集。()A.B.X【答案】A数据可视化的作用仅限于将抽象的数据进行可视表达,无法帮助我们发现数据中的规律和特征。()A.B.1×【答案】B大数据处理的基本流程包括数据收集、数据预处理、数据存储与管理、数据分析与挖掘、数据展示五个环节,().B.1X【答案】R大数据的个重要特征是数据的多样性,这包括数据的各种格式和类型。()A.B.X【答案】在大数据的处理过程中,数据清洗和数据整合是十分关键的步骤OA.1(B.×【答案】A大数据的生成主要来源于计算机系统的运行和人工输入,天气数据、网络数据、社交媒体数据等并不属于大数据的生成来源。O(A.1B.×【答案】B根据数据在收集过程中是否有控制因素,可以将数据分为截面数据和时间序列数据。()(A.(B.X【答案】B相对F结构化数据,非结构化数据的主要特点是没有固定的格式,它可能来自各种源,并且无法直接存入传统的关系型数据库.().(B.×【答案】A在大数据的应用中,只需要依赖大数据分析技术,与各行业的业务关联性并不大.O(A.)(B.1X【答案】B在大数据的5V特性中,“可骏证性”指的是数据的真实性和准确性,只有真实、准确的数据才能满足大数据处理和分析的需要.()A.(B.X【答案】B办公文档、图像、声音和文本都是结构化数据。()(A.1(B.×【答案】B根据数据在收集过程中是否控制有关因素,可以将数据分为观测数据和实险数据。()A.1(B.×【答案】A数据湖和数据仓库具有完全相同的特性和结构,可以互换使用.()A.B.1X【答案】B大数据科学不仅包括数据采集和数据分析,还涵括数据预处理、数据存储和数据管理等环节。O.B.×【答案】A研究数据仅仅包括数据采集和数据分析。OA.B.X【答案】B网页数据是一种半结构化数据.C.B.X【答案】A大数据技术主要处理的数据类型是结构化数据,而对于非结构化数据处理能力较弱。.B.×【答案】B网页点击流数据是一种典型的非结构化大数据应用OA.B.X【答案】A技面数据是指同一时间不同观测个体的一个或多个指标组成的数据集.()A.B.1×【答案】A时间序列数据是按时间顺序排列的观测值序列,用于所描述现象随时间变化的情况。()(.1B.1×【答案】A主成分分析方法无法用于降低数据的维度。()A.B.X【答案】B聚类分析与分类区别在于,分类需要预设定特定的类别,而聚类分析是无监督学习,无需预先设定类别,系统会自动将相似的数据聚集在一起,形成类簇。O.B.X【答案】A异常检测是-种关键的大数据分析方法,可以用于发现数据中的异常或异常行为。()A.B.×【答案】A在进行数据分析时,数据预处理如数据清洗和数据转换是亦必需的步骤。).(B.×【答案】B决策树是一种简单高效的分类模型。().B.×【答案】A聚类分析仅能处理数值型数据,对于非数值型数据无效。()(.1B.1×【答案】B聚类分析是种常用的无监督学习方法,用于发现数据集中的模式或结构,)A.B.1X【答案】A在聚类的过程中,我们要事先知道数据中的类别信息,然后进行相应的分类,)A.B.1X【答案】B决策树兑法能鲂容忍数据中的缺失值和过滤存储在每个属性中的无关数据。.B.×【答案】A关联规则分析常用于购物篮分析,挖掘商品间的购买关系。OA.B.X【答案】AEXCel是一种常用的电子表格程序,除/数据存储,还提供f丰富的数据分析和可视化功能。()A.B.1×【答案】A对于预测样本的分类,决策树从根节点开始,根据预测样本的属性结果选择适当的分支,直到到达某个叶节点的类标号。().1B.1×【答案】A样本相关系数(Colrelationcoefficient)可以用于衡量两个变量之间的线性关系强度。().B.1X【答案】Ak近邻法是基于示例的分类方法,根据最相似的样本的类别,来判断未知样本的类别。OA.B.X【答案】Ak近邻算法实际上是一种分类经法,其通过找出样本圾近的k个部居并根据多数投票进行分类。OA.B.×【答案】Ak近邻算法是一种简雌但强大的聚类算法。OA.B.X【答案】B通过编写宏和YBA脚本,我们可以实现Excel自动化处理数据和豆杂的数据分析任务。)A.1B.×【答案】A在决策树算法中,每一次分枝的条件通常是将数据集的特征按某一指标进行划分,以此实现分类或预测任务。O.1B.1X【答案】A统计学是以数据为研究时象的科学,以解决现实世界中的问题为目标“().B.1X【答案】A在电子商务推荐算法中,基于关联规则的推荐算法是指根据商品本身属性计算商品之间的相似度。OA.B.1X【答案】B时间序列分析中采用对数变换来消除异方差。()A.B.1X【答案】AExcel只能存储数据,无法用于数据分析。()(A.B.×【答案】B在HDFS中,NaInOde为主节点,负五元数据管理和块位置的索引.()A.B.1X【答案】ASQ1.数据库适合处理大量、高速和多样性的数据。O.1B.1X【答案】BHDFS架构遵循主从结构,主节点称为数据节点,负货接收来自客户端的作业请求。()A.B.X【答案】BSQ1.数据库在定义关系时不需要定义属性的大小,从而避免了存储空间的浪费。()A.B.1X【答案】BNoSQ1.数据库,如CaSSandra和MongoDB,是设计用来处理大量数据的数据库系统。OA.B.1X【答案】A关系型数据库不是用来存储和访问具有彼此相关性数据的数据库。().JB.×【答案】B文件代表若程序与数据,它是位、字节、行或记录的序列。()A.B.1×【答案】A在分布式文件系统HDFS中,数据丢失的问题可以通过在多个数据节点上纪制相同的数据块来解决。().1B.1×【答案】A在大数据环境中,数据仓库主要用于存储结构化数据,而数据湖主要用于存储非结构化数据().B.1X【答案】B当数据的结构发生变化时,使用SQ1.数据库进行相应谢整的成本相对较低。()A.B.X【答案】B大数据处理需要将数据分布式存储在集群中的多台机器上进行并行处理,以正常运作。()A.B.×【答案】A在HDFS集群中,如果NameNOde监测到某一个DataNode无法正常工作,它不会进行任务的重新分配。().JB.×【答案】B大数据存储通常只需要考虑数据的存储,而不需要考虑数据的检索和处理。OA.1B.X【答案】B关系数据库基于两个表中的公共列,可以建立两表之间的关系,避免数据的重复存储。().1B.X【答案】A关系数据库是用来存储和访问具有彼此相关性数据的数据库.().B.1X【答案】ANoSQ1.和NewSQ1.数据库是为满足非结构化数据和大数据处理应用的特殊要求,作为对关系型数据库的补充而出现的.()A.B.X【答案】A在HDFS架构中,主节点称为NanIeNode,而不是数据节点,它主要负货存储系统的元数据,处理客户端的请求。()A.B.×【答案】ANoSQ1.数据库是专门为大数据和实时网页应用设计的,因此通常不支持AClD(.(B.×【答案】ANSQ1.数据库如MongDB和CaSSandra不支持海量数据的存储,只能处理小规模数据。<>A.1B.×【答案】BHI)IS系统通过在不同节点上存储相同数据块的备份,来实现对文件的高效并行处理和数据的容错性。().1B.1X【答案】A面部识别技术的快速发展并没有带来任何隐私侵权的问题,.().B.1X【答案】B黑客技术的亦法入侵是大数据隐私保护所面临的主要威胁之一。OA.B.×【答案】A在大数据环境下,数据使用的合规性并不需要考虑,因为大数据的收集和分析主要是为了提供更好的服务和产品。()A.(B.×【答案】B时丁存储的敏感信息,完全脱敏后的信息仍然可以进行有效的数据分析和挖A.B.×【答案】A数据脱敏技术,数据加密技术等都能有效保护大数据的安全。()A.1B.×【答案】A大数据技术中数据的加密是一种有效的保护数据隐私的方法,它可以有效防止数据在传输过程中被截获。OA.B.X【答案】A在大数据环境中,数据加密是主要的安全处理技术,因为这可以确保即使数据泄露,也无法被滥用.OA.B.1×【答案】A随着大数据平台的广泛使用,对隐私信息的保护变得无关索要。()A.B.×【答案】B数据脱敏技术可以有效降低微感数据泄露的风险。OA.B.1X【答案】A大数据在教育领域的应用主要包括个性化教学和学生行为分析等。OA.B.×【答案】A基于用户的协同过沱推荐算法是根据商品或内容的点赞、收藏、分享等情况判断用户对该商品的兴趣和偏好程度,并推荐相似商品给用户。().(B.×【答案】B银行业通过大数据技术可以有效分析经营过程中可能存在的风险因素。OA.B.1×【答案】A银行业利用大数据技术可以分析客户全生命周期的不同需求,从而为客户提供更满意、更精准的产品与服务。().1B.1X【答案】A大数据技术在医疗领域无法帮助医生进行疾病诊断和预防.O.B.1X【答案】B电子商务通过大数据技术优化推荐算法,改善用户购物体验。()A.B.×【答案】A在电商行业,通过大数据分析用户行为,可以提升产品销仰、优化营销策略并改善用户体验。OA.(B.×【答案】A将深度学习引入医学影像大数据平台有助于提高医学影像筛查诊断的准确率和自动化程度。()A.B.X【答案】A只能通过数据插补的方式处理数据集中的缺失值。()A.B.1×【答案】B大数据预处理阶段不包括数据插补步骤。()(.1B.1×【答案】B在大数据分析过程中,无论数据采集还是预处理都是不可或缺的环节,它们决定了分析结果的质垃.().B.1X【答案】A数据采集技术的质量并不影晌数据的采集效率和数据质量。()A.B.×【答案】B数据融合是数据预处理的一种方式,它主要用于整合来自多个数据源的信息,从而在同一视角卜.进行数据处理和分析。()A.(B.×【答案】A缺失值的处理方法只有直接删除,没有其他的处理方法.()(.B.×【答案】B大数据的采集技术已经逐渐成为数据高速增长的主要推动因素之一,成为大数据技术的重要活动。()A.B.X【答案】A数据预处理的一种方法是数据归一化,它将所有数据缩放到一个固定的范围中,以消除数据之间的尺度差异。().B.1×【答案】A数据清洗包括去除亚豆数据、填补缺失值以及修正明显的错误值等步骤,()A.B.X【答案】A特征选择是指选择对预测结果影响力较大的特征,以改善学习算法的性能和解择性。()A.B.×【答案】A数据加工与传统数据处理的不同之处在丁,其更加强调数据处理中的增值过程。OA.(B.×【答案】A在大数据的应用中,数据的采是非必须的步骤。()A.B.X【答案】B回归插补通过建立缺失变量和己观测变盘之间的I可归方程,用缺失变出的预测值进行缺失值的插补。()A.B.1×【答案】A数据预处理的主要目的是为了提高数据J贞曼,将原始数据变成更加方便计算或处理的格式,使数据形态更加符合建模要求,进而提升数据挖掘的质地和效率。().1B.X【答案】A数据缺失的现象大量存在而又无法避免。()A.B.X【答案】A数据预处理的过程中不需要进行数据转换,)A.B.1X【答案】B数据预处理过程中的数据清洗包括去除重史的数据,那些离群点无需进行处理。()A.B.1X【答案】B对于数据缺失的现象,数据预处理通过如删除、插补等方式进行处理。().JB.×【答案】A数据清洗就是符无用的、色豆的、不完整的数据进行修改或删除,以保证数据质星的过程。()A.1B.X【答案】A为了避免数据的杂乱无序,通常将数据整理成数据集。().1B.1×【答案】A数据采集,也叫“数据获取”,就是从真实世界中采集和记录信息,将信息数据化形成原始数据。()A.B.X【答案】A数据的收集过程中,数据采集的工具和方法对数据质量、全面性和后续处理没有影响。()A.(B.×【答案】B数据降维是一种能有效减少数据更杂度,简化模型计算的技术。()A.B.1X【答案】A特征选择是指由原始变量的函数构造些新的变量,新的变量能保招原始变量的绝大部分信息。OA.B.×【答案】B数据可视化可以帮助用户更快速地理解和掌握数据的含义、结构和重要特性。()A.B.X【答案】A时r一个分类变量的各类别的频数占比,常用柱形图、条形图和饼图来展示.OA.B.1×【答案】A在数据分析中,数据可视化只是种辅助工具,不具仃实际的分析功能。().B.1X【答案】B散点图是最常用于展示两个数值型变量之间关系的可视化方法。()A.B.×【答案】A雷达图适用于反映多个变量的相对大小与差异,不适合反映变量之间的相互关系。()(A.JB.×【答案】A直方图是用来显示一个变量的分布情况,不适用于展现两个变量之间的关系。()A.1B.×【答案】A气泡图中气泡的面积大小没有实际意义。().B.1X【答案】B直方图是将数据点用直线串联起来所形成的统计图O.1B.X【答案】B时丁一组数值型数据的中位数、四分位数等分布情况,常用盒形图来展示.OA.B.1X【答案】A通常使用直方图展示两个数值型变量之间的相关关系。().B.1X【答案】B折线图适合用于展示时间序列数据的长期趋势.()A.B.×【答案】A数据可视化对于提升数据的理解、分析与推断没有帮助()A.B.×【答案】B在数据可视化技术中,我们使用计算机图形学、图像处理和人工交互等技术将数据转化为图像等可视形式“()A.B.X【答案】A在HadOoP生态系统中,以卜哪个组件是分布式文件系统,主要用于存储大数据()A.HDFSB.MapReduceC.YARND.Storm【答案】A在HadOOP生态系统中,主要负奏节点集群的任务调度和资源分配,将存储和计算资源分配给不同应用程序的组件是().HDFSB.MapReduceC.YARND.Storm【答案】CApacheSpark是个()(A.数据库系统B.编程语言C.大数据处理框架CD.机器学习库【答案】CHDFS的高可用性是指()(.随着需求的增加,集群可以轻松扩展到更多节点B.实现节点集群上的并行数据处理(C.即使集群中的某个节点发生故障,数据仍然可用(D.出现故障时,可以从集群中的其他节点获取数据备份【答案】C下列各项不属于云计算特点的是()A.敏捷EB.)弹性计算C.节约成本D.过度配置资源【答案】DHDFS的可扩展性主要体现在().1随着需求的增加,集群可以轻松扩展到更多节点【13.】即使集群中的某个节点发生故障,数据依然可用C.以分布式方式存储数据,减少处理时间【D.】确保数据始终可用,防止数据丢失【答案】A下列哪项不是实时数据处理系统设计的核心问题?A.实现信息的实时获取、处理和存储(B.处理过程不能影晌信息的获取C.数据存储系统需要支持大量的写入操作【D.】必须定时备份数据【答案】D下列关于HadOoP框架的描述中,错误的是OA.Hadoop是一个开源的分布式计修框架B.Hadoop的核心是IIDFS和MapReduceC.Iiadoop无法I理大数据D.Hadoop可以在廉价的硬件上运行【答案】C在Hadoop生态系统中,主要负声支持数据查询和数据分析,并通过SQ1.-Iike语言HiveQ1.实现结构化查询的组件是()A.HiveB.HiveQ1.C.HDFSD.Storm【答案】A关PStorm框架的描述,下列哪一项是不正确的?【A.】StOrm是具有高度容错性、灵活性、可能性的处理系统B.Storm允许实时流处理C.Storm的延迟较离D.Storm具有高度可扩展性。【答案】C下列各项不属于批处理系统的特点的是()A.为开发者提供了个简单、快捷的开发框架B.1支持各种数据格式的处理C.支持数据在不同系统之间进行交换(D.)可以实现实时的分析报告或自动响应【答案】D在工业网络实时监控系统中,需要连续不断地采集和处理数据。以卜.()不屈r这种计算模式.1在线处理B.实时处理C.流式计算(D.批量计算【答案】D在大数据处理过程中,MaP-RedUCe的主要应是().交瓦式查询(B.1流式处理(C.1批处理l).实时处理【答案】C在大数据处理技术中,卜列哪一项是用于进行大规模数据流处理的框架()A.HadoopB.MaPRedUCeC.YARNlStorm【答案】D在大数据处理中,下列哪种系统可以支持实时分析报告或自动响应).批处理系统B.实时处理系统C.离线处理系统I).Hadoop系统【答案】B在HadOOP生态系统中,主耍负员提供实时处理和分析流数据的组件是()A.HDFSB.MapReduccC.YARND.Storm【答案】D下列各项不属于Hadoop的特点是().存储迅速B.成本高(C.计算能力强D.灵活性强【答案】B卜列哪项不是Spark的主要特点().1快速数据处理HadOoP生态系统是一种().编程语言B.服务(C.统计分析软件I).解决大数据问题的平台【答案】DHadOoP生态系统中的()负货节点集群的任务调度和资源分配.HDFSB.YARNC.MapReduceI).Hive【答案】B在HadOOP生态系统中,主要负奏跆节点存储结构化或非结构化数据,并以日志文件的形式管理数据的组件是().HDFSB.UapReduceC.)YARND.Storm【答案】A卜列各项不属于批处理系统的特点的是().1可以实现实时的分析报告或自动响应B.可以实现无健扩展以处理峰值数据量或数据请求C.支持数据在不同系统之间进行交换D.1支持作业执行状态的监控【答案】A在MaPRedUCe模型编程中,运算步骤不包括O(.遍历数据(B.1映射键值(C.】数据分组1) .数据插补【答案】D在以二维表形式表示的数据集中,列表示().1特征B.样本C.属性I).字段【答案】A在大数据5V特征中,''Ycracity''表示的是()A.体量大B.种类多C.真实性【I).】价值大【答案】C下列哪种数据属下半结构化数据OA.XM1.B.关系数据库中的数据C.图像(I).二维数据表【答案】A下列哪项不是大数据存储技术O(.NoSQ1.数据库B.HadoopC.MapReduceD.Excel【答案】D大数据处理的核心环节是().1数据的采(B.】数据的存储与管理C.数据的可视化D.数据的分析与挖掘【答案】D下列各项属于定量变量的是().性别CB.婚姻状况C.年龄D.国籍【答案】C下列关于数据类型描述正确的是O(.】观测数据是在有人工控制的条件进行观察和收集的数据B.1时间序列数据和裁面数据都是按时间顺序排列的观测值序列【C.】非结构化数据是可以使用关系型数据库进行表示、存储与管理的数据(D.半结构化数据是处于结构化数据和非结构化数据之间的数据【答案】D在大数据分析中,以卜哪种分析是用来挖掘数据中的隐藏模式和关联的?.描述性分析B.诊断性分析C.侦测性分析I).1探索性分析【答案】D下列关于数据类型的描述中,哪项是错误的O?.1非结构化数据包括文本,图像和音视频等B.1结构化数据指的是预定格式的数据如数据库(C.半结构化数据包括XM1.文件和电子邮件1).1非结构化数据易于进行大数据分析【答案】D下面哪项不属于大数据预处理步骤)卜.列哪项技术不是用于处理大数据的O?.实时计算技术(B.分布式存储技术(C.并行计算技术(I).高汉超导技术【答案】D大数据5V特征中的YeraCity表示().1体量大(B.种类多C.真实性I).数据快【答案】C以下哪一项不是结构化数据O.关系数据库中的数据B.Excel表格中的数据C.歌词文本(D.二维数据表【答案】C大数据分析的主要H标不包括O(.】预测未来走势B.抽取信息(C.描绘数据形状D.院藏数据【答案】D卜.列哪项不是二手数据的特点?O(.数据不准确(B.采集成本ic.与研r目的相关度不够I).口径可能不一致【答案】B关于时间序列数据的描述,以下哪项是错误的?(.是按时间顺序排列的观测值序列B.1不能使用统计方法进行分析C.在时间间隔上接近的观测值通常更相关【I).】两个观测值在时间间隔上越远,它们的相关性就更弱【答案】B关r传统数据与大数据的获取与处理,下列描述中错误的是().传统的数据获取来源单一(B.1采用关系型数据库和并行数据库可以处理传统数据C.获取大数据的数据来源广泛(I).大数据的数据量相对较小【答案】D下列哪一项不是定性变量的例子O?.职业B.1性别(C.国籍D.身高【答案】D卜列哪一项不是大数据处理面临的挑战OA.1数据安全和隐私保护B.高'效实时处理大规模数据(C.从大量数据中发现有用信息和知识(D.数据量小导致结果不准确【答案】D根据原始数据是否为数据的直接来源,可以将数据分为()A.1结构化、非结构化和半结构化数据B.一手数据和二手数据C.观测数据和实验数据I).截面数据和时间序列数据【答案】B下列哪一项是定性变量OA.年龄(B.股票价格C.数学成绩【)】信用等级【答案】D关于大数据,以卜哪个描述是正确的?(A.大数据只包括结构化数据H.大数据只关乎数据的体枳C.大数据处理没有安全隐私问题1).1大数据可以来自各种来源,包括业务交易、社交媒体等【答案】D当个变量只能取有限几个值时,该变量就是().定量变量:(B.定性变量(C.独立变量1).1连续变量【答案】B数据预处理的主耍目的是什么?【A.】让数据产生价值B.1提高数据处理的效率C.解决数据缺失、不一致,冗余等问题【D.】将数据转化为图形【答案】C按照数据的结构化程度,我们可招数据分为()(A.截面数据和时间序列数据EB.一手数据和二手数据B.二维数据表C.HTM1.文档I).以上均是【答案】A关于定量变址和定性变量的描述中,哪一顼是错误的().1定量变量具有度量的含义(B.1定性变量是不能用数值带量的C.性别是定量变量(D.年龄是定量变量【答案】C下列哪种方法不届于大数据采集方法O?(.无线传感网络(B.日志文件(C.互联网爬虫D.数据建模【答案】D卜列属于图数据的主要特性的是OA.数据驱动计算(B.不规则问题(C.高数据访问率I).以上均是【答案】D下列各项不属于大数据特征的是().体量大B.1种类多C.真实性I).数据生成慢【答案】D下列各项属下定性变量的是()(.收入B.1支出C.身高(D.印象【答案】D数据集是一个()A.文本B.1文件C.图像【D.】图片【答案】B卜面不属于大数据的处理过程的是O.数据获取【B.】数据清洗C.数据分析I).1数据安全【答案】D当个变量可以在个范围内连续取值时,该变盘就是().1定量变量CB.定性变量C.屈性变超1).1分类变量【答案】A在大数据的处理流程中,下列各项中最先进行的是OA.存储与管理(B.可视化(C.采D.1分析与挖掘【答案】C卜列各项属于结构化数据的是().】图像B.二维数据表(C.声音(D.文本【答案】B下列各项属于大数据的成因因素.的是().1数据储存能力B.数据管理能力【C.】数据采集能力I).1以上皆是【答案】D传统的主要基于统计学的分析方法在大数据时代所面临的挑战包括().全体数据,不是随机样本B.1放弃数据的精确性,尽可能收集更多数据C.重视相关关系,而不是因果关系(D.以上均是【答案】D在k近邻算法中,对于未知样本的类别判定,我们依据的原则是()A.最短距离(B.1最长距离C.距离平均值(I).近邻多数类别判定【答案】D以卜哪种大数据分析方法旨在将相似对象组合在一起?(.聚类分析B.关联规则分析C.决策树分析I).线性回归分析【答案】A下面哪不适合用k近邻法进行分类().良恶性肿题预测B.天气预报C.人脸识别1) .1邮件分类【答案】B关于相关系数的信息,以下哪项说法是错误的?(.】相关系数用于衡量两个变量间的线性关系强度(B.1根据总体全部数据计算的相关系数称为总体相关系数【C.】相关系数的值介于O到:之间I).】相关系数也被称为线性相关系数和皮尔森相关系数【答案】C下列哪项是无监督学习的典型应用?().聚类分析【B.】回归(C.分类D.以上均是【答案】A卜列哪种数据挖掘方法不可用于异常值检测()A.Z-score方法B.基于距离的方法(C.基于密度的方法I).4辑回归【答案】D聚类分析在大数据分析中的主要功能是什么?O.1通过数据自动发现潜在的类B.分析数据的分布特征C.预测未来的数据变化I).测量数据的准确性和稳定性【答案】A根据已知的类标号建立分类模型的数据集是()A.训练集(B.检脸集C.预测集I).测试集【答案】A以下关于聚类分析的描述中,以下的是().聚类分析是一种无监督学习方法B.K-means是一种常用的聚类分析方法(C.聚类分析的目的是找出已知类别的数据I).1聚类分析常用手市场分析和社交网络分析【答案】C下列关于推断统计学的描述中,错误的是()A.参数估计是根据样本的统计量来估计总体中的参数(B.1假设检验可以度量变量之间的相关程度(C.1判别分析是将某个对象归到已知类别中(I).1时间序列分析是研究时间序列数据变化规律的方法【答案】B在大数据的挖掘中,用于解决分类问题的机器学习和法不包括().决策树B.支持向fit机(C.k-近邻(D.线性回归【答案】D假设散点图中的观测点分布较为分散,没有任何规律,说明两个变量之间的关系为()(.完全线性相关B.线性相关C.1非线性相关(D.不相关【答案】D下列各项关于分类的描述中,错误的是).1可以借助分类方法根据电子邮件的标题判断其是否为垃圾邮件(B.1在进行建模之前就要有明确的分组预测目标(C.k近邻算法是种简单但强大的分类算法【I).】用来建立分类模型的输入数据称为测试集【答案】D下列各项不属于推断统计学的是().参数估计(B.描述统计分析(C.假设检验D.方差分析【答案】B以下哪种方法可以用了对数据集合进行降维处理().主成分分析.K-means聚类C.支持向fit机(1) .)关联规则【答案】A下列各项属于机器学习算法的是()(A.监督学习B-无监督学习(C.半监督学习D.以上均是【答案】D在大数据分析中,下列哪种语言拥有丰常的数据分析库和机器学习库?A.JavaB.Python(C.C+D.JavaScript【答案】B下列哪种方法不能用于解决分类问题()A.1决策树B.1感知器C.Kmeans聚类D.随机森林【答案】C卜.列哪项不是聚类分析的功能或用途?O.识别出那些不同于已知类别的异常行为【B.】确定保单持有者的分类C.对搜索结果进行自动聚类分析D.1协助完成预测分析【答案】D以下关于基于美联规则的推荐算法的描述中,正确的是()【A.】根据用户对商品或内容的收:藏或分享等情况判断用户对该商品的兴趣和偏好程度【B.】根据用户的基本信息发现用户之间的相似情况,将相似用户喜爱的的其他商品推荐给当前用户(C.)挖掘不同商品在悄传过程中的相关性【D.】根据商品本身的属性数据,计算商品之间的相似度,再基于用户的历B.聚类(C.关联规则挖掘D.数据标记【答案】D假设散点图中的观测点恰好落在一条直线上,说明两个变盘之间的关系为()A.完全线性相关(B.1线性相关C.非线性相关D.