《南开大学《数据挖掘》在线作业5.docx》由会员分享,可在线阅读,更多相关《南开大学《数据挖掘》在线作业5.docx(8页珍藏版)》请在课桌文档上搜索。
1、数据挖掘在线作业()很费时,并且当数据集很大、缺失不少值时,该方法可能行不通。A:人工填写缺失值方法B:全局常量填充C:自动填充D:删除参考选项:A数据仓库和OLAP工具基于多维数据模型。该模型将数据看做()形式。A:数据立方体(datacube)B:整数C:离散D:不同参考选项:ADBSCAN在最坏情况下的时间复杂度是()。A:0(m)B:0(m2)C:0(logm)D:0(m*logm)参考选项:B()可以用来把数据变换到多个粒度层。例如,关于销售的数据挖掘模式除了在单个分店挖掘之外,还可以针对指定的地区或者国家挖掘。A:概念分层B:聚类C:数据变换D:数据归约参考选项:A以下属于可伸缩聚
2、类算法的是()。A:CUREB:DENCLUECrCLIQUED:OPOSSUM参考选项:A惟独非零值才重要的二元属性被称作()。A:计数属性B:离散属性C:非对称的二元属性D:对称属性参考选项:C()用替代的、较小的数据表示形式替换原数据。A:维归约B:数量归约C:离散D:会萃参考选项:B下列()不是将主观信息加入到模式发现任务中的方法。A:与同一时期其他数据对照B:可视化C:基于模板的方法D:主观兴趣度量参考选项:A()是KDDoA:数据挖掘与知识发现B:领域知识发现C:文档知识发现D:动态知识发现参考选项:A()通常以可变长度的字节串存储,并且为便于数据的引用,数据片段要相互链接或者建立
3、多维方式的索引。A:文本数据B:多媒体数据C:时间数据D:空间数据参考选项:B设X=l,2,3是频繁项集,则可由X产生()个关联规则。A:4B:5C:6D:7参考选项:C假定用于分析的数据包含属性ageo数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为()。A:18.3B:22.6C:26.8D:27.9参考选项:A有关数据仓库的开辟特点,不正确的描述是()。A:数据仓库开辟要从数据出发
4、B:数据仓库使用的需求在开辟出去就要明确C:数据仓库的开辟是一个不断循环的过程,是启示式的开辟D:在数据仓库环境中,并不存在操作型环境中所固定的和较切当的处理流,数据仓库中数据分析和处理更灵便,且没有固定的模式参考选项:A决策树中不包含以下哪种结点?()A:根结点(rootnode)B:内部结点(internalnode)C:外部结点(externalnode)D:叶结点(Ieafnode)参考选项:C考虑两队之间的足球比赛:队0和队Io假设65%的比赛队O胜出,剩余的比赛队1获胜。队O获胜的比赛中惟独30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1的主场进行队1
5、获胜的概率为()。A:0.75B:0.35C:0.468D:0.574参考选项:C()将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。A:MIN(单链)B:MAX(全链)C:组平均D:Ward方法参考选项:C以下关于人工神经网络(ANN)的描述错误的有()。A:神经网络对训练数据中的噪声非常鲁棒B:可以处理冗余特征C:训练ANN是一个很耗时的过程D:至少含有一个隐藏层的多层神经网络参考选项:A聚类技术把()看做对象。A:数据B:数据库C:簇D:数据元组参考选项:D()是一种不使用目标变量(至少不明确使用)的数据挖掘。A:无指导数据挖掘B:有指导数据挖掘C:聚类
6、D:数据分析参考选项:A标称变量是二元变量的推广,它可以具有()的状态值。例如,mapOlor是一个标称变量,它可能有5个状态:红色,黄色,绿色,粉红色和蓝色。A:两个B:多于两个C:一个D:三个参考选项:B离群点的类型包括:()。A:全局离群点B:情境离群点C:集体离群点D:单独离群点参考选项:A,B,C,D以下哪些学科和数据挖掘有密切联系()?A:统计B:计算机组成原理C:矿产挖掘D:人工智能参考选项:A,D层次聚类方法包括()。A:划分聚类方法B:凝结型层次聚类方法C:分解型层次聚类方法D:基于密度聚类方法参考选项:B,C非频繁模式()。A:其支持度小于阈值B:都是不让人感兴趣的C:包含
7、负模式和负相关模式D:对异常数据项敏感参考选项:A,D()都导致不正确的数据。A:缺失值B:噪声C:不一致性D:分层参考选项:A,B,C数据仓库在技术上的工作过程是:()。A:数据的抽取B:存储和管理C:数据的表现D:数据仓库设计参考选项:A,B,C,D在图象和视频数据库中可以挖掘涉及多媒体对象的关联规则,至少包含以下三类规则:()。A:与时间关系有关的图象内容的关联B:图象内容和非图象内容特征间的关联C:与空间关系无关的图象内容的关联D:与空间关系有关的图象内容的关联参考选项:B,C,D如下哪些是最近邻分类器的特点()。A:它使用具体的训练实例进行预测,不必维护源自数据的模型B:分类一个测试
8、样例开消很大C:最近邻分类器基于全局信息进行预测D:可以生产任意形状的决策边界参考选项:A,B,D数据挖掘应用了许多应用领域的大量的技术,包括()、信息检索、可视化、算法、高性能计算等。A:统计学B:机器学习C:模式识别D:数据库和数据仓库参考选项:A,B,C,D当前的应用领域所使用的数据技术与算法主要有:()等等。A:关联规则B:分类和预测C:聚类分析D:孤立点检测参考选项:A,B,C,D离群点可以是合法的数据对象或者值。A:对B:错参考选项:A离群点分析(OUtlieranalysis):可以通过如聚类来检测离群点。聚类将类似的值组织成群或者“簇”。直观地,落在簇集合之外的值被视为离群点。
9、A:对B:错参考选项:A采用抽样进行数据归约的优点是,得到样本的花费正比例于样本集的大小,也正比于数据集的大小。A:对B:错参考选项:BOLTP系统通常采用星形和雪花模型,而OLAP系统采用实体-联系(ER)模型和面向应用的数据库设计。A:对B:错参考选项:B数据挖掘不仅仅产生技术结果。结果必须用来匡助人们做出更明智的决定。A:对B:错参考选项:A在聚类、离群点分析和最近邻分类等数据挖掘应用中,需要评估对象之间相互比较的相似或者不相似程度。例如,商店希翼搜索顾客对象簇,得出具有类似的收入、居住区域和年龄等的顾客组。A:对B:错参考选项:A先验原理可以表述为:如果一个项集是频繁的,那包含它的所有
10、项集也是频繁的。A:对B:错参考选项:B空间数据立方体中有两类不同的度量:数字度量仅包含数字数据。空间度量包含一组指向空间对象的指针。A:对B:错参考选项:A多维关联包括多个维。A:对B:错参考选项:A通常,数据对象用属性描述。数据对象又称样本、实例、数据点或者对象。A:对B:错参考选项:A数据可视化主要是借助于图形化手段,清晰有效地传达与沟通信息。可以利用可视化技术的优点,发现原始数据中不易观察到的数据联系。A:对B:错参考选项:A关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-grownth算法的效率更高。A:对B:错参考选项:A如果数据对象存放在数据库中,则它
11、们是数据元组。也就是说,数据库的行对应于数据对象,而列对应于属性。A:对B:错参考选项:A数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性的能力、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。A:对B:错参考选项:A缺失的数据,特殊是某些属性上缺失值的元组,可能需要推导出来。A:对B:错参考选项:A聚类(CIUStering)是这样的过程:它找出描述并区分数据类或者概念的模型(或者函数),以便能够使用模型预测类标记未知的对象类。A:对B:错参考选项:B决策树生成过程:1.在条件属性集中选择最有分类标识能力的属性作为决策树当前节点;2.根据当前决策属性取值不同,将训练样本数据集划分为若干子集;3.针对上一步得到每一个子集,重复上述过程,直到子集中所有元组都属于同一类,不能再进一步划分为止。A:对B:错参考选项:A数据挖掘是指对数据进行处理和研究,并从数据中提取实用的信息和发现知识的过程。A:对B:错参考选项:A观察大型数据表令人乏味,通过浓缩数据,切尔诺夫脸使数据容易被用户消化理解,用的是基于图符的可视化技术。A:对B:错参考选项:A数据是许多核心业务流程的心脏,由业务系统中的事务所产生。A:对B:错参考选项:A
链接地址:https://www.desk33.com/p-597859.html