数据挖掘课后习题.doc

上传人：夺命阿水

文档编号：6076

上传时间：2022-06-20

格式：DOC

页数：5

大小：198.50KB

《数据挖掘课后习题.doc》由会员分享，可在线阅读，更多相关《数据挖掘课后习题.doc（5页珍藏版）》请在课桌文档上搜索。

1、 . . (实验项目) DBLP数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中，很多作者都有合著关系。(a) 提出一种方法，挖掘密切相关的(即，经常一起合写文章)合著者关系。解决问题的大致过程:1. DBLP数据集是一个XML文件，先对XML文件解析，得到一个超过1G的TXT文件，处理文件数据格式，并截取前20000行数据，格式如以下图：2. 使用FP-Tree算法，设置支持度为3，得到的满足条件的频繁项集如以下图：说明：以上结果只是一部分，由于数据集很庞大，限于篇幅，不便全部展示。(b) 根据挖掘结果和本章讨论的模式评估度量，讨论哪种度量可能比其他度量更令人信服地揭示紧

2、密合作模式。关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的22的相依表(显示期望值) Yufei Tao 非（Yufei Tao）和 Dimitris Papadias 26(0.0045) 60(86) 86非(Dimitris Papadias) 59(84.9955) 1609994(1609968) 1610053 和 85 1610054 16101391. 使用提升度的相关分析P(A) = 86/1610139 = 5.28e -5P(B) = 85/1610139 = 5.28e -5P(A,B) = 26/1610139 = 1.61e -5

3、提升度为P(A,B)/(P(A)P(B) )=1.61e -5/(5.28e -55.28e -5)=5775 2. 使用2进行相关分析 2 = （26-0.0045）2/0.0045 + （60-86）2/86 + （59-84.9955）2/84.9955 + （1609）2/1609968 = 150238 3. 全置信度 P(A|B) = 26/85 = 0.306 P(B|A) = 26/86 = 0.302 all_conf(A,B) = minP(A|B),P(B|A) = 0.302 4. 最大置信度 max_conf(A,B) = maxP(A|B),P(B|A) = 0.3

4、065. Kulczynski Kulc(A,B) = 1/2 *(P(A|B)+P(B|A) = 0.3046.余弦 Cosine(A,B) = P(A|B)P(B|A) = 0.304比较6种模式评估度量：上述6种模式评估中，提升度和2的计算受零事务的影响很大，在上面的例子中，AB表示零事务的个数。一般，零事务的个数可能大大超过个体购买的个数，因为，A和B发表过的论文相对于整个数据库中的论文总数，是很小的一部分。其他四个度量很好地消除了AB的影响。由于上述例子中P(A|B) 和P(B|A) 近似相等，导致四种评估度量(全置信度，最大置信度，Kulczynski，余弦)结果也近似相等，但如

5、果P(A|B) 和P(B|A) 相差很大，例如P(A|B)P(B|A)，则根据全置信度的结果，得出的结论可能是负相关，根据最大置信度的结果，得出的结论却是正相关，而根据Kulczynski和余弦的结果，则两者被视为中性。(c) 基于以上研究，开发一种方法，它能粗略地预估导师和学生的关系，以与这种指导的周期1. 根据经验，我们知道，学生发表的论文上往往会署导师的名字，而导师的论文上却不一定有学生的署名，或者说导师发表过的论文要远比学生多，我们可以设置两个参数30和5，例如，作者A和B满足频繁项集的要求，并且A发表过的论文不小于30篇，B发表过的论文不超过5篇，则我们可以认定A为导师，B为学生。2. 若要求得指导的近似周期，我们需要在求频繁项集时，将发表的日期作为属性假如到事务中，如果我们已确定A为导师，B为学生，并且他们的合著次数满足频繁项集的支持度，我们需要计算A和B合著论文中的最近日期和最早日期，最近日期-最早日期 = 近似的指导周期5 / 5