欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOC文档下载  

    数据挖掘课后习题.doc

    • 资源ID:6076       资源大小:198.50KB        全文页数:5页
    • 资源格式: DOC        下载积分:10金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要10金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    数据挖掘课后习题.doc

    . . (实验项目) DBLP数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中,很多作者都有合著关系。(a) 提出一种方法,挖掘密切相关的(即,经常一起合写文章)合著者关系。解决问题的大致过程:1. DBLP数据集是一个XML文件,先对XML文件解析,得到一个超过1G的TXT文件,处理文件数据格式,并截取前20000行数据,格式如以下图:2. 使用FP-Tree算法,设置支持度为3,得到的满足条件的频繁项集如以下图:说明:以上结果只是一部分,由于数据集很庞大,限于篇幅,不便全部展示。(b) 根据挖掘结果和本章讨论的模式评估度量,讨论哪种度量可能比其他度量更令人信服地揭示紧密合作模式。关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的2×2的相依表(显示期望值) Yufei Tao 非(Yufei Tao) 和 Dimitris Papadias 26(0.0045) 60(86) 86非(Dimitris Papadias) 59(84.9955) 1609994(1609968) 1610053 和 85 1610054 16101391. 使用提升度的相关分析P(A) = 86/1610139 = 5.28e -5P(B) = 85/1610139 = 5.28e -5P(A,B) = 26/1610139 = 1.61e -5提升度为P(A,B)/(P(A)×P(B) )=1.61e -5/(5.28e -5×5.28e -5)=5775 2. 使用2进行相关分析 2 = (26-0.0045)2/0.0045 + (60-86)2/86 + (59-84.9955)2/84.9955 + (1609)2/1609968 = 150238 3. 全置信度 P(A|B) = 26/85 = 0.306 P(B|A) = 26/86 = 0.302 all_conf(A,B) = minP(A|B),P(B|A) = 0.302 4. 最大置信度 max_conf(A,B) = maxP(A|B),P(B|A) = 0.3065. Kulczynski Kulc(A,B) = 1/2 *(P(A|B)+P(B|A) = 0.3046.余弦 Cosine(A,B) = P(A|B)×P(B|A) = 0.304比较6种模式评估度量: 上述6种模式评估中,提升度和2的计算受零事务的影响很大,在上面的例子中,AB表示零事务的个数。一般,零事务的个数可能大大超过个体购买的个数,因为,A和B发表过的论文相对于整个数据库中的论文总数,是很小的一部分。其他四个度量很好地消除了AB的影响。由于上述例子中P(A|B) 和P(B|A) 近似相等,导致四种评估度量(全置信度,最大置信度,Kulczynski,余弦)结果也近似相等,但如果P(A|B) 和P(B|A) 相差很大,例如P(A|B)>>P(B|A),则根据全置信度的结果,得出的结论可能是负相关,根据最大置信度的结果,得出的结论却是正相关,而根据Kulczynski和余弦的结果,则两者被视为中性。(c) 基于以上研究,开发一种方法,它能粗略地预估导师和学生的关系,以与这种指导的周期1. 根据经验,我们知道,学生发表的论文上往往会署导师的名字,而导师的论文上却不一定有学生的署名,或者说导师发表过的论文要远比学生多,我们可以设置两个参数30和5,例如,作者A和B满足频繁项集的要求,并且A发表过的论文不小于30篇,B发表过的论文不超过5篇,则我们可以认定A为导师,B为学生。2. 若要求得指导的近似周期,我们需要在求频繁项集时,将发表的日期作为属性假如到事务中,如果我们已确定A为导师,B为学生,并且他们的合著次数满足频繁项集的支持度,我们需要计算A和B合著论文中的最近日期和最早日期,最近日期-最早日期 = 近似的指导周期5 / 5

    注意事项

    本文(数据挖掘课后习题.doc)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开