数据挖掘课后习题.doc
《数据挖掘课后习题.doc》由会员分享,可在线阅读,更多相关《数据挖掘课后习题.doc(5页珍藏版)》请在课桌文档上搜索。
1、 . . (实验项目) DBLP数据集包括100万篇发表在计算机科学会议和杂志上的论文项。在这些项中,很多作者都有合著关系。(a) 提出一种方法,挖掘密切相关的(即,经常一起合写文章)合著者关系。解决问题的大致过程:1. DBLP数据集是一个XML文件,先对XML文件解析,得到一个超过1G的TXT文件,处理文件数据格式,并截取前20000行数据,格式如以下图:2. 使用FP-Tree算法,设置支持度为3,得到的满足条件的频繁项集如以下图:说明:以上结果只是一部分,由于数据集很庞大,限于篇幅,不便全部展示。(b) 根据挖掘结果和本章讨论的模式评估度量,讨论哪种度量可能比其他度量更令人信服地揭示紧
2、密合作模式。关于作者A(Dimitris Papadias)和作者B(Yufei Tao)的22的相依表(显示期望值) Yufei Tao 非(Yufei Tao) 和 Dimitris Papadias 26(0.0045) 60(86) 86非(Dimitris Papadias) 59(84.9955) 1609994(1609968) 1610053 和 85 1610054 16101391. 使用提升度的相关分析P(A) = 86/1610139 = 5.28e -5P(B) = 85/1610139 = 5.28e -5P(A,B) = 26/1610139 = 1.61e -5
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 课后 习题

链接地址:https://www.desk33.com/p-6076.html