词语间相关度计算算法.docx
《词语间相关度计算算法.docx》由会员分享,可在线阅读,更多相关《词语间相关度计算算法.docx(2页珍藏版)》请在课桌文档上搜索。
1、这是我在完成毕业设计的过程中使用的一种算法,主要功能是判断两个词的相关度,使用的工具是搜索引擎。用搜索引擎对该词语的统计结果来最后判断词与词之间的相关度。这是一篇转载文章,下面是具体内容:通常我们对于文本信息之间得相关性得计算都是采用向量的办法,我在以前的PPT里曾经提到过。然而对于文本信息更深层次的分析不能单纯从字面上分析一篇文章的关键词,更重要的是它隐含的扩展的意义。传统的关于计算文本相关度和【网页和查询的相关性】的计算都是采用匹配的方式进行的,然而这只能是基于字面意义上的统计计算。这里介绍的做法是采用关键词相关性扩展的做法从而得到更加精确的相关度计算。例子:文章A:谈论的是大学教育,最高
2、频的关键词是:学生3,学习2,大学2文章B:谈论的是普通教育,最高频的关键词是:教育5,教师1,进修1里是相对的权重,可以理解成TF*IDF根据传统的相关性计算,我们会得到如下的结果:1 .文章A与文章B不相关2 .查询学生,学习,大学只能返问文章A,不能返回文章B3 .查询教育,教师,进修只能返回文章B,不能返Pl文章A分析:这个显然是有一定的问题的,问题的出现在于我们通常将“字面”的意思做为分析的来源而且依靠和仅仅依靠这些“字面”的关健词做为文章相关性和查询相关性判断的唯一要素。如何避免?我在以前的文章中提到过【关键词相关度】的概念,举例说明:当出现:学习这个词汇的时候,真实的表达的意义往
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 词语 相关 计算 算法
链接地址:https://www.desk33.com/p-150550.html