基于标签法的微博分类的研究:以新浪微博为例.docx
-
资源ID:845571
资源大小:30.03KB
全文页数:6页
- 资源格式: DOCX
下载积分:5金币
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
|
基于标签法的微博分类的研究:以新浪微博为例.docx
论文名称:基于标签法的微博分类的研究:以新浪微博为例拟研究的主要内容和思路:1 .引言2 .新浪微博的分类方法2.1 新浪微博用户自助实现的分类2 .2新浪微博系统提供的分类3.微博标签生成方法3. 1标签生成方法设计思路3. 2用户微博管理方法3 .3运用层次分析法设置各个标签的权重:方、法:微博三级标签体系4 .总结及申明基于标签法的微博分类的研究:以新浪微博为例朱洋华中师范大学信息管理学院摘要:微博在我国快速开展,成为群众传播信息的重要载体、及时反映社情民意的网络平台,更是构架党和政府部门与普通民众交流的桥梁和纽带。本文以新浪微博为例,对标签法在微微博内容的分类与检索进行研究,运用层次分析法建立三级标签体系,将综合发布者的微博标签、转发者和收藏者添加的微博标签来自动生成系统标签的方法为标准对微博进行了分类,以方便用户进行管理微博和检索微博。关键词:微博标签法1引言微博,即微博客(MicroBlog)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组建个人社区,以140字左右的文字更新信息,并实现即时分享。从2006年TWitter网站推出至今,微博开展迅速,在国内开展最好的是新浪微博。新浪微博(:/weibo)是新浪旗下网站,是中国最具影响力的社会化媒体平台,是一个基于用户关系的信息分享、传播以及获取的平台。新浪微博于2009年8月14日开始内测。根据新浪公布的最新数据,截至2012年5月16日,新浪澈博注册用户数已增至3.24亿。由于微博具有单一性、迅捷性、碎片化、个性化、开放性、整合性、实时性利跟随性等特点,使得微博存在信息冗余、自发的组织性不强等问题,其所负载和传播的内容也呈现碎片化,给人良莠不齐、垃圾信息泛滥的印象。因此,需要不断改善微博信息资源的组织方式,才能不断提高其生存能力。对符I博网站信息分类问题进行研究,不仅可以指导微博网站对信息的分类组织,也可以促进对网站信息分类问题研究的深入。己有学者对微博进行了研究,主要集中在其传播机制、盈利、应用等问题上.近年来,有一些学者开始对微博的信息组织问题进行研究:柯芳微认为博客作为一个信息生产系统,其由"混沌到组织化的过程,其实可以看作一个"信息自组织"过程,信息会不断地有向聚合一一群组界面信息聚合,个人界面信息聚合。吴胜和苏琴根据微博的实时性、碎片化、跟随性特点,认为用户是微博网站信息分类时考虑的重要要素,提出了直接法、职能法、网战法、矩阵法四大微博网站信息分类模式,得出职能法是微博网站中使用频率最高的分类模式的结论。刘乙坐和黄奇杰从传播的角度对微博进行分类,分为个人用户微博和组织用户微博。陈渊,林磊,孙承杰和刘秉权通过对用户特征的分析,提出了给用户推荐标签,将用户标签化,这样来到达微博信息组织化的目的。目前,基于标签法的微博分类的研究几乎是一片空白,原因在于微博网站作为web2.0网站,用户的交互性非常强,没有一个很好的机制能够对发布的微博进行主题和内容进行分类。而现在一些Web2.0网站的普遍做法是鼓励用户在发布内容时能够自定义主题或者贴上主题标签。然而仅仅是靠发布者提供的主题给微博进行分类是很不可靠很不切实的。微博网站信息标签分类问题进行研究,不仅可以指导微博网站对信息的分类组织,也可以为用户提供一个自行管理微博和检索的机制。本文首先回忆已有的网站信息分类、博客信息分类研究成果;在此根底上,提出由发布者一一转发者一一收藏者对微博进行标签化分类的机制。考虑到微博网站的相似性,本文以新浪薇博为样本对标签法在微博分类上的应用进行研究。2 .新浪微博的分类方法新浪微博目前提供的微博分类主要突显在用户管理微博和微广场的几个应用功能上。2. 1新浪微博用户自助实现的分类用户可以对自己所关注的微博账号进行分组,将所关注的人和组织进行统一分类,如图1是某微博账号上的分组。分为相互关注、特别关注、名人明星、同事等.新浪微博提供多个标签的分组,比方可以把某账号同时分到特别关注和名人明星中。新浪微博的分组功能根本上可以满足用户对关注者分组的需求。图I用户对微博的分类表现在发布微博和收藏微博时可以选择添加标签。在发表微博时不会提示添加标签,在发表之后可以给微博进行添加标签;在发表微博时可以在最前面加上"#主题#"表示微博的主题.新浪微博没有在发表微博时提供标签是考虑到用户提供标签往往不够准确,而且标签没有必要给发布者的粉丝看到。在收藏微博时系统会提示添加标签,可以添加最多两个标签,这样方便用户进行微博管理和查找微博。如图2所示:图23. 2新浪微博系统提供的分类新浪微博的广场一栏中有多个功能应用,其中名人堂、微话题、热门微博等提供了对微博进行分类的检索功能。如下列图3所示,用户可以在名人堂中对名人进行搜索,可以再搜索框中输入搜索,也可以点击分类标签一层层搜索。图3如下列图4所示,用户可以通过"微话题"来搜索感兴趣的微博。图4如图5所示,用户可以在“热门微博"中找到时下热门话题。热门话题的分类简单,每一大项最多分为三类。如体育的下一层分类是全部、名人、媒体。图5最直接的搜索方式是通过新浪微博的搜索框进行主题搜索,作为中国最大门户网站新浪网的子品牌,新浪微博的搜索功能还是很强大的,但是往往搜索得到的微博数量过多而不够准确。可以发现,新浪微博虽然提供了多种多样的检索方式,但是没有一个很合理的机制对微博进行统一分类。3.微博标签生成方法根据上面的论述,在微博开展的现阶段,急需建立一个澈博分类的机制,而研究说明标签法检索是可行的,下文将详细探讨这一方法。4. 1标签生成方法设计思路设立两级标签,每条微博最多可以设置1个一级标签,3个二级标签,3个三级标签。只有添加了一级标签才能添加二级和三级指标标签,没有有添加二级标签也能添加ZS级标签.通过对微博的内容特征的分析,由系统将设置假设干个一级标签和二级标签。级标签可以根据实际情况由系统添加;二级标签和三级标签可以根据用户使用频度由系统自动生成。比方某微博是描述本届欧洲杯的某些球员"思考人生"的现象,它的一级标签为体育,二级标签为足球,三级标签为欧洲杯»用户发表微博时可以添加标签"思考人生",当该微博被转发超过一定频次时,系统会在第三级标签中自动添加"思考人生"这-标签。但由于该标签只具有时效性,当用户不再关注该标签时,系统会再删除该标签,这样就防止了二级标签和三级标签的数量无限的增长。每当一个微博将要被浏览者或粉丝转发和收藏时,转发者或收藏者可以按照自己的理解为此微博添加标签。系统会记录添加的标签,这样当被转发或收藏的次数增加到-定的规模,每条微博就有多个标签,然后系统会将频次少的标签过滤掉,最多留下1个一级标签,3个二级标签,3个三级标签。这样这条微博的三级标签体系就形成了。用户就可以使用标签检索需要的微博了。以下是具体的以浏览者和粉丝添加标签作为标签源的标签生成过程:(1)微博用户写好微博,接着用户按照个人意愿选择是否添加标签,最后发表微博。(2)浏览者或粉丝转发或者收藏该微博,有选择性地为微博添加标签。(3)系统对收集所有的标签计算其权重,每个标签的权重即为该标签在收集的所有标签中出现的次数。(4)系统保存有限个权重高的标签,并按照一级标签在前低级标签在后、同级标签由高到低的原那么给出微博的标签结果。方法流程图如图6所示。图6.标签生成方法流程图3.2用户微博管理方法微博用户给自己发表的微博标签可能会因为系统的标签生成方法而改变,但是用户在白己的主页中查看和管理薇博时的标签都是自己最初设定的。也就是发布者通过自己的主页检索微博所使用的标签与其他用户检索发布者所使用的标签是不一样的。同理用户转发或者收藏的微博也属于是自己发布的微博,同样在自己的主页中搜索时使用的是自己转发和收藏时设定的标签。这样就保证了用户通过标签来管理微博的方法的实现。3. 3运用层次分析法设置各个标签的权重4. 3.IAHP方法:层次分析法(AnalyticHierarchyProCeSS简称AHP)是美国运筹学家T.L.Saaty教授于70年代初期提出的,AHP是对定性问迦进行定量分析的一种简便、灵活而又实用的多准那么决策方法。它的特点是把复杂问题中的各种因素通过划分为相互联系的有序层次,使之条理化,根据对一定客观现实的主观判断结构(主要是两两比拟)把专家意见和分析者的客观判断结果良接而有效地结合起来,将一层次元素两两比拟的重要性进行定量描述。而后,利用数学方法计算反映每一层次元素的相对重要性次序的权值,通过所有层次之间的总排序计算所有元素的相对权重并进行排序。微博三级标签体系目标层-级标签二级标签三级标签级标签体系A娱乐Al.人物A2.媒体A3.电影A4.音乐An.All.首字母为A的明星A12.首字母为B的明星A31.爱情片A32.动作片B体育Bl.足球B2.篮球B3.奥运会Bn.C政治Cl.国内政治C2.国外政治C3.Cn.D科技DL电脑D2.D3.*Dn.当然这样分类的类目体系还很不够完善,就可以借鉴现有的比拟权威的类目体系来解决这问题.比方可以利用信息组织中用于图书分类的中图法。中图法是我国目前通用的图书分类工具,根本涵盖了各个知识领域,包括马列毛邓、哲学等5大类部,马列主义、毛泽东思想等22个根本大类。如果参照中图法对新浪微博的类目体系进行改良,同时根据微博的特点对局部类目进行重新组合和犷展,就能加以完善。由于本文旨在研究基于标签的微博分类的研究,暂且对类目体系的完善不做过多的考虑。5. 总结及申明本文对目前的微博检索方式进行了分析,选择了最具代表性的微博平台之一新浪微博为例,对其标签法的分类方式进行了说明。随后提出了由发布者一转发者-收藏者对微博进行标签化分类的三级标签分类机制,旨在方便用户检索微博和管理微博。由于本人的专业知识有限,而且时间紧迫,该研究只能算是个半成品,因为还缺乏对三级分类体系的优化和技术可能性的分析。总之仅仅只限于理论层面,没有运用于实践。参考文献1熊回香,金晓耕.Web2。O环境下信息组织的优化研究J.现代情报,2023,32(4)2陈渊,林磊,孙承杰,刘秉权.-种面向微博用户的标签推荐方法JL智能计算机与应用,2023,13沈振萍,谢阳群.基于微博客的竞争情报搜集研究:以新浪微博为例J.情报杂志,2023,31(5)4刘乙坐,黄奇杰.传播学视野下的微博根本分类初探J.现代效劳,2023,55武胜,苏琴.微博网站信息分类模式研究J.图书情报工作网刊,20236柯芳.微博客的信息自组织研究D.武汉:华中科技大学,2023