欢迎来到课桌文档! | 帮助中心 课桌文档-建筑工程资料库
课桌文档
全部分类
  • 党建之窗>
  • 感悟体会>
  • 百家争鸣>
  • 教育整顿>
  • 文笔提升>
  • 热门分类>
  • 计划总结>
  • 致辞演讲>
  • 在线阅读>
  • ImageVerifierCode 换一换
    首页 课桌文档 > 资源分类 > DOCX文档下载  

    面相社交网络的用户行为分析与预测.docx

    • 资源ID:1427357       资源大小:150.53KB        全文页数:23页
    • 资源格式: DOCX        下载积分:5金币
    快捷下载 游客一键下载
    会员登录下载
    三方登录下载: 微信开放平台登录 QQ登录  
    下载资源需要5金币
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    面相社交网络的用户行为分析与预测.docx

    面相社交网络的用户行为分析与预测摘要在大数据时代,信息和数据的高速流转,为Internet的发展创造了有利的条件。社会网络服务(SNS)平台作为数据和用户互动的载体,已经成为人们日常生活中不可或缺的一部分。它不但给人民的生活带来了方便,提高了使用者的满意程度,而且还蕴含着巨大的科研和经济研究价值,给企业带来了巨大的经济效益。本项目以新浪微博为研究对象,对其转发行为进行深入研究,并从用户特征、微博特性、交互特性、结构特性4个角度对转发行为进行研究。在此基础上,本项目拟采用多种机器学习方法,对特定话题下的微博用户是否会进行转发,从而实现对该话题下微博的转发。试验结果显示,采用所选择的因子,并与1.ogiStiC回归模型相结合,可以较好地预测用户的转发行为。关键词:社会网络;微博;转发行为;预测第1章绪论1.1 选题背景伴随着互联网技术和移动技术的不断发展,以互联网为基础的社交媒体及应用得到了迅速发展。在信息化的过程中,人们可以尽情地遨游,享受着网络给他们带来的便利与乐趣。特别是社交网站、博客等在线社会网络的繁荣发展,不仅给信息传播方式带来了技术性变革,还在不知不觉中改变着人们的思维方式和人际交往形式。其中,微博以其原创性、时效性和草根性而闻名,并呈现出了十分强大的发展势头。微博的出现,大大加快了信息在网络中的传播速度,不同层次的用户的转发,都有可能让信息的传播规模呈几何级增加。现在,微博已经成为了一个信息的传播与交流的平台,通过对用户转发行为的预测,能够精确的预测出一条微博的传播范围、发展趋势等;同时,在此过程中,能够对不良的微博信息的传播过程进行有效的介入,从而对信息的传播范围进行控制。1.2 选题的目的与意义研究意义:理论意义在于通过探索用户行为分析与预测的模型和方法,丰富了社交网络研究领域的理论基础,为相关领域的学术研究提供了新的思路和方法。同时.,由于社交网络已成为商业运营和市场营销的重要渠道,研究结果将对企业决策和营销策略的制定产生积极影响,帮助企业更好地理解用户需求、优化产品设计、提高营销效果,具有重要的现实意义。研究目的:通过深入分析和理解社交网络中的用户行为,探索其中的规律和趋势,并基于这些信息进行行为预测,以提供更加精确的个性化推荐和增强用户参与度。通过综合运用数据挖掘、机器学习和人工智能等技术手段,研究者旨在提高社交网络服务的质量和效益,提供更好的用户体验及商业增长。1.3 国内外研究现状1.3.1 国内研究现状刘俊晓、李爽、谢嘉玮(2023)对30篇文献进行了Meta分析,抽取53个影响因素,并对其进行了相关性分析,如出版偏差、总体影响、调节影响等。心理因素和信息因素中包含的8个影响因素与用户的信息规避行为存在着相关关系,其中,信息杂乱因素的相关性最强,情绪因素的相关性最弱。而在知觉上,性别、隐私性、资讯品质、科目差异等因素对知觉上的影响更为显著。个人隐私忧虑更容易受到情绪的影响。在此基础上,谢柏林、黎琦和魏娜(2023)等人提出了一种基于使用者的个性特征识别算法。首先,构建基于社会网络的个性特征字典,从用户发表和转发的文字中抽取能够体现其个性特征的重要特征,然后,利用隐半马尔可夫模型对其进行参数化,以5个参数分别描述其在社会网络中的表达和转发行为。在个性特征识别阶段,根据不同的个性特征,根据不同的个性特征,对不同的个性特征进行分类。通过对大量新浪微博数据的测试,发现在错误率为10%的情况下,所提算法的总体正确率达到93.18%,并且能够对用户的性格特征进行正确的分类。杨瑞仙、许帆、沈嘉宁(2023)借鉴已有的影响因子,以社会渗透性理论为基础,以新浪微博为案例,采用爬虫技术收集新浪微博的用户信息,对用户信息的披露进行测度。本项目发现,人口统计变量、社会网络体验、社会网络规模、微博生产力等因素对用户公开信息的敏感度和维度都有不同的影响,而人口统计变量会对用户公开真实隐私的行为产生影响,这有别于对部分个人隐私公开意愿的研究。基于用户客观数据的隐私泄露行为测度不仅可以深化对社会网络中用户泄露行为的认识,还可以为相关领域的研究提供数据支持。钱蒙、王子明和程树林(2023)对影响的有关概念进行了解释,回顾了影响评价的重要成果,着重探讨了影响评价的三种方式,即从网络的结构特征、用户的行为特征和用户的情感倾向三个方面来评价影响。最后,本项目还将对社会网络环境下用户影响评价的理论与方法进行深入探讨。陈坚、张弛、傅志妍等人(2023)通过网络科学核心数据库和CNKI知网数据库对2010-2022年期间的英文论文133篇,中文论文32篇。运用知识图谱分析和传统定性文献分析两种方式,对统计文献的每年发文量进行量化,对热点国家,关键词图谱这3类指标进行研究,并从方法模型、社交网络信息行为、社交网络信息对出行决策的影响、社交网络信息对出行活动的影响这4个方面,对现有研究成果进行总结。徐翔(2023)以新浪微博为研究对象,采用隐含语义分析、用户相似性计算、统计测试、路径分析等手段,探索社会网络中观点领袖的“标准化”现象及路径。新浪微博用户呈现出独特的“整体规格化”,并伴随着“顶点规格化”和“邻居规格化”的演化。这些“标准化”既不彼此独立,也不互相矛盾,它们具有一种内部运作的结构,即同步的进程。高影响的观点领袖用户并未相互区分,反而加剧了社交网络社区的内容封闭,暴露了“个人信息茧房''外的"群体信息茧房”风险,而在“个人信息茧房”外,隐藏着“群体信息茧房”的“异化”逻辑。1.3.2 国外研究现状Bo1.1.ENJ提出在信息时代,在市场营销、舆情管控、热点选择等诸多领域,都需要有效地获得并传播信息、,所以,对社交网络中信息传播行为的研究也就成了学者们关注的焦点。在此之前,已经有很多关于用户转发行为的研究。SUHB分析了对TWitter转发有影响的文本特征和用户特征,利用主成份分析法(PCA),发现了影响转发的主要因素有:UR1.数目、hashtags数目、粉丝数和关注数。ZAMANTR只是抽取了用户特征、微博中所含的词语数等特征,构建了一种基于概率的协同过滤模型,来预测用户转发概率,但很明显,这些特征并不是最重要的影响因素。WEBBER1.EY的研究表明,转发链的长度是有限制的,转发链越长,用户对于原始消息的转发概率会越小。在多种不同的研究方法中,有些人已经开始将注意力集中到了用户所处的环境对其产生的影响上,比如,ZHANGJ从微博数据中发现,在很大程度上,用户所处的本地社会结构会对用户的转发行为产生很大的影响,最后利用逻辑回归模型进行学习,最终得到了一个预测转发行为模型。在UGANDERJ的研究中,发现用户受周围活跃邻居节点的连接组成而不受活跃邻居节点的数量的影响。NARAYANAMR采用了这样一种思路,即一个用户会受到周围邻居节点的影响,如果周围的活跃节点数量比较多,则这个用户转发的概率就会增加,进而提出了线性阈值模型(1.TM)来对用户的转发行为进行预测。1.3.3 小结综上所示,社交网络已成为人们日常生活中重要的沟通和信息分享平台,用户行为分析与预测对于实现个性化推荐、精准营销等方面具有重要意义。因此,通过收集和分析社交网络上的大量用户数据,可以揭示用户在社交网络上的行为特征和模式,为实现更好的用户体验和商业利益提供有力的支持。1.4 研究内容为了研究中存在的缺陷,作者以实际的微博数据为基础,并结合以往的研究成果,从四个方面,共9个方面,与传统的研究方法相比较,不仅考虑到了用户附近的邻居节点的局部结构,还将用户最近的活动度、交互度、兴趣等信息纳入其中,并在此基础上,加入了几种基本的特征,运用四种常见的有监督的分类算法,来预测用户的转发行为。实验证明,将所提出的特征因子与1.OgiStiC回归算法相结合,能够有效地对微博用户的转发行为进行预测,其Fl测度可达76.43%。1.5研究思路与论文结构图1-1技术路线图第2章数据描述本研究采用的是中国最大的微薄平台新浪微博,该数据来自于清华大学唐杰教授所带领的新浪微薄研究小组。首先,随机选取100个种子用户,并分别收集其跟随者和跟随者的跟随者。这个抓取程序得到了170万名用户和三亿名朋友的追随,经过统计,平均每位用户拥有200名“追随者”。对每一位用户,都会对其最新发表的10000条微薄进行抓取。由于文章的核心是对用户的转发行为进行分析,所以文章以信息的传播顺序为基础,得出了一条微博的平均转发量为80次。所抽取的资料列于表1中。表1新浪TwitterDatesel二Users/Following-relationships4tOriginal-Inicroblogs二RetweetsWeibo17769503084897393000008102.1 问题的描述在微博网络中,每个用户都能够关注其他人,关系网络可以被看成是一个有向图,我们使用G=(U,E,M)来对微博网络进行描述,其中U代表的是所有用户的集合,E,UxU代表的是所有用户之间的关系,euv,E指的是用户V关注了用户u,M指的是网络中的原创微博和转发微博的集合。在此基础上,提出了一种基于信息传递的新方法。图1为图中实线箭头所示的关系网,指示U为v,n为V为v;虚线箭头代表的是一个信息传播网络,V将U发出的原始信息m进行转发,n又将V发出的信息m,进行转发,n为第二个转发点,n还可以直接将U发出的信息进行转发。m图1:微薄信息扩散图研究内容包括:1.用户转发行为的预测。假定用户U发了一条微博m,用yv=f(u,V,m)来代表其粉丝V在看到m后所采取的行为,其中yv=0,l,当yv=l表示转发,yv=O表示不转发,这是一个典型的二分类问题。2.2 识别转发行为微博转发行为是指微博用户在浏览他人发布的微博内容后,选择将这些内容转发到自己的微博平台上,让自己的关注者也能看到并参与评论、点赞等交互反馈的一种社交行为。这一行为在中国社交媒体领域具有广泛的影响力,并成为了网民表达意见、传播信息、互动沟通等重要方式之一。首先,微博转发行为作为一种社交行为,具有明确的功能和目的。通过转发他人的微博,用户可以分享自己感兴趣或认同的内容,向自己的关注者展示个人观点、态度或情感倾向。转发还能够帮助用户扩大影响力,增加粉丝数量,提高对特定话题或事件的讨论度,从而形成更广泛的社交网络。其次,微博转发行为涵盖了多层次的信息传播和社交互动。当用户转发他人的微博时,原始微博的内容会被复制并显示在转发者的个人页面上,同时携带有原始作者的用户名和原始微博链接。这使得转发者成为信息的传播节点,帮助推广原始作者的观点和言论。在转发过程中,用户可以选择是否添加自己的评论或表达观点,这为转发行为赋予了更多个人化的特征,并且为用户之间的互动提供了平台。此外,微博转发行为也具有一定的传播效应和影响力。当用户转发他人的微博时,该微博的内容会被展示给其关注者,而关注者又可以将其转发给自己的关注者,从而形成信息的连锁传播。这种传播效应可以在短时间内将一个内容扩散到更广泛的用户群体,使得原始微博的作者在社交媒体平台上获得更大的曝光度和声誉。最后,微博转发行为还反映了用户对于信息的价值判断和社交认同。用户通过转发特定内容来展现自己对该内容的认同、支持或关注,同时也将其呈现给自己的关注者,以期引起共鸣或讨论。转发行为也可以作为用户参与社会议题、公共事件等的方式之一,促进公众舆论的形成和传递。因此,在一定程度上,微博转发行为反映了网络用户的表达意愿、文化偏好和社会关系。在研究微博转发行为时,学者们关注的焦点主要包括以下几个方面。一是用户转发行为的动机和目的,即转发内容的决策过程和背后的心理因素。二是转发行为对信息传播和舆论形成的影响,如传播效果、信息扩散路径和话题热度等指标的分析。三是用户之间的转发关系和影响力网络,探索社交媒体中的信息流动模式和社交结构。四是转发行为与用户特征、社会背景等因素的关联性研究,揭示不同群体在转发行为方面的差异和特点。基于此,本研究数据集包含了微博消息传播序列,数据格式如表2所示。比如,对于消息m,记录了发布用户id,发布时间,还记录了所有在抓取时间范围内转发过消息m的用户以及转发时间等信息,只要用户在消息列表中,我们就说该用户转发了这条微博。表2.邮件格式original-midoriginaltinworiginaluidretweetnumretweet-Uidretweet-limeretweet-uidrclwel-IimC2.3 识别不转发行为微博不转发行为是指微博用户在浏览他人发布的微博内容后,选择不将这些内容转发到自己的微博平台上的一种社交行为。相较于微博转发行为而言,微博不转发行为可能具有多种原因和动机,并对信息传播、社交互动以及个人形象等产生各种影响。首先,微博不转发行为反映了用户对内容的选择和过滤。在海量的微博内容中,用户需要根据自身兴趣、需求以及价值观念进行筛选,决定是否将某条微博进行转发。因此,选择不转发某一特定微博可以表明用户对该内容的认同度或兴趣程度不高,也许认为该内容并不值得分享给自己的关注者或并不符合自己的目标受众群体。此外,不转发行为还可能因为内容涉及敏感话题、违反社交规范或引起负面评价等因素而被用户回避。其次,微博不转发行为在一定程度上与用户的社交关系和身份呈现有关。通过选择不转发某一微博,用户可以控制自己在网络社交中所展示的形象和态度。有时,用户可能避免转发具有争议性或敏感性的内容,以避免与他人产生冲突或引起不必要的关注。此外,一些用户通过选择不转发他人微博,更加凸显自己独立思考和判断的能力,表达个体主义价值观或自我表达的需求。此外,微博不转发行为还涉及到用户对个人隐私、信息保护和内容控制的考虑。尽管微博是一个公开的社交平台,但用户仍然保有对自己信息的一定控制权限。有些用户出于隐私保护的目的,选择不转发内容,将其保留在自己的个人空间中,并控制能够访问到该内容的受众范围。此外,用户也可能对某些内容表示不满、反对或认为其存在误导性,在这种情况下选择不转发可以传递消极评价或反对的信息。最后,不转发行为也可能源于用户对时间与精力的管理。微博作为一个信息爆炸式的平台,每天都有大量的内容被发布。对于用户来说,选择性阅读和转发是管理信息负荷的重要手段之一。因此,用户可能选择只转发与自己最关心的话题或用户组相匹配的内容,同时将其他内容置之不理,以确保自己能够更有效地参与到相关讨论中。研究微博不转发行为通常从以下几个方面进行分析。首先,关注用户对于转发行为的态度、动机和目的,包括认同感、兴趣,或者是避免信息泛滥、影响个人形象等因素。第二,研究用户属性、社交网络和关系对不转发行为的影响,揭示社交背景对于用户选择性转发的作用。第三,探索不转发行为与用户之间的互动效应,比如对话、评论和点赞等交互反馈如何影响用户后续的转发决策。通过分析,我们可以发现,在什么样的条件下,人们才会有意愿向他们的追随者分享自己的微博,所以,如何判断他们是否会转发自己的微博,这也是一个非常关键的问题。与对转发行为的识别不同,非转发行为并未被记录在数据集中。我们都知道,在大多数情况下,人们都是在浏览并转发自己关注的人的微博。定义2如果用户V在t时刻转发了一条微博,那么他关注的用户在t-t,t+t时间区域内发表的,并且没有被V转发的行为被称为不转发行为。在微博机制中,信息是按照时间的倒序显示在页面上的,一般情况下,用户都是从上到下进行浏览,只有当用户遇到自己感兴趣的微博,并且觉得值得转发的时候,他才会转发(假设时间戳为tl),所以,在他点击转发动作产生时间tlt,tl+U范围内,他关注的用户发布的微博有很大几率被他阅读。如果没有转发,说明这条微博被忽略了,在此t为30分钟。第3章影响因素分析在微博网络中,用户之间是以关注和被关注的关系为纽带的,而且,大部分的微博信息都是由关系网来进行传播和扩散的。在此基础上,我们将检验所抽取的特性因子对网络转发行为的影响,并选择合适的模型对网络转发行为进行预测。3.1 用户特征用户特征是指个体在使用微博平台时所具备的个人属性和特质。这些用户特征涵盖了人口统计学特征(如性别、年龄、教育水平、职业等)、心理特征(如人格特质、情绪状态等)以及社会特征(如社会地位、文化背景等)。对于微博使用者而言,这些用户特征对其在微博上的行为和参与方式具有重要影响。首先,人口统计学特征对微博使用者的行为产生显著影响。性别是一个重要的人口统计学因素,不同性别的用户可能对微博平台的关注点、内容偏好和互动方式存在差异。例如,男性用户倾向于关注新闻、科技和体育等领域的内容,而女性用户则更关注美妆、时尚和娱乐等领域的内容。此外,年龄和教育水平也对微博的使用产生明显影响,年轻人和受过高等教育的人倾向于更积极地使用微博并更频繁地与他人互动。职业也在一定程度上塑造了用户的使用行为,不同职业背景的用户可能在关注领域、互动频率和行业信息获取方面存在差异。其次,心理特征对微博使用者的行为也有重要影响。人格特质是一个重要的心理特征,如开放性、外向性、神经质等特质往往与个体在微博上的行为有关联。比如,开放性高的个体倾向于关注各种多样的内容并积极参与讨论,而外向性强的个体则更愿意与他人建立社交关系和进行社交互动。此外,情绪状态也会影响微博使用者的行为,积极情绪和消极情绪可能导致不同的使用方式,例如积极情绪下的用户更愿意分享正能量的内容,而消极情绪下的用户可能更倾向于表达情感或寻求支持。第三,社会特征对微博使用者的行为产生影响。社会地位、文化背景和价值观等因素塑造了用户在微博上的兴趣和行为偏好。社会地位较高的用户可能更注重专业领域的内容和权威信息,而文化背景不同的用户可能对不同类型的话题和内容产生兴趣。此外,价值观也在一定程度上影响用户在微博上的行为和言论。例如,个体主义倾向更强的用户可能更注重自我表达和个人独立思考,而集体主义倾向更强的用户可能更注重社会共识和社群认同。3.1.1 版本使用者的影响一个微博发布用户的影响力高低会对自己所发微博的影响力产生影响,进而对其他用户的转发行为产生影响。从直觉上来说,一个人的粉丝数越多,这条微博就更容易获得最大程度的传播,然而,因为粉丝中有大量的假粉丝,所以仅仅从粉丝的数量上来判断一个人的影响力是远远不够的,还要看粉丝的质量。在此基础上,本项目提出了基于社会关系网络的PageRank(PageRank)算法,以较为客观的方式评估用户的影响力。发布用户页面等级的值按以下公式计算:Pr(m.)=(-d)+d其中,PR(ui)是用户Ui的页面等级值;F(ui)是用户Ui的follower数量集;O(vj)是使用者Vj追随使用者的数目;d是指衰减系数,0<d<l,其中d的设定将会影响到该算法的表现以及排序的效果,通常取0.85o首先,基于用户关系网络,计算用户的“页面等级”,并按照“页面等级''的大小,对其进行排序,最后,对其所发微博的转发次数进行统计。我们以每10个用户的转发量平均后的值为一个节点,对前8000名用户的影响力排名和转发量之间的关系进行了统计,具体结果如图2所示,横轴代表的是影响力排名,纵轴代表的是微博的平均转发量。我们可以看到,随着影响力的降低,转发量呈现出了减少的趋势,这说明具有较高影响力的用户所发布的微博,的确会引起人们的注意并进行转发。图2用户影响等级与平均转发次数之间的关系3.1.2 用户的转送活动这主要是看用户平时有没有转发的习惯,有的人喜欢发自己的微博,很少转发;有些用户以获得资讯为目标,偏好于浏览别人的微薄,不喜欢发表或转发微薄;甚至有些人,为了圈粉,就会疯狂的转发各种各样的微博,哪怕是看着不顺眼,也会不遗余力的转发。很明显,用户的行为特性对其转发行为有很大的影响。高转发频率的用户对微博消息的传播起到了较强的推动作用。为了解决这一问题,本文给出了一个新的定义,并给出了一个新的定义。定义3转发活动性.获得在一段时间t中,用户发布总微博的数量,用S来表示,包含了用户的原创微博数和转发微博数,其中,用R。来表示原创微博数,用Rr来表示转发微博数。用户的转发活动性Ra(再激活)被表示为:以上述定义为基础,对用户产生转发行为和没有产生转发行为之前的转发活跃度进行了计算,之后利用SPeannan相关系数进行分析,我们可以发现,用户转发活跃度对于用户的行为存在着一定的影响,这说明之前转发活跃度大的人,在面对一条微博的时候,更容易产生转发行为。表3转发活动与用户行为之间的关系TermIndexRelweelactivityUser*sbehaviorRetweetactivityCorrelationCoefficient1.0000.386*Sig,(2-tailed)0.000User'sbehaviorCorrelationCoefficient0.386*1.000Sig.(2-tailed)0.000*CorrelationissignificantattheQOlIeveK2-tailed)3.2 微博特征微博特征是指微博平台在功能、设计和运营方面的独特性。这些特征包括内容丰富性、信息速度、社交互动、用户生成内容等。对于微博使用者而言,这些微博特征对其在平台上的行为和参与方式具有重要影响。首先,微博的内容丰富性对微博使用者产生显著影响。作为一个多媒体社交平台,微博以文字、图片、视频等形式呈现内容。丰富的内容形式使得用户可以获取各类信息,满足不同需求。例如,用户可以通过阅读文本微博获取新闻、观点、知识等;通过浏览图片和视频微博获得图文并茂的信息和视觉享受。微博提供了丰富多样的内容类型,满足用户的不同兴趣和喜好,从而影响其决定关注、分享、转发或评论哪些内容。其次,微博特征中的信息速度对微博使用者的行为产生重要影响。微博作为一种实时更新的平台,内容迅速流动。用户可以随时随地通过微博了解最新的社会动态、热点事件和个人信息。这种快速获取信息的特点,使用户更容易对事件做出反应、表达态度、获取各种资源。用户受到来自微博的实时信息刺激,可能会增加他们的使用频率和参与程度。第三,社交互动是微博特征对微博使用者影响的重要方面之一。微博提供了丰富的社交互动功能,如评论、转发、提及等。这些功能使得用户可以与其他用户直接互动、分享观点、表达情感、建立社交关系等。通过社交互动,用户可以获得更多的信息和反馈,扩大影响力,并满足社交需求。同时,社交互动也促进了平台上的社群形成,用户可能更倾向于参与那些具有相似兴趣和想法的社交群体。第四,用户生成内容是微博特征对微博使用者影响的重要因素之一。微博不仅提供了官方账号发布信息的渠道,也为用户提供了个人创作和表达的平台。用户可以发布原创内容、实时事件报道、个人见解等,从而形成多元化的声音和观点。这种开放的用户生成内容机制使得微博成为一个多样性和包容性的社交平台。用户生成内容的特点隐含了用户个人创造力、表达欲望和自我展示需求,进一步促使他们在微博上积极参与和使用。微博特征反应了用户发布信息的方式,比如微博中是否含有UR1.s、Hashtags.他人等,我们通过对表格4的数据进行了比较,发现UR1.s>Hashtags他人在统计意义上对用户的转发行为有一定影响。表4转发与不转发对微博特性的比较微博特征转发行为非转发行为包含UR1.S比例22%16%包含Hashtags比例29%13%他人的比例25%45%3.3 交互特征交互特征是指微博平台提供的用户与平台、其他用户之间进行互动和信息交流的功能和机制。这些特征包括点赞、评论、转发、提及等操作方式。对于微博使用者而言,交互特征对其在平台上的行为和参与方式产生重要影响。首先,点赞功能是微博交互特征之一,对微博使用者具有显著影响。使用者可以通过点赞表达对他人发布内容的认同和喜爱。点赞不仅是一种简单的行为反馈,也是用户心理的满足和社交表现。被点赞的微博内容往往会受到更多的关注和曝光,从而带来更多的用户互动和社交网络扩展。同时,对于点赞的用户而言,点赞行为也可彰显个人价值观、情感态度和社交意图。其次,评论功能是微博交互特征中的重要组成部分,对微博使用者产生深远影响。通过评论,用户可以对他人的微博内容发表自己的意见、想法和观点。评论具有即时性和交互性,用户可以与发布者和其他用户进行公开的讨论和互动。评论的存在促进了信息的传播和共享,同时也形成了一个开放的讨论空间,激发用户的思考和参与兴趣。用户对于评论的积极参与有助于构建更丰富、多样、深入的内容交流环境。第三,转发功能是微博交互特征对微博使用者影响的重要因素之一。通过转发,用户可以将他人的微博内容分享给自己的关注者,从而扩大信息的传播范围。转发不仅是一种信息分享行为,还具有信息传递、态度表达和社交推动等功能。被转发的微博可能会引起更多关注和讨论,甚至在某些情况下引发舆论热点。转发操作使得用户可以快速传递和共享有价值的信息内容,同时也加强了平台上用户之间的社交互动。第四,提及功能是微博交互特征中的重要组成部分,对微博使用者产生显著影响。通过提及,用户可以直接引用其他用户的用户名,并针对性地向其发送消息或提出问题。这种功能能够有效地促进用户之间的交流和互动,并帮助用户建立和维护联系。提及不仅可以在公共场合中进行,也可以在私信或小组等特定环境下进行。用户通过提及活动,能够更加精准地传达信息、吸引他人关注和引发回应。3.3.1 接受者和上位者之间的互动微博与其他社交网络不一样,在微博中,多数用户之间是一种单向关系,有可能粉丝对关注的人非常熟悉,而用户对自己的粉丝却并不熟悉,这就反映出,如果用户经常关注某个人的微博消息,说明他对这个人的微博是有兴趣的,当以后再出现这个人的消息时,他也有很大的可能会持续关注下去。所以,我们使用下面的定义来描述用户间的互动水平。定义4用户之间能够通过转发来进行互动,假定V关注U,那么在一段时间t中,用户U与V之间的互动程度(InteraCtiVeStrength)表示为:_/(tt,t.)=p.(3)其中:IUV是指在某一时刻t±,被该使用者V转发到该使用者U的微博数量;IV指在t时段中,使用者V所发表的微薄的总数量。以上述定义为基础,对用户产生转发行为和没有产生转发行为时,与上层用户的交互程度进行了计算,之后展开SPearman相关性分析,得出表5,从中可以发现,用户与上层用户的交互程度在很大程度上会对用户的行为产生影响,用户之间的交互关系体现了用户是否对上游用户感兴趣,交互越频繁,说明用户越有兴趣,越容易产生转发行为。表5与更高层次用户互动程度和用户行为之间的关系TermIndexInteractivestrengthUser,sbehaviorInteractivestrengthCorrelationCoefficient1.0000.435*Sig.(2-tailed)0.0User*sbehaviorCorrelationCoefficient0.435*1.000Sig.(2-tailed)0.0003.3.2 微博客的内容和收件人的兴趣的相似性该因素对用户的兴趣进行了考量,在直觉上,人们会倾向于关注自己喜欢的话题,进而,与用户兴趣相近的话题也更容易得到用户的转发。然而,由于用户的兴趣会随着时间和年龄的变化而变化,本项目拟从用户最近的兴趣出发,以其最近的兴趣为切入点,从而在确保预测精度的同时,避免了大规模的计算量。为了计算文字的相似度,该信息的处理按下述步骤进行:1)利用汉语词法分析系统(ICTC1.AS)2,对发生共享行为的用户微博内容进行处理,并对其进行分词。在汉语中,将语气词,副词,介词,以及连接词(例如“我”,”是,“啊,等)作为禁止词,以便更好地计算相似性。2)抽取用户在过去的一个月内的兴趣空间,假定该用户在过去的一个月内发布了n条信息(包括原创信息和转发信息),该信息集合M=ml,m2,,mn,对该信息集M=ml,m2,,mn进行分割,如1)所示。3)把经过处理的微博内容信息与使用者兴趣的关键字相结合,形成使用者兴趣矢量W,与使用者兴趣矢量W,=(W1,W2,Wt)O4)对矢量W和W中的每一个词,计算它们的加权TF-IDF(TermFrequency-inverse文档Fre-quency),用于代表微薄的重要程度。在计算结束后,W和W,向量分别是T=(T1,T2,Tt)和T'=(T'1,T'2,,T't)。Ti(l<i<n)的计算方式是:Ti=F1,×FijD=Xlog(Mw).(4)将词项Wi作为这个微博中出现的次数,将M作为微博文本的总数,将m作为其他所有文本中含有词语Wi的微博数。用户兴趣矢量T=Cr1、72、T5t)也可以被计算出来。目前有很多种计算文字相似性的方法,我们使用的是余弦系数,它是一种比较接近于1的相似性,它是一种比较高的相似性,它的计算方式是:Ti×V1通过以上的分析,得到了图3,我们可以看到,一条微博的内容与所接收的用户之间的相似性越高,人们就会更倾向于进行转发,而当相似性达到0.4之后,人们就会更加倾向于去关注与他们感兴趣的微博。可以看出,即使是在很少的情况下,也会有人转发,这说明了他们的好奇心。但更多的时候,他会发一些自己感兴趣的东西。图3具有类似兴趣的比率3.4 结构特征结构特征是指微博平台在内容组织、信息传递和社交关系方面的特点。这些特征包括时间线、个人主页、话题标签、关注列表等,对微博使用者的行为和参与方式产生重要影响。首先,时间线是微博结构特征中的核心组成部分,对微博使用者具有显著影响。时间线以时间轴的形式展示用户关注的微博发布顺序,使得用户能够快速浏览到最新的内容更新。时间线提供了一种实时性和动态性的信息传递方式,用户可以通过滚动时间线获取不断变化的社会动态、热门话题和个人关注对象的微博。时间线的存在促使用户保持对平台的持续关注和使用,同时也提供了丰富的互动机会,如点赞、评论或转发对时间线上的微博进行即时反馈。其次,个人主页是微博结构特征中的重要组成部分,对使用者产生深远影响。在个人主页上,用户可以定制自己的资料页面、显示头像、展示个人信息、发布微博和互动活动等。个人主页被视为用户在微博上展示自我的窗口,其中包含了用户的社交关系、个人观点和兴趣等信息。通过浏览他人的个人主页,用户可以了解对方的背景、兴趣和观点,并基于这些信息进行关注、互动或建立联系。个人主页的设计和内容影响着微博使用者的个人形象塑造、社交认同感和吸引力。第三,话题标签是微博结构特征中的重要组成部分,对使用者产生显著影响。微博平台支持用户为自己发布的微博添加话题标签,从而将其与相关主题或事件关联起来。话题标签提供了一种组织和分类微博的方式,用户可以通过点击或搜索相关话题标签来浏览与该主题相关的微博。这种机制促进了信息的发现和共享,使用户能够更容易地参与到感兴趣的话题讨论中。话题标签也有助于形成热门话题和舆论聚焦,在一定程度上影响微博使用者的关注度和参与度。第四,关注列表是微博结构特征对使用者影响的重要因素之一。通过关注列表,用户可以追踪自己感兴趣的个人和机构,获取他们发布的微博内容。关注列表不仅提供了用户关注对象的更新动态,还可以看到他人与关注对象之间的互动情况。这种机制有助于用户获取感兴趣领域的专业知识、关注名人动态或参与社交圈子,从而影响其微博使用行为和参与模式。在现实生活中,人们很容易被身边的人所影响16,在社会网络中也是如此,处在不同的朋友之间,随着时间的推移,就会被朋友所影响。假定图4是微博网络,对于某条微博m,用户V有7个朋友(A,B,C,D,E,F,G)都转发了。但是,从图4(八)-(d)中可以看到,朋友节点之间也可以有关系(这里只考虑用户之间的相互关注关系)。那么,用户所处的局部结构会对用户造成怎样的影响呢,这就是我们这节所要探究的内容。图4显示了用户所在的地方3.4.1 document节点的作用在微博信息传播网络中,用户具有某种趋同性,如果身边的朋友都转发了一条信息,那么用户也会对这条信息感兴趣,从而发生了转发。本文提出了一种新的信息传递策略,该策略利用了好友节点的数量。010203040激活次数«Y1.=图5基于受激活次数的转发用户数曲线3.4.2 分形从图4可以看出,用户V有7个朋友转发了消息m,然而,从关系网络来看,不同的关系所组成的朋友组是不一样的,如图4(八)-(d)所示,有关系和没有关系所组成的网络结构是不一样的,通过上一个因素的分析,我们可以看出,当活跃朋友为06个时,所产生的转发行为比例就已经达到了96%以上,所以在对用户的活跃朋友节点所处局部结构进行分析的时候,只对具有26个活跃朋友的转发用户进行了分析,得到了如下图6。0.8070.10560.25430.0.0.0.6图6构造差异效应我们可以看到,在生成转发行为中,当活跃的朋友数量不变时,随着朋友群的增加,转发行为所占的比重有增加的趋势;还能够看到,在已有2至4个邻居节点转发了某个消息的情况下,用户易于发生转发行为;当用户周围激活的朋友达到一定上限时,朋友的组数多少对用户的转发行为没有太大影响。在此基础上,本项目还将研究用户的粉丝数、用户的认证状态(0为已认证,1为未认证)、用户的历史博客数、用户的相互关注数等通常用于转发预测的特征。第4章转发行为预测在使用数据来训练模型之前,要确保模型的训练和收敛速度18,首先要对数据进行预处理,使用Min-max方式来进行归一化,使得原始数据映射成0,1之间的新值,归一化方法具体如下:y=.(6)Ngxmin其中,X为原数据,y为新数据;Xmin代表最小的样本量;XmaX代表最大的样本量。4.1 实验设置1)在对特征值进行规范化处理后,运用机器学习的分类算法,用10-foldcrossvalida-tion的10-foldcrossvalida-tion方法,得到了该方法的效果。2)如何选取合适的分类法。在此基础上,本项目拟采用逻辑回归、纳维贝叶斯、支持矢量回归(SVM)、C4.5决策树等多种方法对转发行为进行预测,以期得到满意的分类效果。在支持向量机模型中,我们采用了支持向量机的集成模块1.ibSVM,并选择了RBF作为核函数。选择RBF作为核函数,是因为RBF与线性核函数有很大的区别,因为RBF可以把非线性映射到更高的维度上。另外,由于RBF所包含的参数较少,所以模型的复杂性也较低。4.2 实验结果和分析4.2.1 评估指数对实验结果进行了10倍交叉检验。并用准确率、召回率和Fl值等指标来衡量该预测模型的优劣。在实际转发行为这一类中,校准率P(Precision),召回率R(ReCan),Fl度量值,准确度A(Accuracy)的定义如下:TPP='"TP+FP(7)rTPTP+FN'VO/2PRF1=-7:(9)P+RTP+TN(10)TPTTN+FP+FN4.2.2 对转发行为的预测转发行为的预测结果如表6所示,可以发现,不同的预测方法预测效果不尽相同,使用逻辑回归方法对转

    注意事项

    本文(面相社交网络的用户行为分析与预测.docx)为本站会员(夺命阿水)主动上传,课桌文档仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知课桌文档(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    备案号:宁ICP备20000045号-1

    经营许可证:宁B2-20210002

    宁公网安备 64010402000986号

    课桌文档
    收起
    展开