《计算机研究与发展》论文投稿模板.docx
计算机研究与发展JournalofComputerResearchandDevelopmentD0kl0.7544issnl000-1239.2019.*卷(期):起止页.年(注:此模板非完整论文,已做删减。只者格式,勿叁考内容)异质网中基于张量表示的动态离群点检测方法剧目三言刘露I左万利'2彭涛-昨著函号宋体,作者和单位的对应关系标注在作者姓名的右上角I(吉林大学计算机科学与技术学院长春13(X)12)I单位小五号,城市若不是省会则写出省份I2(符号计算与知识工程教育部重点实验室(吉林大学)长春130012)I国家、部级、省级实验室注意写依托单位(Iiulu12)小五号,与通信作者的邮箱不同TensorRepresentationBasedDynamicOutlierDetectionMethodinHeterogeneousNetworkTitle四号1.iuLu1,ZuoWanli1'2,andPengTao1,2Name五号1 (CollegeofComputerScienceandTechnology,JilitiUniversity,Changchun130()12)IDePan.Correspond小五号2 (KeyLaboratoryofSymbolComputationandKnowledgeEngineering(.JilinUniversity'),MinistryofEducation,Changchun13(X)12)AbstractMiningrichsemanticinformationhiddeninheterogeneousinformationnetworkisanimportanttaskindatamining.Thevalue,datadistributionandgenerationmechanismofoutliersarealldifferentfromthatofnoaldata.Itisofgreatsignificanceofanalyzingitsgenerationmechanismoreveneliminatingoutliers.Outlierdetectioninhomogeneousinformationnetworkhasbeenstudiedandexploredforalongtime.However,fewofthemareaimingatdynamicoutlierdetectioninheterogeneousnetworks.Manyissuesneedtobesettled.Duetothedynamicsoftheheterogeneousinformationnetwork,normaldatamaybecomeoutliersovertime.ThispaperproposesadynamicTensorRepresentationBasedOutlierdetectionmethod,calledTRBOutlier.Itconstructstensorindextreeaccordingtothehighorderdatarepresentedbytensor.Thefeaturesareaddedtodirectitemsetandindirectitemsetrespectivelywhensearchingthetensorindextree.Meanwhile,wedescribeaclusteringmethodbasedonthecorrelationofshorttextstojudgewhethertheobjectsindatasetschangetheiroriginalclustersandthendetectoutliersdynamically.Thismodelcankeepthesemanticrelationshipinheterogeneousnetworksasmuchaspossibleinthecaseoffullyreducingthetimeandspacecomplexity.Theexperimentalresultsshowthatourproposedmethodcandetectoutliersdynamicallyinheterogeneousinformationnetworkeffectivelyandefficiently.AbStraCt五号,至少200字,否则影响El索引Keywordsdynamicoutlierdetection;heterogeneousinformationnetwork;tensorrepresentation;tensorindextree;clusteringKCyWOrdS五号,至少5个摘要挖掘隐藏在异质信息网络中丰富的语义信息是数据挖掘的重要任务之一.离群点在值、数据分布、和产生机制上都明显不同于正常数据对象.检测离群点并分析其不同的产生机制,最终消除离群点具有重要的现实意义.目前,针对异质信息网络动态离群点检测的研究工作相对较少,还有很多问题有待解决.由于异质信息网络的动态性,随着时间的变化,正常数据对象也可能转变为离群点.针对异质网络提出一种基于张量表示的动态离群点检测方法,并根据张量表示的高阶数据构建张量索引树.通过搜索张量索引树,将特征加入到直接项集和间接项集中.同时,根据基于短文本相关性的聚类方法来判断数据集中的数据对象是否偏离其原聚簇来收稿日期:2016-03-16;修回日期:2016-04-26西基金项目:国家自然科学基金项目(60903098):吉林省工业技术研究和开发项目(JF2O12cOI62):吉林大学研究生创新基金项目(2015040)ThisworkissupportedbytheNationalNaturalScienceFoundationofChina(60903098).theProjectofJilinProvincialIndustrialTechnologyReSCarChandDCVeIOPmCnt(JF2012c016-2),andtheGradUateInnOVatiOnFundofJilinUniversity(2015040).六号,核实准确完整的法金名称和英文翻译,用英方版本I通侑作者:彭涛(tpeng)动态检测网络中的离群点.该模型能够在充分降低时间和空间复杂度的条件下保留异质网络中的语义信息.实脸结果表明,该方法能够快速有效地进行异质网络环境下的动态离群点检测.摘要五号楷体,300字左右关键词动态离群点检测;异质信息网络;张量表示;张量索引树;聚类I关键词五号楷体,不少于5个中图法分类号TP391I分类法五英离群点检测不论在同质网络中还是在异质网络在本节中,我们主要介绍张量表示方法在异质正文五号宋体I异质信息网络代表一个现实世界的抽象,专注于多种类型的对象以及对象之间的相互关系.异质网络中经常存在许多不同于正常对象的离群点.作为数据挖掘领域的一个重要分支,离群点检测可以预测数据对象行为和发展趋势,具有很重要的现实意义.离群点检测有着广泛的应用,例如,异常天气检测、信用卡欺诈检测、心电图分析网、异常GPS追踪、文本挖掘中异常的主题检测等.提升TLP的主要策略的特点对比如表所示0惨考文献全文顺序标引(含图和表)ITable1FeaturesComparisonoftheMainStrategieswithTLPEnhancing«1提升TLP的主要策略的特点对比策略资源使用复杂度性能增益Warped-SliceH51高低低SMK一般高高GPUMaeStro高高高VT一般低低VTB一般低低三线表,表题为中英文,小五号黑体,表的内容尽量用中文,|除变量、名称缩写外。|本文的主要贡献包括4个方面:1)我们提出了一种基于张量表示的异质网络动态离群点检测方法TRBOutIier,通过分析网络中数据变化趋势判断其是否为离群点;2)张量表示方法被应用到异质网络中来处理不同类型的数据,张量索引树的构建解决了数据稀疏性问题,同时保留了数据的语义关系;3)在张量索引树的基础上对网络中出现的短文本进行相关性分析,并依据短文本的相关性对异质网络中的实体进行聚类;4)应用不同数据集的实验结果表明我们提出的离群点检测算法可以有效发现异质网络中存在的动态离群点.1相关工作一级标题小四黑中都发挥着重要的作用.静态离群点和动态离群点检测在不同的背景下也都有着广泛的应用和重要的研究意义.接下来,我们概述已有的部分离群点检测工作以及在不同条件下的应用.关于离群点检测的研究有很多,但大多数都是针对同质信息网络的研究U。四.文献14提出了一种基于密度的局部离群点检测算法.该方法通过引入信息场来发现网络中存在的局部离群点.文献15提出了一种使用后缀树的离群点检测方法.该方法认为离群点稀少,出现的次数也相对较少,比一些周期性出现且出现次数频繁的正常点更加重要.其主要用于处理数值或者字符,因此被应用于同质信息网络.本文提出的基于张量表示的动态离群点检测方法,将网络中的异质数据进行动态分析.不仅解决了数据的稀疏性问题,也很大程度上保留了数据之间的语义关系.该方法可以根据异质数据所在聚簇是否发生变化来判断网络中的数据是否为离群数据,也可以根据离群数据来分析其产生机制并进行相应的处理.虽然存内计算架构在一定程度上缓解了“数据搬运”的瓶颈问题,然而由于传统存内计算建立在易失性存储器介质之上,其物理特性限制导致整个系统泄漏功耗和动态功耗随着处理数据量的增加而急剧增长.近期各种新型非易失性内存介质(non-volatilememorytechnologies,NVMs)正因其区别与传统介质的低漏电率、高密度等一系列优良的特性而受到广泛关注目7.典型的包括相变存储器(phasechangememory,PCRAM),自旋力矩存储器(SPin-transfertorquememory,STT-RAM),赛道型存储器(racetrackmemory,RM)等.其中RM通过将多个比特的数据存储在一条类似磁带的纳米线上,提供了比自旋力矩存储器更高的存储密度,比相变存储器更高的写入寿命,以及接近静态随机存取存储器(StatiCrandomaccessmemory,SRAM)的读写速度如叫名词的英文!展开胆小写,缩写用大写:人名、地名的首字母始回三12异质信息网络中的张表示方法信息网络中的应用,并且将类型的概念引入张量中.2.1基本定义I二级标题五号4对同质网络进行离群点检测时,通常用数值或向量来表示网络中的实体.例如,在异常天气检测中,气温用数值进行记录,1周或1个月的气温值可以存储在1个向量之中.在对文本主题异常检测时,文本中的特征权值通常用向量表示.不论气温还是文本,数值中和向量中存储的都是同一类别的实体,即数值和向量的定义域是相同的.然而,在异质信息网络中存在着不同类型的实体和链接,将所有实体各自表示成向量进行相似或离群的计算往往不能得到满意的结果.因此,在本节中,我们提出了一种张量表示方法来处理异质网络中的实体.将张量矢量化处理很可能引起维数灾难并破坏了原本高维数据之间的结构关系.将张量表示用于异质离群点检测是一种新的尝试.在详细描述离群点检测算法之前,我们先给出一些基本的符号解释和定义.定义1.异质信息网络24.给定一个有向图G=(V,E,A,R).V代表节点集,E代表边集.r表示对象类型映射函数.0表示关系类型映射函数.r(v)A表示每个对象vV都属于一个特定的对象类e(e)QR表示每个关系都属于一种特定的关系类.当节点类型数量IAI>1或边的类型数量IRI>1时,这样的信息网络被称为异质信息网络.反之为同质信息网络.定义2.异质信息网络中的”阶张量.我们将异质信息网络中的N阶张量表示为XWXm*Ir.其中,N为张量的阶数(也可称模数).第1阶张量的长度记为,其对应的实体类型为type.第N阶张量的长度记为卜,其对应的实体类型为typNVtypeAiIWiWN.例如,文献网络可以被表示成1个4阶张量,Xe4/产”对"喈吟/尸.电影网络可以被表示为1个4阶张量0"%停KMri或一个3阶张量XeyAcoryM>vieyGenrv(定义3.张量索引树.张量索引树是包含1)个节点且满足下列条件的有限集合:1)张量索引树中的每一个节点都由1个N(Nn)维向量组成.2)存在唯一一个向量节点X°,它是由一系列时序数据组成的向量,称为张量索引树的根节点.3)张量索引树同一层的节点可以包含不同类型的数据.但同一类型的数据都处于张量索引树的同一层中.2.2张量索引树的构建我们之前提到过,张量矢量化可能破坏各阶中数据之间的关系.在大数据环境下,不可避免地会引起维数灾难.而对于异质网络中的数据,如何进行高阶统计也是我们需要考虑的问题.应用张量分解方法,例如构建邻接矩阵,处理数据集中的样本会出现严重的数据稀疏性问题.在本节中,我们提出了一种构建张量索引树的方法来处理异质信息网络中用张量表示的数据,进而动态发现网络中存在的离群点.我们首先描述张量索引树的构建过程.由于木文主要解决动态离群点发现的问题,因此,张量索引树的根节点为时序数据组成的向量X=(X,X2,Xn),如图1所示.Fig.1IllustrationofHierar-DRL图IHierar-DRL示意图Fig. 2 Instrumentation without I/O 图2插桩不进行1/0I图例尽量用不同图案、颜色深浅来区别。图的坐标值应I I在SiOOO内,若在这个范围之外,则标值改阈 011000,在标目位置写10”X标目。若数值扩大10倍, 则 =1:若数值缩小IOOO倍,则=-3。标目的表示形式I为含义/单位。I图3为图卷积层数量的影响(MLTOOK数据集)。I中英文图题用小五号。图内容(标目、图例、图注)尽量用中文,除变量、名称缩写外。图的背景颜色若无特殊考虑,尽量去I胸,否则影响印刷效果。两个图有联系,不要分鼠3基于张量表示的聚类过程本节详细介绍如何根据给定的入口entryisource,S电)搜索张量索引树,进而使用聚类方法发现异质网络中存在的离群点(即源节点相对于目标类别是否离群).张量索引树可以根据给定入口快速定位相关的异质信息.式用OffiCe2003编辑器或者maihlype录入,可编辑。|短文本权值的定义为stwi=+上一,(1)NDlSNnS其中,NWS和M/s分别为直接项集和间接项集中项的数量(1条路径中的数据集合称为1条项集,也称记录).4表示特征i在直接项集记录2中出现的次数.力表示特征i在间接项集记录/中出现的次数.为调皆因k本文中,被设置为0.5.由于直接项集中的记录和源节点的相关程度将高于间接项集中的记录与源节点的相关程度,因此,调节因子起到调节特征在直接项集和间接项集中重要程度的作用.图2所示为插桩不进行I/O的情形。Fig.3EffectofgraphconvolutionallayernumbersonML-100K图3图卷积层数量的影响(ML-100K数据集)I图例尽量用不同图案来区别。I具体的算法如算法1所示。算法1.短文本特征权值计算算法.国法单独排序|输入:张量索引树Tnree,源节点s,目标类型t,直接项集DlS,间接项集I1S;输出:源节点相对于目标类型的特征表示OiCs.BreadthFirstSearchiTI-tree5);foreachpathcontainingsDIS<get!tefnSet(s,t)i*将源节点S关于目标类型t路径中的节点放入集合DIS中*/endforCgetChildNode(DISj);/*将。/S中类型,的节点放入集合C切注择不用双标|ifanynodepistheparentnodeofatleasttwonodesinCDJgetChiIdNode(HSJ);*将S中类型f的节点放入集合DVendif4结论本文提出了一种未来的工作包括3个方面.作者贡献声明:作者一提出了算法思路和实验方案,作者二负责完成实验并撰写论文,作者三提出指导意见并修改论文。参考文献I详细格式要求参照期刊主页下载中心”参考文献规范”,Ihttp:"C1ShepherdJM,BurianSJ.Detectionofurban-inducedrainfallanomaliesinamajorcoastalcity(J.EarthInteractions.2003.7(4):1-171期刊文献要有年、卷、期、起止页码(或编号),期刊名称不缩写。题目的首个单词的首字母大写,其余均小写;期向诉而实词首字母均大冢I2 BcutclA.FaloutsosC.Userbehaviorrlclingandfrauddetection!J.IEEEIntelligentSystems,2016.31:84-863 JiangBing.YangWei.AnSPC-basedforward-backwardalgorithmforarrhythmicbeatdetectionandClaSSifkaIiOnJ,IndustrialEngincccring&ManagementSystems.2013,12(4):380-3884 ChcnChcn,ZhangDing.CastroPS.ctal.Real-timedetectionofanomaloustaxitrajectoriesfromGPStraccsMMobilcandUbiquitousSystems:Computing.Networking,andServices.Berlin:Springer,2011:63-74I图书文献要有出版地、出版社、年、起止页码(或不写)。图II书名称的实词首字母均大写。出版地指出版社所在的城市。I(5JSrivastavaA,Zane-UlmanB.DiscoveringrecurringanomaliesintextreportsregardingcomplexspacesystcmsCProcofIEEEAerospaceConf.Piscataway.NJ:IEEE,25:55-63I会议文献要有论文集名称、出版地、出版社、年、起止页码。注意:出版地是出版社所在的城市,不是会议开会地点。题目的首个单词的首字母大写,其余均小写:会议论文集的实词首字母均大写(6SchobciriMTVectorandtensoranalysis,applicationstofluidmechanics(M/RuidMechanicsforEngineers.Berlin:Springer.2010:11-297 HaoNing.KilmcrMEBranianK.etal.Facialrecognitionusingtensor-tensordccompositionsJ.SIAMJournalonImagingSciences,2013.6(1):437-4631注意:老外作者姓前幺后缩写,中国人用全拼柞者超过3人,加etal。I8 1.ifaL.PelicanE.Alow-ranktensor-basedalgorithmforfacerccognitionJ.AppliedMathematicalModelling.2015.39(3):1266I2749 TangJie,ZhangJin,YaoLiao,ctal.ArnclmincnExtractionandminingofacademicsocialnctworksCJProcoftheI4(hACMSIGKDDIntConfonKnowledgeDiscoveryandDataMining.NewYork:ACM,2008:990-99810 Yahoo!WcbscopeProgram.Yah!Moviesuserratingsanddescriptivecontentinformal沁n.vl.0(OLJ.2016-01-28)hltp:WebSCOPC.sandbox,yah.comI网络文献要有下载H期和链接丽I11 HuCaiping.QinXiaolin.Adensity-basedlocaloutlierdetectionalgorithm(J.JournalofComputerResearchandDevelopment.2010.47(12):2110-2116(inChinese)(胡彩平,秦小麟一种基于密度的局部离群点检测算法DLOFJJ计6算机研究与发展.2010.47(12):21132116)I中文文献要有中英文对照,英文在上、中文在下12 PcrozziB.AkogluL,SfinchczP1.ctal.FocusedclusteringandoutlierdetectioninlargeattributedgraphsC)Procofthe20thACMSIGKDDIntConfonKnowledgeDiscoveryandDataMining.NewYork:ACM.2014:1346-135513 ZhangJing,SunZhihui.YangMing,ctal.FastincrementaloutlierminingalgorithmbasedongridandcapacityJ.JournalofComputerResearchandDevelopment,2011.48(5):823-830(inChinese)(张净,孙志挥,杨明,等.基于网格和再度的海量数据增量式离群点挖掘算法J,计算机研究与发展.2011.48(5):823-830)1.iuLu,bomin1989.PhD.HermainresearchinterestsincludeWebmining,inlbrmationretrieval,machinelearning.刘璐,1989年生,博士。主要研究方向为Web挖掘'信息检索和机器学习。2016年ZuoWanli,bomin1957.PhD.professor,PhDsupervisor.SeniormemberofCCEHismainresearchinterestsincludedatabasetheory,datamining,Webmining,machinelearning,andWebsearchengine.(zwl)左万利,1957年生,博士,教授,博士生导师,CCF会员。主要研究方向为数据库理论、数据挖掘、Web挖掘、机器学习等。PengTao,bomin1977.PhD.professor.MemberofChinaComputerFederation.HismainresearchinterestsincludeWebmining,informationretrieval,andmachinelearning.彭涛,1977年生,博士,教授,CCF会员。主要研究方向为Web挖掘,信息检索和机器学习。作者介绍小五号,英文在上、中文在下。照片是正面免冠证件照,不要侧脸照,照片背景尽量简单。作者介绍主要包括:犍名、出生年月、学历、职称、头衔和研究领统