2023大数据可视分析技术.docx
大数据可视化分析技术综述目录大数据可视化分析技术综述11引言32可视化和可视分析概述62.1 可视化62.2 可视化查询语言72.3 可视分析与自动数据分析82.4 可视分析的数据准备92.5 图驱动的数据获取102.6 识指导的数据增强102.7 量感知的数据清洗103.1 分析意图驱动的数据获取103.2 领域知识指导的数据增强123.3 分析质量感知的数据清洗134智能数据可视化144.1 智能数据可视化概述154.2 领域知识指导的数据可视化推荐204.3 数据特征驱动的数据可视化推荐214.4 融合分析意图的数据可视化推荐214.5 基于参考对象的数据可视化推荐224.6 考虑用户偏好的数据可视化推荐234.7 基于混合策略的数据可视化推荐235高效可视分析244.8 能254.9 计算框架255.1 基于高效数据管理的高效可视分析255.2 可视化感知的高效可视分析275.3 人工智能驱动的高效可视分析285.4 基于硬件和计算框架加速的高效可视分析296智能可视分析接口297研究展望与未来趋势387.1 面向可视分析的数据准备387.2 智能数据可视化397.3 高效可视分析397.4 智能可视分析接口397.5 智能可视分析的评测基准407.6 智能可视分析的应用生态408总结401引三随着计算机硬件和大数据处理技术的高速发展,海量数据智能分析的瓶颈已经从“如何快速地处理海量数据”转变为“如何从海量数据中快速有效地挖掘出有价值的信息可视化和可视分析基于人类的视觉感知特性,结合数据分析和人机交互等技术,利用可视化图表去解构复杂数据中蕴含的知识和规律.这种技术贯穿于数据科学的全生命周期,被誉为大数据智能领域的最后一公里,已在许多大数据应用分析场景取得令人瞩目的效果.因此,中国科技创新2030”新一代人工智能”和“大数据”专项都将可视化和可视分析列为大数据智能的关键技术g1.触电如图1所示,传统的可视分析极度依赖用户频繁主动地参与可视分析的全生命周期41标备、叫你3,化限射。f机化以研圉恂户交近.可便分析等舲段,M用户的干般投他”较为,泵段的Wie化程度较低UMt,传统的可彼分析«1宜系维。花可屈分析归门播.故找发着代馅为,文?1.响应归姬居交现楂式效率低酬(战.为了提高可视分析系统的整体效能研究者们M从人工智能和数据管理的视角出发,将人工智能和数据管理技术赋能可视化和可视分析系统,提高系统的智能化程度,进而帮助用户高效地参与可视分析全生命周期的数据准备、可视化、可视分析交互等环节,优化可视分析的人机协作模式,提高可视分析的质量和效率.基于此,智能数据可视分析(intelligentdatavisualizationanalysis)的概念应运而生,其核心思想是“算法赋能”和“以简驭繁二通过数据管理和人工智能技术赋能可视分析的工作流,将传统可视分析工作流中的用户的主动探索和分析变为机器算法的智能辅助探索和分析,降低可视化和可视分析的生产和消费成本,协同优化可视分析全生命周期的数据管理、可视化和可视分析的人机协作模式,致力于辅助用户高效地进行可视分析.从学科关系的视角出发,如图2所示,智能数据可视分析是以数据管理和人工智能技术为支撑,通过人机交互手段进行交互式数据分析,通过可视化手段进行数据的信息解构和分析结果的直观呈现,帮助用户快速地从海量数据中挖掘出有价值的信息.从可视化工作流的视角出发,如图1所示,智能数据可视分析技术可以优化传统可视分析工作流的人机协作模式,提高可视分析的效能.具体而言,智能数据可视分析技术可以优化传统可视分析工作流中的数据准备、可视化生成、大数据高效可视分析和可视分析人机交互接口4个模块.接下来,本文将困绕上述4个模块,展开介绍智能数据可视分析技术.现有挑战数枕布飞大、工1卜”也;Ad改耍析推成本至曲可E)析出口检分4结果不精准交互应花延迟交4q式效忠低分析:应对智能数据可视分析框架面向可视分析的数1«准备智能数据可视化高效可视分析,分析意图驱动的数据获取I领域知识指导的数据地兴I分析质n密知的数据清洗I领域知识I数据特征I分析意函1参考对象I用户偏好?昆立镜略1I“r一J.J实时大规KJ溶染菠化感知的数据索引M似另询处理it化?%的故据4样智能可视分析接口渐进式可视化IT咎式可视分析为口JI白嬷酒;搜索Mi交,1卜一¾rOa智能分析故“发述接U数据不备收据可视化映射旧可视化形式可视化结果治染轮图I数据管理1_!数据可视化据务图数任意可视分析结果可视分析)用户交互交互设计可视分析工作流6A传统可视分析人机协作模式智能可视分析人机协作模式图1N视分析工作流和智能数据可视分析技术框架(1)面向可视分析的数据准备:传统可视化和可视分析工作流中的数据准备工作没有针对可视化和可视分析的特点进行优化,存在数据准备代价高、数据质量较敏感和分析维度不全面的挑战.首先,在数据发现阶段,传统方法没有根据用户的分析任务进行相关数据集/数据元组的发现,从而导致在数据准备阶段融合了大量对可视分析无关或者没有蕴含足够洞察的数据集.加重后续可视分析的负担.其次,在数据清洗阶段,传统方法力求找到数据集中的所有错误并进行清洗,以为后续的可视分析提供高质量的数据集.然而,这种数据清洗方式的代价通常很高.如果在数据准备阶段提前考虑可视分析的意图,即清洗与可视分析查询相关的数据子集,则在降低数据清洗代价的同时还能提高可视分析的质量.此外,如果获取的数据集属性过于单一,通常会导致分析的维度过于局限.因此,可以通过关联相关数据源进行数据增强,丰富可视分析的维度.面向可视分析的数据准备技术旨在运用数据管理和人工智能技术,结合可视化和可视分析的特性,优化可视分析工作流中数据准备阶段的人机协作模式,为用户以低成本的方式准备高质量和语义丰富的数据,以支持高质量的可视化和可视分析.图2智能可视分析内涵(2)智能数据可视化:数据可视化通过可视化图表来解构复杂数据中蕴含的知识和规律.在可视化阶段,概括来说需要解决两大核心的任务为“需要可视化哪些数据(Whaldataisneeded?)”和“以什么样的方式进行数据的可视化(Howtovisualizethedata?)”.传统的可视化方式需要用户在对数据集理解的基础上,选择和过滤出用于生成可视化结果的数据子集,挑选合适的数据维度并进行一系列的数据转换操作(如聚集操作等),最后通过可视化工具将该数据表映射到可视化空间中,渲染生成可视化结果.如果生成的可视化结果不满足可视分析中用户的任务需求,则需要重复上述的若干步骤直到找到用户满意的可视化结果.不难看出,传统的可视化过程通常是循环迭代的.需要用户参与到数据选择、转换和可视化映射等环节,存在可视分析高门槛、交互模式效率低、分析结果不精准和分析维度不全面的挑战.为了解决上述挑战,智能数据可视化技术需要结合用户的分析意图、数据特征、领域知识等,自动地生成和推荐给定数据集中有价值的可视化结果,帮助用户高效地进行可视化和可视分析.(3)高效可视分析:在数据量急剧增长的情况下,受计算能力可扩展性和显示设备局限性的约束,会导致可视分析的交互响应延迟较高.方面,这是由于可视分析系统的数据处理和分析时间较长;另一方面,大规模的数据点难以高效渲染并在有限的显示设备上进行呈现和实时交互.为了解决上述挑战,研究人员从硬件和计算框架、数据管理、人工智能和可视化技术出发研究高效可视分析技术,协同优化可视分析中的数据管理和可视化交互的效率.例如,基于可视化感知的数据索引技术和近似查询处理技术,高效地进行数据组织和处理;利用人工智能技术进行用户交互行为的预测,进行用户分析查询的高效重写和数据预取;基于视觉感知的采样、渐进可视化和实时泡染技术,进行大规模数据的高效演染和实时交互.(4)智能可视分析接口:可视分析接口是用户与系统交互的媒介,一方面,系统需要通过交互接口获得用户可视分析的意图和操作指令.传统的交互方法褥要用户根据可视分析系统的交互设计规则,学习特定系统的交互方式(如编程指令或图形化界面操作方式等),对用户的专业要求技能较高,交互接口的学习成本也较大,存在可视分析门槛高和交互模式效率低的挑战;另一方面,可视分析的结果需要通过交互接口呈现给用户,传统的方法仅仅是将可视分析的碎片化发现直接呈现给用户,需要用户进一步挖掘这些碎片化可视分析结论的内在逻辑关系和因果关系,并进一步整理成可在组织内传播的可视分析报告,存在可视分析结果难消贽的挑战.基于上述讨论,一方面,智能可视分析接口需要为用户提供简单的交互接口(例如基于自然语言查询的接口),并通过智能算法进行用户分析意图的理解和可视分析结果的生成和推荐,降低可视分析系统的使用门援和优化系统的人机协作模式.另一方面,智能可视分析接口还需要基于人工智能技术,自动挖掘可视分析结果之间的内在联系,通过关系挖掘、信息补全、文本生成等技术,基于用户可视分析得到的碎片化结果智能地生成分析式仪表盘和可视分析故事叙述,提高用户整理和共享可视分析结果的效率,从而缓解可视分析结果难消费的挑战.综上所述,智能数据可视分析以人工智能和数据管理技术为支撑,结合可视化和可视分析、人机交互等技术,对可视分析工作流的数据准备、可视化生成、大数据高效可视分析和可视分析人机交互接I14个模块进行协同优化:优化可视分析中数据准备阶段的人机协作模式,以支持用户以低成本的方式准备高质量的分析数据;通过智能可视化手段,自动地生成和推荐数据集中有意义的可视化和可视分析结果给用户,优化可视化的生产模式;基于数据管理和可视化技术提高分析数据的处理效率,以支持海量数据的实时分析和交互;基于数据挖掘、自然语言处理和可视化技术为用户提供问答式可视分析接口,并根据可视分析的结果智能地生成分析式仪表盘和可视分析故事叙述,降低用户利用可视分析结果的代价.综述调查范围:为了更好地对智能数据可视分析的研窕进展进行梳理、总结和分析,本文对30多年来(1984-2022)近200篇论文进行了系统性地梳理、总结和分析.如表1所示,本文主要调查了可视化、数据挖掘和数据管理、人机交互和机器学习领域的主要国际会议和期刊论文.通过对图3(八)论文发表年份变化的观察,会发现所有会议或者期刊随着时间推移论文的总数呈现出稳步上升的趋势.这也说明了智能数据可视分析在未来将会受到持续的关注.图3(b)展示了本文主要章节所调查论文的分布情况,其中可视化与数据挖掘和数据管理领域的相关论文数量最多,由此反映出本文所调态的论文与本文题目的相关性较高,还可以看出各章节对各领域的分析都有所涉及且重点突出.表I本文综述调查范围研究领域会议,期刊可视化和图形学ViSUalization(VIS)IEEEVIS(InfOVis,VAST.SciVis).TVCGEuroVis.PacifkVisTOG.SlGGRAPHCGF数据挖掘和数据管理KDD.SIGMOD.V1.DB.ICDE.TKDE.TheV1.DBJoumalTODS.CIDR.DASFAA.EDBT.Dataminingandmanagement(DMM)IEEEBigData人机交互HUma膜,HerirUen3on陋,UlSTJUI,Hl1.DA.AVI,HCl机器学习Machinelearning(M1.)ICM1.,NeurIPS,CVPR,AC1.,EMN1.P,IJCAI,AAAIOOOZl芟6一EOOEOOzO-Oel-Ooez07二Oe数据可视化和可视分析概述面向可视分析的数据准备智能数据可视化高效可视分析智能可视分析接口(八)论文发表年份分布(b)本文主要章节调隹论文情况图3本文综述调查的研窕论文分布情况.与相关综述性文章的区另JQjnJ4ftftsttr'H¾nIeuawriM'(nanK*knsrRWfon-rft化的技术.BaWe等人网也从散射情观的梃角出发zWWtt*.Zhu<IO<,'*爆的数据自动可视化技术Shen'人网“'W化我孩的相关M丸赳上叫也力门会”2绪.Wung,(lr,X5一、“;J"了可用于1«可议优效本的机累学冯技工.Wu等人12我利可电化铝曼”打制嫦箭女期.弁机理r如何使用人rw侦技术转班和只用必矣®rt.终m.I.沏祕在徒从朝的学“视角出发4域只'热w帔依娓可视分析的午涮珈分*叫。一焰.求卡施U括最*城收w.0.因此,东北从可彼化.故州检界总人工智能的视角出发对智能数据可视分析的研究进展进行梳理,希望能够帮助研究者和从业者增强对智能数据可视分析最新进展的了解.本文的主要贡献:首先,本文通过调查近200篇智能可视分析领域的研究工作,总结出智能数据可视分析的4个核心模块,凝练出智能数据可视分析的基本概念和关键技术,揭示了智能数据可视分析和多研究领域的交叉关系.其次,本文系统性地梳理和分析了智能数据可视分析的代表性工作,深入浅出地对各细分领域的研究进行分析讨论,研究者们可以快速地掌握各细分领域的研究进展和机遇.最后,本文还探讨了智能可视分析的发展趋势并为研究者们提供了未来可能的探索方向.本文的组织结构:本文主要讨论关系型数据,基于图1所示的智能数据可视分析框架.本文第2节介绍可视化的基本概念和可视分析的基本流程.第3节介绍面向可视分析的数据准备技术,具体包括分析意图驱动的数据获取、领域知识指导的数据增强和分析质量感知的数据清洗技术.第4节梳理智能数据可视化技术,包括基于融合分析意图的可视化推荐和基于用户偏好的可视化推荐等技术.第5节分析了高效可视分析技术,包括基于高效数据管理的高效可视分析、可视化感知的高效可视分析、人工智能驱动的高效可视分析和基于硬件和计算框架加速的高效可视分析技术.第6节展开介绍智能可视分析接口技术,具体包括问答式可视分析接口和智能分析故事叙述接I1.第7节讨论智能数据可视分析的未来发展趋势和研究机会,并在第8节总结全文.2可视化和可视分析概述为了方便无相关知识背景的读者阅读本文,本节首先介绍可视化的基本概念,并由此引出用于表示和查询可视化的查询语言.最后,本节会阐述以可视化为人机交互媒介的可视分析的基本流程,以及其与自动数据分析的联系和区别.2.1 可视化可视化可以将复杂的数据以可视化图表的信息进行呈现,利用人类视觉感知特性,帮助用户解构复杂数据蕴含的信息、.一个好的可视化结果具有化繁为简和一目了然等特性,可以解构数据中蕴含的复杂信息,高效传达数据知识,引导读者关注到数据的重要特性和赋予读者洞察不同数据侧面的能力.图4形象化地展示了可视化是如何将已经准备好的关系型数据转换成可视化结果.概括来说,可视化是指从给定数据集中,选择合适的数据属性,进行必要的数据转换操作,选择恰当的可视化编码方式,最后渲染绘图将可视化结果呈现出来.如图4所示,本文根据可视化流程中的数据形式,将可视化流程分为数据空间和可视化空间.图4可视化的基本概念示意图可视化结果数据空间对原始数据进行一系列的数据转换操作,如过滤、选择、聚集等,提炼原始数据的主要特性并将原始数据转换成易于可视化的形式.例如,图4中使用了SQ1.查询完成数据转换,该SQ1.查询选择了Cars数据表的Origin屈性,并对该属性进行分组和计数操作,得到转换数据以进行可视化表示.可视化空间将数据映射为合适的可视化形式,以帮助用户直观理解数据蕴含的知识和规律.例如,图4的可视化映射将转换数据映射为柱状图,并将转换数据的Origin和COUNT(Origin)分别映射到柱状图的X轴和丫轴.最后通过渲染绘图,将数据转换为屏幕上显示的可视化结果.2.2 可视化查询语言正如结构化查询语言(structuredquerylanguage,SQ1.)可以方便数据库用户对库内数据进行增、册k改、查操作,可视化的过程也需要相应的查询语言声明式地表示可视化过程中的数据转换和可视化映射等系列工作.本文根据可视化查询语言(ViSUaliZationquerylanguage,VQ1.)的表达程度(expressiveness)和易用程度(ease-of-use)两个维度对主流可视化查询语言进行总结.如图5所示,表达性最高的是图形化编程接口,例如OPenG1.l川、Java2D',51.HTM1.CanVaSI等,这类图形化编程接口可以直接将数据映射到像素空间并渲染显示到屏幕上,是上层声明式可视化查询语言的基础.然而,图形化编程接口也对用户的编程和相关技能有着极高的要求,既需要用户明确指明需要对哪部分数据子集进行何种可视化操作,又需要用户在掌握这些底层编程语言的语法的前提下指明这些操作具体是如何实现的.为了简化可视化的编程难度,陆续出现了一些声明式的可视化查询语言.这些声明式的可视化查询语言封装了底层图形编程接口的具体实现方式,只给用户暴露出了如图4所示的数据转换和可视化映射的编程接口.数据可视化系统声明式可视化杳询语言易用性智能推荐用户创建高级语言低级语言图形编程接口f表达性EaSe-OfuseTableauGoogleSheetsVega-1.iteVegaOpenG1.ExpressivenssQuickSightExcelCompassQ1.PrutovisDirectXQlikManyEyesAltairD3Java2DZenvisageDecpEyeVoyagerDataillustratorEcharts:1.yraggplot2APTZQ1.VizQ1.图5可视化查询语言7系统概览HTM1.Canvas对于声明式的可视化查询语言,本文根据易用程度可以细分为高级语言和低级语言.其中,高级语言有Vega-1.itdAComPaSSQ1.四、ViZQ1.U例、AltaiH20kEChartS川、ggplot2221.ZQ1.四等.用户需要根据语法指定如何进行可视化,即主要指定用于可视化的数据属性和必要的数据转换操作等,具体如何将数据元素映射到可视化空间则由查询语言依据预定义的规则进行执行.相较于高级语言,低级语言如VegM刈则提供给用户更多渲染绘图的参数,例如指定柱状图柱子的宽度等.图6(八)给出了使用Vega可视化查询语言从图4中的Cars数据集生成对应柱状图的示例.其中,蓝色区域部分大致对应图4中的数据空间的操作,主要负责进行数据集的选择、数据属性的选择以及相应的数据转换操作;绿色部分大致对应图4中的可视化空间的操作,负责可视化映射和演染绘图的相关参数指定.不难发现,低级可视化查询语言需要用户指定较多的参数,学习和使用的门槛较高.高级可视化查询语言对口J视化过程做了较多的封装,用户需要指定的参数较少,易用性较高.图6(b)给出了Vega-1.iie可视化查询语言的示例,可以发现Vega-1.ite的语法比低级语言Vega更加简洁,用更少的参数可以实现同样的可视化.Vega-1.ite查询语言设计的核心是将可视化过程描述为从数据到图形标记的映射,这些映射方式由用户指定.COmPaSSQiJ网的语法规则与Vega-1.ite相似,但CompassQ1.是面向可视化推荐的查询语言,其核心是将可视化过程看成是推荐过程,即允许用户不指定具体的映射方式,由COmPaSSQ1.根据推理策略去推荐合适的映射方式.本文将在第4.2节详细介绍CompassQ1.vtukunda:-whie.heW:150.<b3':II,n三t:"mwvcw0".r:Mdaicors.jsonM.'formal*-(*ypcFr,CSfbrttr:I»pc:摩夕W-HrOUPby':,*O11si11).<*":I"coun,H<ld*:Inull1.仙.1I-一euci”Imi:Ii“nonw":"11>ari,.'f11*m':IIj:"M>4r<vX,w<ter:"pd”“"fill":|fcvlet4c78S.ariaRlcDccriphon'*:*value":bar*).':Iclefc:'e.*eldfc:Origin"J.wih:Ikr*.C.h*nd,:Ihy:I*(CAe*:V,"11eld-(joimhJ.y2:Ie5calce:y.-valuee:0,ch:15«.'dM<:("vr:"djrgj%""mark":"b>r.*odinc:">!fkl<:Qri,>.VH嗜We”:acM.i>e:"NwnberofCnt-VSn1.三JUedBfHgOdoJngOOOO)oO505052211SJ6JoJdqIUnN(八)VCga可视化查询语言(b)Vcga-1.itc可视化杳询语言(OTabIeaU可视化系统界面图6可视化查询语言示例为了方便普通用户进行数据的可视化分析,研究人员开发了基于图形化界面的可视化系统.可视化系统可以图形化交互组件来帮助用户通过交互式或者系统推荐的方式生成可视化结果,以辅助用户从数据中获取数据洞察(insights).如图6(c)所示,展示了TabIeaU网可视化系统的操作界面,用户在蓝色区域进行数据空间的操作,在绿色区域指定可视化空间的参数.Tableau为用户提供了基于点击和拖拽的交互界面,让用户可以不用写代码就能完成可视化.根据用户的参与程度和系统的智能化程度,图5将可视化系统分为用户创建类和智能推荐类.对于用户创建类的系统,常见的有GOOgleSheetS阎、Excel,27kManyEyes1281.DatainUStratoN冽、1.yram3"、APTl32噂.以EXCeI为例,这类系统在用户选择用于可视化的数据行和列之后,霜要用户选择系统提供的可视化模板,生成对应的可视化结果.如果用户还需要对数据进行如分组和聚集操作,则需要用户在可视化之前就完成好相应的数据处理操作.对于智能推荐类的系统,常见的有TabIeaU冈、QuickSight133UQl理刈、Zenvisage123KDeepEye,53536kVoyager2卬1等,这些系统的智能化程度比较高,可以基于当前数据的特征,自动地完成数据转换(如聚集)和可视化映射.概括来说,这类系统可以从数据特征、领域知识、用户意图等多个方面综合分析,自动地推荐给定数据集的有意义的可视化结果.本文将这类技术概括为智能数据可视化技术,并在第4节展开介绍智能数据可视化技术.2.3可视分析与自动数据分析可视分析的核心目标就是通过人机协作,使用自动化或者交互式的数据分析手段,以可视化为人机交互媒介,从数据集中进行知识发现,从而指导用户进行科学决策.在过去30余年间,学术界涌现出了许多经典的可视化和可视分析流程参考模型1387这*从朴Wqie极化和析的人机幺Et.HaberW38I在1990年提出了可视化的流程概念模型,该线性模型通过3个步骤(数据浓缩/增强、可视化映射和渲染)来概括从数据到可视化的关键过程.Pirolli等人网提出了信息觅食(informationforaging)理论,该理论可以解糅可视分析中人机交互的机理.基于上述理论,Card等人网在1999年提出了一个循环模型来表示可视化和可视分析生命周期中用户与可视化循环迭代的关键步骤.对于创建具体的可视化对象,MUnZnerHn提出了一个用于设计和验证可视化的嵌套模型.步入21世纪,可视分析与机器学习等自动数据分析技术的结合越来越密切,Keim等人网提出了一个可视分析的交互模型,该模型重点概括了可视分析工作流中机器算法和用户各自扮演的角色以及协同模式.因为智能数据可视分析高度依赖机器算法以及用户交互,为了更好地诠释数据可视分析与自动数据分析直接的关联与区别,本文基于Keim等人网提出的可视分析的工作流程,给出从数据源到知识指导的科学决策全周期的可视分析流程示意图,包含了可视分析流程的每个步骤以及可视分析与基于模型的数据分析的内在关联,如图7所示,其起点是数据源,终点是基于分析结果的科学决策.从数据到决策有两条路径:即数据可视分析和自动数据分析.数据可视分析从数据到可视化的过程基本遵循了图1所示的可视化工作流.用户通过与可视化结果进行交互,从中挖掘出有用的知识.自动数据分析主要是依赖模型自动地挖掘数据中蕴含的知识和规律,以指导用户进行科学决策.基手模型的自动数据分析的经典案例是“啤酒与尿布的故事”,即对用户购物的历史数据进行分析,发现大量用户经常同时购买尿布和啤酒这两个看似不相关的商品,进而指导商场将尿布和啤酒两个货架摆放在较近的位置.数据可视分析自动数据分析数据转换可视化用户交互数据源数据准箭三1S-Sj数据反馈循环模型调参知识发现模型可视化结果可视化9模型优化模5!构建图7可视分析和自动数据分析的联系数据可视分析和自动数据分析并不是对立的.实际上,在现实的数据分析工作流中,用户经常需要在数据可视分析和自动数据分析两个工作流中进行切换和迭代循环.如图7中的和所示,对于两个分析工作流的中间结果,从可视化的视角出发(),可以通过对自动数据分析工作流构建的数据模型进行可视化,以帮助用户通过可视化结果交互式地去改进模型的参数,优化自动数据分析的质量.从模型的视角出发(),可以将模型的分析结果进行可视化,用户通过对可视化结果进行分析,一方面,可以从中挖掘出有价值的知识;另一方面,也可以提前发现自动数据分析工作流的错误结果.因此,现代数据分析工具通常需要将数据可视分析和自动数据分析两个工作流进行有机融合,用户可以依据当前数据分析的需求,从两个工作流中进行无缝切换衔接.随着人工智能技术的迅猛发展,虽然可以通过深度学习等技术进行部分任务的自动数据分析,但是在很多复杂的场景下,人对复杂知识的理解和建模依然是优于机器穿法.因此,在数据分析中.人依然是数据分析工作流的核心要素,即以人为本的数据分析,一些机器智能穿法和工具的作用是增强人的能力而不是完全取代人.3面向可视分析的数据准备数据准备是数据分析流程中的重要阶段,数据准备包括数据获取、数据融合、数据清洗等步骤.数据准备的过程是非常繁杂的,需要耗费大量的人力和时间.研究和实践表明,数据科学家通常需要花约80%的时间来准备数据这表明数据准备代价高的特点.此外,数据准备还涉及对原数据集进行数据增强和数据清洗,可以缓解分析维度不全面和分析结果对数据质量较敏感的挑战,如图8所示.针对上述讨论,研究者们通过考虑可视分析流程的特性,研究面向可视分析的数据准备算法147-阳和系统-网,以河川F*被螭%皎扰,OHeaWMM吊/现有挑战数据准备代价高分析维度不全面数据侦盘较敏感:应对分析意图疆动的数据获取原始数据分类意图IGAN筑域知识指导的数据用强分析质见盛知的数据消洗增强方式行扩充知识图谱jyl¾T11msfor11wr列扩充数据湖清洗方式I清洗手段查询感知人机结合全集数露机器兑法用于可视分析的数据面向可视分析的数据准备图8面向可视分析的数据准备在这些数据准备工作中,有部分是专门面向下游数据可视分析任务进行数据准备的.这些工作结合数据可视分析任务的特点来进行有针对性的数据准备,从而达到更加高效、有效的数据可视分析.概括来说,面向数据可视分析的数据准备的基本思想可以分为:(1)分析意图驱动的数据获取:用户的原始数据集可能是很大的,而用户可能只对其中的小部分数据感兴趣.在这种情况下,对所有的数据进行可视分析不仅会耗费大量的时间,还会获得不准确的分析结果.因此,针对用户可视分析意图对数据进行筛选,然后对筛选后得到的满足一定条件的数据进行数据准备可以大大地提高可视分析的效率;针对用户可视分析数据获取难的数据生成:进行数据可视分析的第一步是获取数据.然而很多公司和机构产生的数据涉及大量的用户隐私信息,比如用户姓名、电话号码、电子邮箱、家庭住址等.为了保护用户隐私,这些公司和机构不会将真实数据公之于众.这为用户进行数据可视分析带来了极大的困难.因此,生成可供用户进行数据可视分析的数据是一个非常重要的问题.(2)领域知识指导的数据增强:用户在数据可视分析中,试图发现一些有趣的现象,并对其进行解释.数据扩充可以为原始数据增加更多的列(即属性)或行(即记录),从而丰富可视分析的维度,可获得更多有意义的分析结论.例如,如果为国家数据集添加人口数和面积属性,则可以对国家总人口数和平均面积人口数等进行分析;如果为论文数据集添加论文发表机构的世界排名,则可以对论文的引用数和机构世界排名进行一些相关性分析;如果为一个航班延迟数据集添加天气数据,则可以进一步挖掘航班延误和天气之间的关系;(3)分析质量感知的数据清洗:可视化和可视分析结果的质量与数据密切相关,数据错误可能会导致可视化结果出现偏差,从而误导用户得出错误的结论.相较于直接使用通用的数据清洗算法检测和修复数据全集的错误,分析质量感知的数据清洗旨在考虑用户的可视分析查询,只检测和清洗与可视化和可视分析结果高度相关的数据子集,从而实现降低数据清洗的代价并提高可视分析结果的质量.接下来,本节将详细介绍面向数据可视分析的数据准备如何基于上述思想进行数据获取(第3.1节)、数据增强(第3.2节)和数据清洗(第3.3节),如图8所示.3.1 分析意图驱动的数据获取在进行数据可视分析之前,首先要获取数据.相关工作可以分为两类:数据探索,即获取满足用户可视分析意图的数据5355-57J.',抽WJf皱电电以如化故叫47.50-52.60.AIDEl制可以帮助用户找到满足可视分析意图的、感兴趣的数据.在对原始数据按照用户可视分析意图进行筛选后,用户可以专注于可视分析自己感兴趣的数据.AIDE认为用户的分析意图可以用一个SQ1.查询Q来表示,Q的查询结果即为满足用户分析意图的数据.AIDE根据用户标注的数据来预测Q,然后将Q的查询结果返回给用户,用户可以在AIDE返回的数据上进行进一步的可视分析.AIDE为用户提供原始数据中的若干元组供用户标注,用户可以将这些元组标注为“真''或"假”:如果该元组满足用户的分析意图(即用户对该元组感兴趣),用户将该元组标注为“真”;如果该元组不满足用户的分析意图(即用户对该元组不感兴趣),用户将该元组标注为“假基于用户的标注数据,AIDE训练一个二分类(决策树)模型,原始数据中被该模型预测为真的元组即为满足用户分析意图的数据.需要注意的是,用户标注的数据是由系统提供的,且用户标注的数据量是很小的,因为标注数据往往需要耗费较大的人力代价.因此,选择哪些元组供用户标注以获得最好的标注效益(即在标注少量数据的情况下就可以准确预测用户的分析意图)是一个重要的问题.主动学习(activeIearning)俗”技术可以用来选择训练数据,从而快速训练得到性能较好的机器学习模型.主动学习中经常选择具有高多样性图W和高模型不确定性网3的数据供用户标注,以最小化用户标注代价.AIDE选择数据空间中具有代表性的数据点供用户标注.与AIDEEI类似,DEXPk)rer5577也可以帮助用户获取满足用户可视分析意图的、感兴趣的数据,同时,DExPlorer还可以将这些数据按照用户感兴趣程度的高低进行排序.例如,考虑一个二手车数据集,用户想要获取满足一定品牌、型号、里程数的汽车,并将满足条件的二手车按照价格和马力的某种组合进行排序,比如按照线性函数-0.018XPriCe+0.982XPoWerPS对二手车进行排序,即用户想要价格较低、马力较高的二手车.DExPlorer可以帮助用户获取满足上述条件的二手车,并将这些二手车按照用户心中隐含的排序意图进行排序.与AIDE类似,在DExPlorer中,用户也需要对数据进行标注,然后DExPiorer根据用户的标注数据预测用户的分析意图和排序意图.如图9所示,DExPlorer系统由前端和后端两部分组成.(1)前端:DExPlorer的前端为用户展示一个包含k个元组的列表,用户对列表中的元组进行标注.由于DExPIorer不仅要找到满足用户分析意图的数据,还要将这些数据进行排序,因此DExPIorer不仅要求用户提供真假标注,还需要用户提供偏序标注.真假标注:用户需要标注列表中元组的“真假”,即将满足用户分析意图的元组标注为真,将不满足用户分析意图的元组标注为假;偏序标注:用户需要对标注为真的元组按照感兴趣程度的高低进行排序,即将更感兴趣的元组排在靠前的位置.用户的真假标注和偏序标注结果将会传至后端.图9DExPlorer:分析意图驱动的数据获取(2)后端:DExPlorer的后端接收来自前端的标注数据,根据这些标注数据训练机器学习模型,从而进行答案推埋(即预测满足用户可视分析意图的数据,并将这些数据按照用户感兴趣程度排序)和元组选择(即选择下轮要标注的元组).答案推理:DExPIorer训练二分类(随机森林)模型来预测满足用户可视分析意图的数据.以及RankingSVM模型来对这些数据进行排序;元组选择:不同于传统的仅考虑不确定性或者多样性的主动学习方法,DEXPlOrer既考虑了分类模型和排序模型的不确定性,又考虑了标注列表中包含的k个元组之间的多样性.然而,最大化元组不确定性和多样性的元组选择问题是个NP难问题,因此论文提出了基于动态规划的启发式算法来快速解决此问题.在很多情况下,为了保护用户的隐私信息,相关公司和机构不会公布其所拥有的数据,这导致数据分析师无法获取数据进行相应的分析.因而,许多工作H¥82皿6用致力于生成与真实数据相似的数据,生成的数据可以用于一系列下游应用,比如,可视化、机器学习、SQ1.查询等.近年来,有一些工作W刖“刈尝试使用深度生成对抗网络(generativeadversarialnetwork,GAN)来生成关系型数据.这些工作首先训练GAN模型来学习真实数据的分布,然后使用GAN的生成器来生成与真实数据分布相似的新数据.GAN模型由两部分组成:生成器G和判别器D.生成器G接收一个随机噪音,然后神经网络(比如全连接神经网络、卷积神经网络、长短期记忆网络等)将该噪音转换为一个元组,神经网络的不同神经元的输出对应元组的不同属性;判别器。是一个二分类模型,可以判断一个元组是真实存在的还是由生成器生成的G企图生成被D认为是真实元组的元组,D则试图正确区分真实元组和由G生成的元组,因此G和D的训练过程是个不断时抗的过程.当G和。达到均衡状态时,GAN模型训练完毕,此时GAN的生成器G可以用来生成新的数据.基于GAN的关系数据生成方法H¥。国横1可以生成与真实数据分布非常相似的数据,但由于其训练数据是真实数据,所以很可能泄露真实数据的隐