2023大数据可视分析技术.docx
《2023大数据可视分析技术.docx》由会员分享,可在线阅读,更多相关《2023大数据可视分析技术.docx(39页珍藏版)》请在课桌文档上搜索。
1、大数据可视化分析技术综述目录大数据可视化分析技术综述11引言32可视化和可视分析概述62.1 可视化62.2 可视化查询语言72.3 可视分析与自动数据分析82.4 可视分析的数据准备92.5 图驱动的数据获取102.6 识指导的数据增强102.7 量感知的数据清洗103.1 分析意图驱动的数据获取103.2 领域知识指导的数据增强123.3 分析质量感知的数据清洗134智能数据可视化144.1 智能数据可视化概述154.2 领域知识指导的数据可视化推荐204.3 数据特征驱动的数据可视化推荐214.4 融合分析意图的数据可视化推荐214.5 基于参考对象的数据可视化推荐224.6 考虑用户偏
2、好的数据可视化推荐234.7 基于混合策略的数据可视化推荐235高效可视分析244.8 能254.9 计算框架255.1 基于高效数据管理的高效可视分析255.2 可视化感知的高效可视分析275.3 人工智能驱动的高效可视分析285.4 基于硬件和计算框架加速的高效可视分析296智能可视分析接口297研究展望与未来趋势387.1 面向可视分析的数据准备387.2 智能数据可视化397.3 高效可视分析397.4 智能可视分析接口397.5 智能可视分析的评测基准407.6 智能可视分析的应用生态408总结401引三随着计算机硬件和大数据处理技术的高速发展,海量数据智能分析的瓶颈已经从“如何快速
3、地处理海量数据”转变为“如何从海量数据中快速有效地挖掘出有价值的信息可视化和可视分析基于人类的视觉感知特性,结合数据分析和人机交互等技术,利用可视化图表去解构复杂数据中蕴含的知识和规律.这种技术贯穿于数据科学的全生命周期,被誉为大数据智能领域的最后一公里,已在许多大数据应用分析场景取得令人瞩目的效果.因此,中国科技创新2030”新一代人工智能”和“大数据”专项都将可视化和可视分析列为大数据智能的关键技术g1.触电如图1所示,传统的可视分析极度依赖用户频繁主动地参与可视分析的全生命周期41标备、叫你3,化限射。f机化以研圉恂户交近.可便分析等舲段,M用户的干般投他”较为,泵段的Wie化程度较低U
4、Mt,传统的可彼分析1宜系维。花可屈分析归门播.故找发着代馅为,文?1.响应归姬居交现楂式效率低酬(战.为了提高可视分析系统的整体效能研究者们M从人工智能和数据管理的视角出发,将人工智能和数据管理技术赋能可视化和可视分析系统,提高系统的智能化程度,进而帮助用户高效地参与可视分析全生命周期的数据准备、可视化、可视分析交互等环节,优化可视分析的人机协作模式,提高可视分析的质量和效率.基于此,智能数据可视分析(intelligentdatavisualizationanalysis)的概念应运而生,其核心思想是“算法赋能”和“以简驭繁二通过数据管理和人工智能技术赋能可视分析的工作流,将传统可视分析工
5、作流中的用户的主动探索和分析变为机器算法的智能辅助探索和分析,降低可视化和可视分析的生产和消费成本,协同优化可视分析全生命周期的数据管理、可视化和可视分析的人机协作模式,致力于辅助用户高效地进行可视分析.从学科关系的视角出发,如图2所示,智能数据可视分析是以数据管理和人工智能技术为支撑,通过人机交互手段进行交互式数据分析,通过可视化手段进行数据的信息解构和分析结果的直观呈现,帮助用户快速地从海量数据中挖掘出有价值的信息.从可视化工作流的视角出发,如图1所示,智能数据可视分析技术可以优化传统可视分析工作流的人机协作模式,提高可视分析的效能.具体而言,智能数据可视分析技术可以优化传统可视分析工作流
6、中的数据准备、可视化生成、大数据高效可视分析和可视分析人机交互接口4个模块.接下来,本文将困绕上述4个模块,展开介绍智能数据可视分析技术.现有挑战数枕布飞大、工1卜”也;Ad改耍析推成本至曲可E)析出口检分4结果不精准交互应花延迟交4q式效忠低分析:应对智能数据可视分析框架面向可视分析的数1准备智能数据可视化高效可视分析,分析意图驱动的数据获取I领域知识指导的数据地兴I分析质n密知的数据清洗I领域知识I数据特征I分析意函1参考对象I用户偏好?昆立镜略1I“r一J.J实时大规KJ溶染菠化感知的数据索引M似另询处理it化?%的故据4样智能可视分析接口渐进式可视化IT咎式可视分析为口JI白嬷酒;搜索
7、Mi交,1卜一rOa智能分析故“发述接U数据不备收据可视化映射旧可视化形式可视化结果治染轮图I数据管理1_!数据可视化据务图数任意可视分析结果可视分析)用户交互交互设计可视分析工作流6A传统可视分析人机协作模式智能可视分析人机协作模式图1N视分析工作流和智能数据可视分析技术框架(1)面向可视分析的数据准备:传统可视化和可视分析工作流中的数据准备工作没有针对可视化和可视分析的特点进行优化,存在数据准备代价高、数据质量较敏感和分析维度不全面的挑战.首先,在数据发现阶段,传统方法没有根据用户的分析任务进行相关数据集/数据元组的发现,从而导致在数据准备阶段融合了大量对可视分析无关或者没有蕴含足够洞察的
8、数据集.加重后续可视分析的负担.其次,在数据清洗阶段,传统方法力求找到数据集中的所有错误并进行清洗,以为后续的可视分析提供高质量的数据集.然而,这种数据清洗方式的代价通常很高.如果在数据准备阶段提前考虑可视分析的意图,即清洗与可视分析查询相关的数据子集,则在降低数据清洗代价的同时还能提高可视分析的质量.此外,如果获取的数据集属性过于单一,通常会导致分析的维度过于局限.因此,可以通过关联相关数据源进行数据增强,丰富可视分析的维度.面向可视分析的数据准备技术旨在运用数据管理和人工智能技术,结合可视化和可视分析的特性,优化可视分析工作流中数据准备阶段的人机协作模式,为用户以低成本的方式准备高质量和语
9、义丰富的数据,以支持高质量的可视化和可视分析.图2智能可视分析内涵(2)智能数据可视化:数据可视化通过可视化图表来解构复杂数据中蕴含的知识和规律.在可视化阶段,概括来说需要解决两大核心的任务为“需要可视化哪些数据(Whaldataisneeded?)”和“以什么样的方式进行数据的可视化(Howtovisualizethedata?)”.传统的可视化方式需要用户在对数据集理解的基础上,选择和过滤出用于生成可视化结果的数据子集,挑选合适的数据维度并进行一系列的数据转换操作(如聚集操作等),最后通过可视化工具将该数据表映射到可视化空间中,渲染生成可视化结果.如果生成的可视化结果不满足可视分析中用户的
10、任务需求,则需要重复上述的若干步骤直到找到用户满意的可视化结果.不难看出,传统的可视化过程通常是循环迭代的.需要用户参与到数据选择、转换和可视化映射等环节,存在可视分析高门槛、交互模式效率低、分析结果不精准和分析维度不全面的挑战.为了解决上述挑战,智能数据可视化技术需要结合用户的分析意图、数据特征、领域知识等,自动地生成和推荐给定数据集中有价值的可视化结果,帮助用户高效地进行可视化和可视分析.(3)高效可视分析:在数据量急剧增长的情况下,受计算能力可扩展性和显示设备局限性的约束,会导致可视分析的交互响应延迟较高.方面,这是由于可视分析系统的数据处理和分析时间较长;另一方面,大规模的数据点难以高
11、效渲染并在有限的显示设备上进行呈现和实时交互.为了解决上述挑战,研究人员从硬件和计算框架、数据管理、人工智能和可视化技术出发研究高效可视分析技术,协同优化可视分析中的数据管理和可视化交互的效率.例如,基于可视化感知的数据索引技术和近似查询处理技术,高效地进行数据组织和处理;利用人工智能技术进行用户交互行为的预测,进行用户分析查询的高效重写和数据预取;基于视觉感知的采样、渐进可视化和实时泡染技术,进行大规模数据的高效演染和实时交互.(4)智能可视分析接口:可视分析接口是用户与系统交互的媒介,一方面,系统需要通过交互接口获得用户可视分析的意图和操作指令.传统的交互方法褥要用户根据可视分析系统的交互
12、设计规则,学习特定系统的交互方式(如编程指令或图形化界面操作方式等),对用户的专业要求技能较高,交互接口的学习成本也较大,存在可视分析门槛高和交互模式效率低的挑战;另一方面,可视分析的结果需要通过交互接口呈现给用户,传统的方法仅仅是将可视分析的碎片化发现直接呈现给用户,需要用户进一步挖掘这些碎片化可视分析结论的内在逻辑关系和因果关系,并进一步整理成可在组织内传播的可视分析报告,存在可视分析结果难消贽的挑战.基于上述讨论,一方面,智能可视分析接口需要为用户提供简单的交互接口(例如基于自然语言查询的接口),并通过智能算法进行用户分析意图的理解和可视分析结果的生成和推荐,降低可视分析系统的使用门援和
13、优化系统的人机协作模式.另一方面,智能可视分析接口还需要基于人工智能技术,自动挖掘可视分析结果之间的内在联系,通过关系挖掘、信息补全、文本生成等技术,基于用户可视分析得到的碎片化结果智能地生成分析式仪表盘和可视分析故事叙述,提高用户整理和共享可视分析结果的效率,从而缓解可视分析结果难消费的挑战.综上所述,智能数据可视分析以人工智能和数据管理技术为支撑,结合可视化和可视分析、人机交互等技术,对可视分析工作流的数据准备、可视化生成、大数据高效可视分析和可视分析人机交互接I14个模块进行协同优化:优化可视分析中数据准备阶段的人机协作模式,以支持用户以低成本的方式准备高质量的分析数据;通过智能可视化手
14、段,自动地生成和推荐数据集中有意义的可视化和可视分析结果给用户,优化可视化的生产模式;基于数据管理和可视化技术提高分析数据的处理效率,以支持海量数据的实时分析和交互;基于数据挖掘、自然语言处理和可视化技术为用户提供问答式可视分析接口,并根据可视分析的结果智能地生成分析式仪表盘和可视分析故事叙述,降低用户利用可视分析结果的代价.综述调查范围:为了更好地对智能数据可视分析的研窕进展进行梳理、总结和分析,本文对30多年来(1984-2022)近200篇论文进行了系统性地梳理、总结和分析.如表1所示,本文主要调查了可视化、数据挖掘和数据管理、人机交互和机器学习领域的主要国际会议和期刊论文.通过对图3(
15、八)论文发表年份变化的观察,会发现所有会议或者期刊随着时间推移论文的总数呈现出稳步上升的趋势.这也说明了智能数据可视分析在未来将会受到持续的关注.图3(b)展示了本文主要章节所调查论文的分布情况,其中可视化与数据挖掘和数据管理领域的相关论文数量最多,由此反映出本文所调态的论文与本文题目的相关性较高,还可以看出各章节对各领域的分析都有所涉及且重点突出.表I本文综述调查范围研究领域会议,期刊可视化和图形学ViSUalization(VIS)IEEEVIS(InfOVis,VAST.SciVis).TVCGEuroVis.PacifkVisTOG.SlGGRAPHCGF数据挖掘和数据管理KDD.SI
16、GMOD.V1.DB.ICDE.TKDE.TheV1.DBJoumalTODS.CIDR.DASFAA.EDBT.Dataminingandmanagement(DMM)IEEEBigData人机交互HUma膜,HerirUen3on陋,UlSTJUI,Hl1.DA.AVI,HCl机器学习Machinelearning(M1.)ICM1.,NeurIPS,CVPR,AC1.,EMN1.P,IJCAI,AAAIOOOZl芟6一EOOEOOzO-Oel-Ooez07二Oe数据可视化和可视分析概述面向可视分析的数据准备智能数据可视化高效可视分析智能可视分析接口(八)论文发表年份分布(b)本文主要章节
17、调隹论文情况图3本文综述调查的研窕论文分布情况.与相关综述性文章的区另JQjnJ4ftftsttrHnIeuawriM(nanK*knsrRWfon-rft化的技术.BaWe等人网也从散射情观的梃角出发zWWtt*.ZhuIO,*爆的数据自动可视化技术Shen人网“W化我孩的相关M丸赳上叫也力门会”2绪.Wung,(lr,X5一、“;J了可用于1可议优效本的机累学冯技工.Wu等人12我利可电化铝曼”打制嫦箭女期.弁机理r如何使用人rw侦技术转班和只用必矣rt.终m.I.沏祕在徒从朝的学“视角出发4域只热w帔依娓可视分析的午涮珈分*叫。一焰.求卡施U括最*城收w.0.因此,东北从可彼化.故州检界
18、总人工智能的视角出发对智能数据可视分析的研究进展进行梳理,希望能够帮助研究者和从业者增强对智能数据可视分析最新进展的了解.本文的主要贡献:首先,本文通过调查近200篇智能可视分析领域的研究工作,总结出智能数据可视分析的4个核心模块,凝练出智能数据可视分析的基本概念和关键技术,揭示了智能数据可视分析和多研究领域的交叉关系.其次,本文系统性地梳理和分析了智能数据可视分析的代表性工作,深入浅出地对各细分领域的研究进行分析讨论,研究者们可以快速地掌握各细分领域的研究进展和机遇.最后,本文还探讨了智能可视分析的发展趋势并为研究者们提供了未来可能的探索方向.本文的组织结构:本文主要讨论关系型数据,基于图1
19、所示的智能数据可视分析框架.本文第2节介绍可视化的基本概念和可视分析的基本流程.第3节介绍面向可视分析的数据准备技术,具体包括分析意图驱动的数据获取、领域知识指导的数据增强和分析质量感知的数据清洗技术.第4节梳理智能数据可视化技术,包括基于融合分析意图的可视化推荐和基于用户偏好的可视化推荐等技术.第5节分析了高效可视分析技术,包括基于高效数据管理的高效可视分析、可视化感知的高效可视分析、人工智能驱动的高效可视分析和基于硬件和计算框架加速的高效可视分析技术.第6节展开介绍智能可视分析接口技术,具体包括问答式可视分析接口和智能分析故事叙述接I1.第7节讨论智能数据可视分析的未来发展趋势和研究机会,
20、并在第8节总结全文.2可视化和可视分析概述为了方便无相关知识背景的读者阅读本文,本节首先介绍可视化的基本概念,并由此引出用于表示和查询可视化的查询语言.最后,本节会阐述以可视化为人机交互媒介的可视分析的基本流程,以及其与自动数据分析的联系和区别.2.1 可视化可视化可以将复杂的数据以可视化图表的信息进行呈现,利用人类视觉感知特性,帮助用户解构复杂数据蕴含的信息、.一个好的可视化结果具有化繁为简和一目了然等特性,可以解构数据中蕴含的复杂信息,高效传达数据知识,引导读者关注到数据的重要特性和赋予读者洞察不同数据侧面的能力.图4形象化地展示了可视化是如何将已经准备好的关系型数据转换成可视化结果.概括
21、来说,可视化是指从给定数据集中,选择合适的数据属性,进行必要的数据转换操作,选择恰当的可视化编码方式,最后渲染绘图将可视化结果呈现出来.如图4所示,本文根据可视化流程中的数据形式,将可视化流程分为数据空间和可视化空间.图4可视化的基本概念示意图可视化结果数据空间对原始数据进行一系列的数据转换操作,如过滤、选择、聚集等,提炼原始数据的主要特性并将原始数据转换成易于可视化的形式.例如,图4中使用了SQ1.查询完成数据转换,该SQ1.查询选择了Cars数据表的Origin屈性,并对该属性进行分组和计数操作,得到转换数据以进行可视化表示.可视化空间将数据映射为合适的可视化形式,以帮助用户直观理解数据蕴
22、含的知识和规律.例如,图4的可视化映射将转换数据映射为柱状图,并将转换数据的Origin和COUNT(Origin)分别映射到柱状图的X轴和丫轴.最后通过渲染绘图,将数据转换为屏幕上显示的可视化结果.2.2 可视化查询语言正如结构化查询语言(structuredquerylanguage,SQ1.)可以方便数据库用户对库内数据进行增、册k改、查操作,可视化的过程也需要相应的查询语言声明式地表示可视化过程中的数据转换和可视化映射等系列工作.本文根据可视化查询语言(ViSUaliZationquerylanguage,VQ1.)的表达程度(expressiveness)和易用程度(ease-of-
23、use)两个维度对主流可视化查询语言进行总结.如图5所示,表达性最高的是图形化编程接口,例如OPenG1.l川、Java2D,51.HTM1.CanVaSI等,这类图形化编程接口可以直接将数据映射到像素空间并渲染显示到屏幕上,是上层声明式可视化查询语言的基础.然而,图形化编程接口也对用户的编程和相关技能有着极高的要求,既需要用户明确指明需要对哪部分数据子集进行何种可视化操作,又需要用户在掌握这些底层编程语言的语法的前提下指明这些操作具体是如何实现的.为了简化可视化的编程难度,陆续出现了一些声明式的可视化查询语言.这些声明式的可视化查询语言封装了底层图形编程接口的具体实现方式,只给用户暴露出了如
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 2023 数据 可视 分析 技术
链接地址:https://www.desk33.com/p-1422993.html