空间数据分析.ppt
第七章 空间数据分析,空间对象的特征值空间关系分析空间查询空间统计分析空间插值空间数据挖掘,本章提要,第七章 空间数据分析,作业,几何形态空间分布,空间对象的特征值,返回,长度曲率面积形状坡度和坡向剖面积,几何形态,back,长度,矢量数据:,长度,栅格数据:,back2,反映的是曲线局部的弯曲特征,其含义是曲线切线方向角相对于弧长的转动率。,曲率,曲率的含义:,曲率,曲率的计算公式:,曲率,事故多发路段,请谨慎驾驶!,back2,在矢量结构下,面状地物是以其轮廓边界弧段构成的多边形表示的。,面积,面积,back2,形状,面状地物的形状量测主要是从空间完整性和外观描述两个方面进行。,Eu=4-(1-1)=4,Eu=4-(2-1)=3,Eu=5-(3-1)=3,形状,不规则面状地物外观描述从多个角度运用多种指标进行。大多数指标是基于面积和周长的,常用的指标包括形状系数(r)等。,形状,back2,坡度和坡向,坡度的含义:,坡面的垂直高度(h)和水平宽度(l)的比叫做坡度。,h,l,坡度和坡向,坡向的含义:,坡面法线在水平面上的投影的方向。,h,l,back2,剖面积,剖面积的计算公式:,根据工程设计的线路,计算地形剖面与DEM各格网边交点pi(xi,yi,zi)。,back2,空间分布,空间分布类型分布密度质心点模式网络测度指标,空间分布类型,空间分布,分布密度的含义:,指单位分布区域内的分布对象的数量。例:1.某地区汽车加油站的密度加油站数/总公里路程2.某地区森林覆盖率森林面积/地区总面积3.某省人口密度人口数/该省总面积,空间分布,质心的含义:,质心可概略表示分布总体的位置,是目标保持均匀分布的平衡点,可通过对目标坐标值加权平均求得。计算公式:,空间分布,其中:xi,yi为i个离散点的坐标 n为目标个数,点模式:,点模式的空间分布是一种比较常见的状态,如不同区域内的人口、房屋、城市分布,油田区的油井分布等。通常,点模式的描述参数有分布密度、分布中心、分布轴线、离散度等。,均匀分布 随机分布 聚集分布三种点模式,空间分布,点群类型指标:,样方的统计量x2,均一点模式是根据均一的子区域之间的关系定义的,这种子区域称为较大区域的样方。如果每个均一的样方包含相同数量的点对象,则整个研究区分布具有均一性,这种检验分布性的标准型方法称为样方分析,其公式表示为,空间分布,Q每个样方中实际观测到的点数;E每个样方中期望的分布值。,最近邻指数R含义:,点群类型指标:,空间分布,R为点群的平均最邻近距离与随机分布平均距离之比。,n为样方数,A为研究区的面积。,如果R=l,则点群的分布是标准的泊松分布;如果Rl,R越大,则点群越趋近均匀分布。,网络测度指标:,对于任何一个网络图,都存在着三种共同的基础指标:连线(边或弧)数目m;结点(顶点)数目n;网络中,亚网图的数目p。由它们可以产生如下几个更为一般性的测度指标:,空间分布,指数指数指数,(1)指数含义:指数线点率,是网络内每一个节点的平均连线数目。,网络测度指标:,空间分布,=0,表示无网络存在;网络的复杂性增加,则值也增大。,(2)a 指数含义:,空间分布,网络测度指标:,实际回路数与网络内可能存在的最大回路数之间的比率。,网络内可能存在的最大回路数目为连线的最大可能数目减去最低限度连接的连线数目,即,所以,a 指数为,a指数的变化范围,一般介于0,1区间,a 0意味着网络中不存在回路;a 1,说明网络中已达到最大限度的回路数目.,(3)指数含义:,空间分布,网络测度指标:,=m/3(n-2p),指数是测度网络连通性的一种度量指标,其数值变化范围为01。=0表示网络内无连线,只有孤立点存在;=1表示网络内每一个结点都存在与其他所有结点相连的连线。指数及其倒数也被称为连通度指数。,指数是网络内连线的实际观察数与连线可能存在的最大数目之间的比率,即,back,1 邻近度分析2 网络分析3 叠置分析,空间关系,返回,邻近度(Proximity)描述了地理空间中两个地物距离相近的程度,其确定是空间分析的一个重要手段。,邻近度分析,邻近度(Proximity)含义:,交通沿线或河流沿线的地物有其独特的重要性,公共设施的服务半径,大型水库建设引起的搬迁,铁路、公路以及航运河道对其所穿过区域经济的发展的重要性等,均是一个邻近度问题。,距离缓冲区分析泰森多边形分析,邻近度分析,邻近度(Proximity)包括:,距离,“距离”含义:,人们日常生活中经常涉及到的概念,它描述了两个事物或实体之间的远近程度。,当k=2时,就是欧氏距离计算公式。当k=1时,得到的距离称为曼哈顿距离。,“距离”:,距离,是指为了识别某一地理实体或空间物体对其周围地物的影响度而在其周围建立的具有一定宽度的带状区域。所谓缓冲区(buffer)就是在点、线、面等空间实体周围建立的一定宽度的多边形,可以用来分析地理空间目标的影响范围或服务范围。,缓冲区(buffer)含义:,缓冲区分析,是对一组或一类地物按缓冲的距离条件,建立缓冲区多边形,然后将这一图层与需要进行缓冲区分析的图层进行叠加分析,得到所需结果的一种空间分析方法。,缓冲区分析含义:,缓冲区分析,道路中心线,按道路中心线100米生成缓冲区,缓冲区分析,缓冲区分析,缓冲区分析的基本思想:,从数学的角度看,缓冲区分析的基本思想是给定一个空间对象或集合,确定它们的邻域,邻域的大小由邻域半径R决定。因此对象Oi的缓冲区定义为:,对象集合:,缓冲区分析,(*)缓冲区计算的基本问题是双线问题。双线问题有很多另外的名称,如图形加粗,加宽线,中心线扩张等,它们指的都是相同的操作。1)角分线法(*)双线问题最简单的方法是角分线法(简单平行线法)。,缓冲区分析,2)凸角圆弧法(*)在轴线首尾点处,作轴线的垂线并按双线和缓冲区半径截出左右边线起止点;在轴线其它转折点处,首先判断该点的凸凹性,在凸侧用圆弧弥合,在凹侧则用前后两邻边平行线的交点生成对应顶点。这样外角以圆弧连接,内角直接连接,线段端点以半圆封闭。,邻域半径R即缓冲距离(宽度),是缓冲区分析的主要数量指标,可以是常数或变量。,(b)环状缓冲区,(a)不同宽度缓冲区,缓冲区分析,栅格数据缓冲区的建立方法(*),缓冲区分析,栅格数据的缓冲区分析通常称为推移或扩散(Spread),推移或扩散实际上是模拟主体对邻近对象的作用过程,物体在主体的作用下沿着一定的阻力表面移动或扩散,距离主体越远所受到的作用力越弱。,back,网络分析含义(*):,网络分析,通过研究网络的状态以及模拟和分析资源在网络上的流动和分配情况,对网络结构及其资源等的优化问题进行研究的一种空间分析方法。,网络分析的理论基础是图论和运筹学。,是指由点集合V和V中点与点之间的连线的集合E构成的二元组(V,E)。V 中的元素称为结点,E 中的元素称为边。,网络分析,图论中的“图”含义:,图论中所研究的图是由实际问题抽象出来的逻辑关系图,图中点和线的位置与曲直无关紧要,点的多少和每条线是连接哪些点才是关键。,网络分析,图论中的“图”:,两个端点重合的边称为环。如果有两条边的端点是同一对顶点,则称这两条边为(多)重边。既没有环也没有重边的图,称为简单图。如果图中的边是有向的,则称为有向图,其中的边叫做弧。在无向图中,首尾相接的一串边的集合叫做路。如果一个图中,任意两个结点之间都存在一个路,则称之为连通图。起点和终点为同一个结点的路称为回路(或圈)。如果一个连通图中不存在任何回路,则称为树。任意一个连通图,去掉一些边后形成的树叫做连通图的生成树。,网络分析,图论中的“图”:,给定一个图,图中的每一条边赋以一个实数,称这种数为边的权数,称这种图为赋权图。赋以权数的有向图称为赋权有向图,也可称之为网络。,网络分析,图论中的“图”:,关联矩阵 中,每行对应图的一个节点,每列对应图的一条弧。如果一个节点是一条弧的起点,则关联矩阵中对应的元素为1;如果一个节点是一条弧的终点,则关联矩阵中对应的元素为1;如果一个节点与一条弧不关联,则关联矩阵中对应的元素为0。,网络分析,关联矩阵与邻接矩阵:,邻接矩阵 用来表示图中任意两点间的邻接关系及其权值。如果两点间有一条弧,则邻接矩阵中对应的元素为 1;否则为 0(也可用表示两点间无任何连接关系),邻接矩阵为对称矩阵。对于加权图的邻接矩阵表示,一条弧所对应的元素不再是1,而是相应的权值。,网络分析,关联矩阵与邻接矩阵:,最佳路径分析也称最优路径分析,以最短路径分析为主。这里“最佳”包含很多含义,不仅指一般地理意义上的距离最短,还可以是成本最少、耗费时间最短、资源流量(容量)最大、线路利用率最高等标准。无论判断标准和实际问题中的约束条件如何变化,其核心实现方法都是最短路径算法。,网络分析,最短路径分析:,Dijkstra算法:,网络分析,最短路径分析:,Dijkstra算法是比较经典和有效的求解最短路径问题的方法。这个方法的一个突出优点是,它不仅求出了起点到终点的最短路径及其长度,而且求出了起点到图中其他各个顶点的最短路径及其长度。,网络分析,最短路径分析:,1)用带权的邻接矩阵cost来表示带权的n个结点的有向图,cost i,j表示弧的权值,如果从vi到vj不连通,则costi,j=。,Dijkstra算法描述:,网络分析,最短路径分析:,Dijkstra算法描述:,然后,引进一个辅助向量Dist,每个分量Disti表示从起始点到每个终点vi的最短路径长度。假定起始点在有向图中的序号为i0,并设定该向量的初始值为:Disti=Costi0,i viV。,网络分析,最短路径分析:,Dijkstra算法描述:,令S为已经找到的从起点出发的最短路径的终点的集合。2)选择Vj,使得Distj=Min Disti|ViV-S viVvj就是当前求得的一条从vi0出发的最短路径的终点,令S=Svj3)修改从vi0出发到集合V-S中任意一顶点vk的最短路径长度。如果Distj+Costj,kDistk则修改Distk为:Distk=Distj+Costj,k,网络分析,最短路径分析:,Dijkstra算法描述:,4)重复第2、3步操作共n-1次,由此求得从vi0出发的到图上各个顶点的最短路径是依路径长度递增的序列。,网络分析,最短路径分析:,Dijkstra算法描述:,网络分析,选址问题:,中心点选址问题含义:,中心点选址问题是使最佳选址位置所在的顶点与图中其他顶点之间的最大距离达到最小。,网络分析,选址问题:,中位点选址问题含义:,是使最佳选址位置所在的顶点到网络图中其他顶点的距离(亦可以是加权距离)总和达到最小。,back,叠置分析,叠置分析含义:,将同一地区、同一比例尺、同一数学基础、不同信息表达的两组或多组专题要素图层,进行叠置产生一个新数据层面的操作,其结果综合了原来两层或多层要素所具有的属性。叠置分析是非常有效的提取隐含信息的工具。,按叠置分析中输入数据层的不同,矢量图层叠置又可以分为三种类型:,叠置分析,1)多边形叠置,这个过程是将两层中的多边形要素叠置,产生输出层中的新多边形要素,同时它们的属性也将联系起来,以满足建立分析模型的需要。多边形叠置可以按Union、Intersect、Identity等不同运算方式进行。,UNION(并集)INTERSECT(交集)IDENTITY(叠和,并集被第一个输入层边界裁切后剩余部分),按叠置分析中输入数据层的不同,矢量图层叠置又可以分为三种类型:,叠置分析,1)多边形叠置,叠置过程可分为几何求交和属性分配两步。几何求交的过程中间可能产生碎屑多边形(Sliver Polygon),可以设定一定的模糊容限消除它;属性分配就是将输入的不同层属性传递给输出层。,空间多边形叠置(UNION 并集),叠置分析,空间多边形叠置(INTERSECT 交集),叠置分析,空间多边形叠置(IDENTITY 交补集),叠置分析,2)点与多边形叠置,叠置分析,点与多边形的叠加分析,实质是计算包含关系(包含分析),判断各个点的归属(落在哪个多边形内)。叠置的结果是为每点产生一个新的属性。例如,井位与规划区叠加,可找到包含每个井的区域。,3)线与多边形叠置,叠置分析,线与多边形的叠置,是比较线上坐标与多边形坐标的关系,判断线是否落在多边形内。根据叠置的结果可以确定每条弧段落在哪个多边形内,可以查询指定多边形内指定线穿过的长度。,4)栅格图层叠置,叠置分析,栅格数据的叠置分析主要是通过栅格数据之间的各种计算来进行的。这种基于数学运算的数据的叠置运算,在地理信息系统中称为地图代数。,地图代数含义:,4)栅格图层叠置,叠置分析,(1)基于常数对数据层面进行的代数运算;(2)基于数学变换对数据层面进行的数学变换(指数、对数、三角变换等);(3)多个数据层面的代数运算(加、减、乘、除、乘方等)和逻辑运算(与、或、非、异或等)。,地图代数可分为3种不同的类型:,4)栅格图层叠置,叠置分析,back,A,B,C,D=A+B+C,E=|A-B|,F=D-E,空间查询主要包括:图形查属性、属性查图形、图形与属性混合查询等。,空间查询,百度地图上查询电子科技大学清水河校区,空间查询,点查询含义:,空间查询,范围查询(区域查询,Regional Query)含义:,是给定一个查询点,查询所有包含该点的空间对象。,是给定一个查询多边形,查询所有与之相交的空间对象。当查询多边形是一个矩形时,也称为窗口查询(Window Query)。,属性查询SQL查询GIS软件通常支持标准的SQL查询语言。标准SQL查询语言是Select 需显示的属性项From 属性表Where 条件or 条件and 条件,空间查询,属性查询SQL查询,空间查询,返回,空间统计分析,即空间数据(Spatial Data)的统计分析,其核心就是认识与地理位置相关的数据间的空间依赖、空间关联或空间自相关,通过空间位置建立数据间的统计关系。,空间统计分析,空间统计分析含义:,1 相关分析2 回归分析3 主成分分析4 判别分析5 空间统计学,1相关分析,空间要素之间的相关性分析的任务是揭示空间要素之间相互关系的密切程度。空间要素之间相互关系的密切程度的测定,主要是通过对各种相关系数的计算和检验来完成。,空间统计分析,线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。正相关:如果x,y变化的方向一致,如身高与体重的关系,r0;一般地,|r|0.95 存在显著性相关;|r|0.8 高度相关;|r|0.3 关系极弱,认为不相关。,空间统计分析,1 相关分析,偏相关分析,偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。相关分析能够检验两个变量的相关程度,并通过相关系数的正负号判断相关的方向。,空间统计分析,2 回归分析含义:,回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。,空间统计分析,主成分分析是把原来多个变量化为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。假定有n个地理样本,每个样本共有p个变量描述,这样就构成了一个np阶的地理数据矩阵:,3 主成分分析的基本原理:,空间统计分析,如何从这么多变量的数据中抓住地理事物的内在规律性呢?最简单的形式就是取原来变量指标的线性组合,适当调整组合系数,使新的变量指标之间相互独立且代表性最好。如果记原来的变量指标为x1,x2,xp,它们的综合指标新变量指标为z1,z2,zm(mp)。则,空间统计分析,3 主成分分析的基本原理:,这样决定的新变量指标z1,z2,zm分别称为原变量指标x1,x2,xp的第一,第二,第m主成分。其中,z1在总方差中占的比例最大,z2,z3,zm的方差依次递减。在实际问题的分析中,常挑选前几个最大的主成分,这样既减少了变量的数目,又抓住了主要矛盾,简化了变量之间的关系。,空间统计分析,3 主成分分析的基本原理:,返回,空间插值,1 边界内插方法2 趋势面分析3 泰森多边形方法4 加权移动平均法5 样条函数插值方法6 克里金插值,空间插值,4 加权移动平均法,加权移动平均方法利用插值点周围样点的数值来计算插值点的数值。,空间插值,5 样条函数插值方法,样条函数是一类分段(片)光滑、并且在各段交接处也有一定光滑性的函数。,空间插值,前面介绍的几个插值方法对影响插值效果的一些敏感性问题仍没有得到很好的解决,例如趋势面分析的控制参数和距离倒数插值方法的权重对结果影响很大,这些问题包括:,6 克里金插值,(1)需要计算平均值数据点的数目;(2)搜索数据点的邻域大小、方向和形状如何确定;(3)有没有比计算简单距离函数更好的估计权重系数的方法;(4)与插值有关的误差问题。,空间插值,普通克里金包括点克里金和块克里金方法。,6 克里金插值,点克里金插值的公式与加权移动插值方法类似:,与加权移动插值方法不同,它不是按一种固定的函数计算权重i,而是按采样点数据的半方差图的统计分析原理计算i。,空间插值,克里金点模型的插值与原始样本的容量有关,当样本少的情况下,采用简单的点常规克里金插值的内插结果图会出现明显的凹凸现象。,6 克里金插值,点克里金插值缺点:,块克里金插值优点:,块克里金插值估算的方差结果常常小于点克里金插值,生成的平滑插值表面不会发生点模型的凹凸现象,最常用的用途是绘制等值线图。,返回,为什么要有空间数据仓库?,空间数据挖掘,面对空间数据堆积越来越庞大的环境,各级管理者和指挥人员需要从大量复杂的空间数据中获取各自权限内的决策信息,从而作出正确有效的判断和决策。从各级决策者的角度讲,空间数据处理的重点应该从传统的操作型扩展到空间数据的联机分析处理(On-Line Analytical Processing,OLAP)或分析型(信息型)。,什么是空间数据仓库?,空间数据挖掘,数据仓库的创始人WHInmon曾经给数据仓库(DW)下过一个定义。空间数据仓库是面向主题的、集成的、随时间变化的、并且是非易失性的空间和非空间数据的集合,用于支持空间数据挖掘和空间数据有关的决策过程。,空间数据仓库与空间数据库,空间数据挖掘,什么是空间数据挖掘?,或者称为“从空间数据库中发现知识”(knowledge discovery from Spatial Database),是指从空间数据库中提取隐含的、用户感兴趣的空间或非空间的模式和普遍特征的过程。,空间数据挖掘,空间数据挖掘与知识发现的关系,空间数据挖掘,空间数据挖掘与OLAP的关系,一种观点,认为OLAP和数据挖掘是不交的。OLAP是数据汇总/聚集工具,它帮助简化数据分析;而数据挖掘自动发现隐藏在大量数据中的隐含模式和有趣知识。OLAP工具的目标是简化和支持交互数据分析,而数据挖掘的目标是尽可能自动处理,尽管允许用户指导这一过程。,空间数据挖掘,空间数据挖掘与OLAP的关系,另一种更广泛的观点可能被接受:数据挖掘包含数据描述和数据建模。由于OLAP系统可以提供数据仓库中数据的一般描述,OLAP的功能基本上是用户指挥的汇总和比较。这些尽管有限,但都是数据挖掘功能。同样根据这种观点,数据挖掘要比简单的OLAP操作宽得多,因为它不仅执行数据汇总和比较,而且执行关联,分类,预测,聚类,时间序列分析和其他数据分析任务。,空间数据挖掘,空间数据挖掘的方法,具体方法:1.空间分析方法 2.统计分析方法 3.归纳学习方法 4.聚类与分类方法 5.可视化方法 6.粗集方法 7.云理论,8.空间特征和趋势探测方法 9.数字地图图像分析和模式识别方法 10.探测性的数据分析方法 11.遗传算法12.模糊逻辑13.最近邻技术,空间数据挖掘,GIS中数据挖掘的过程,(1)根据一定的主题要求及相关背景知识,从现有的分布式空间数据库中提取数据并进行分析和处理,形成空间数据仓库;(2)根据确定的任务,选择合适的数据挖掘算法,包括合适的数据模型和参数,从空间数据仓库中挖掘用户所需要的知识信息;,空间数据挖掘,GIS中数据挖掘的过程,(3)对挖掘的知识进行评价,首先对其进行一致性检查,以确定本次挖掘的知识与以前挖掘的知识是否相互抵触。其次,判断受挖掘的知识是否满足要求,以决定是否重复挖掘或者反复挖掘,从而获取更加有效的知识信息;(4)对挖掘所得到的知识信息,通过特定的生动形象的可视化表达工具,以用户能够全面理解的方式呈现给用户。,空间数据挖掘,返回,作业:,一、名词解释曲率欧拉数形状系数坡度坡向剖面积分布密度质心最近邻指数R指数,作业:,一、名词解释a 指数指数(连通度指数)邻近度曼哈顿距离缓冲区图论中的“图”简单图连通图树赋权图,作业:,一、名词解释关联矩阵邻接矩阵中位点选址叠置分析IDENTITY(叠和)地图代数范围查询(区域查询,Regional Query)空间统计分析(偏)相关分析回归分析,作业:,一、名词解释空间数据仓库空间数据挖掘,3/30/2023,102,点、线、面、体4类空间对象各自具有不同的几何形态,可以用哪些不同的评价指标来衡量?矢量数据结构线段长度的计算公式是什么?栅格数据结构线状地物的长度是如何计算的?曲率的计算公式是什么?多边形面积(无空洞)的计算公式是什么?试计算下图的欧拉数?,二、问答题,3/30/2023,103,试计算正方形和圆的形状系数?质心的计算公式是什么?最近邻指数R有何意义?指数有何意义?指数有何意义?试写出下图(有向图)的关联矩阵与邻接矩阵。,二、问答题,3/30/2023,104,缓冲区分析的基本思想的是什么?请描述Dijkstra算法?如下图,试列表写出Dijkstra算法从源点V0到各终点的距离值和最短路径的求解过程。如上图,空间多边形叠和(IDENTITY 交补集)结果是什么?,二、问答题,3/30/2023,105,主成分分析的基本原理是什么?加权移动平均法的原理是什么?与点克里金插值法相比,块克里金插值有何优点?,二、问答题,