空间数据分析...ppt
《空间数据分析...ppt》由会员分享,可在线阅读,更多相关《空间数据分析...ppt(354页珍藏版)》请在课桌文档上搜索。
1、空间分析的概念与研究进展,1.空间分析的概念 4种相互联系的空间分析概念:空间数据操作,空间数据分析,空间统计分析,空间建模.,1.1空间数据操作 主要应用于GIS中,包括缓冲区分析,距离,路径,面积计算及空间查询1.2空间数据分析,空间数据描述性与探索性分析技术与方法,特别是对规模庞大的数据集,通过数据图形化与地图化的探索性分析,研究数据中潜在的模式,异常等,为 后续分析做准备.1.3空间统计分析 用统计的方法研究空间数据的性质,这种统计方法与传统的统计分析方法不同.,1.4空间建模 建立模型预测空间过程与结果2空间分析的研究进展 线性回归是计量革命的核心技术,于是就出现了计量地理学,但计量
2、地理学主要移植了统计分析方法,如相关分析,回归分析,聚类分析,因子分析,而对空间模式,空间过程,空间相互作用等理论与方法介绍的很少,因此受到了批评.,1970-1980,空间分析方法发展中非常重要的时代,在这一时期围绕地理现象的空间本质或地理数据的空间性质,建立了地理学的空间分析方法与体系.1969年,Tobler提出了地理学第一定理:任何事物都是空间相关的,距离近的事物空间相关性大.Clifford在1973年出版的专著中揭示了空间自相关的概念,展示空间随机条件下如何检验回归误差,并揭示了空间加权矩阵的本质.1981年Ripley对空间点分布模式进行了研究,提出了测度空间点模式的K函数方法,
3、OpenShaw对空间数据中的可塑面积单元问题进行了深入研究,这对正确使用空间数据及解释空间结果意义重大.,Anslin提出描述局部相关性的测度方法与统计量,这一时期空间相关性的空间回归模型与空间自回归模型被提出,导致空间计量经济学的出现.20世纪90年代,空间分析的发展与GIS的发展紧密结合在一起,GIS为空间分析提供了广泛的数据源,空间分析集中体现在以下4个方面:,1)GIS的数据革命极大地促进了空间分析在众多领域的应用.2)数据环境发生了巨大的变化,空间分析需要的海量数据,迫切需要新一代的以数据为驱动的地理探索与建模工具,使分析处理过程中多维复杂性不被忽略.3)高性能计算机的出现,使复杂
4、数据处理的空间分析成为可能.4)神经网络,遗传算法成为空间分析的范例,空间分析的研究内容,1)空间数据模型与地理世界的表示2)探索性空间数据分析与可视化3)空间数据的性质4)空间数据分析的点模式方法5)面数据的空间分析方法与空间回归模型6)空间连续数据的分析方法7)地图代数与栅格数据建模技术,8)地理模型与决策支持,第2章 空间数据的性质,2.1地理世界的概念模型与数据模型 对现实世界进行高度抽象,概括其概念模型,然后建立适应于计算机存储与表示的数据模型.2.1.1地理世界的概念模型,1)离散实体 通过其独特的局部化特征相互区别,通过特定属性的个体被识别,如建筑物,街道等.离散对象观的重要特征
5、是可以计数.维数是离散实体的显著特征,实体自然被抽象为点(只有位置的0维实体),线(具有长度属性的一维实体)和多边形(占据一定面积的2维实体).,点,线与多边形的抽象与研究与空间尺度有关,如大尺度时城市就是一个点,城市为研究对象时就是一个多边形.具有连续变化的自然现象不适合用离散对象方法表示.空间对象的几何形态与属性特征共同构成地理信息的完整信息.属性特征常用表描述,表的一行是一个离散实体,一列是对象一个属性.,离散对象也可以表示连续变化的场,如用等高线表示地形的连续起伏,线的稀疏表示空间变化的剃度.2)连续场(标量场与矢量场)用连续表面描述地理现象的方法叫场的观点,场的观点认为世界被很多变量
6、描述,每一变量在任何可能的位置都是可测量的.连续场描述的是空间-时间框架下地理变量的空间变化.,表示连续世界的空间数据模型都是某种程度的近似,这些模型包括:规则(不规则)的空间点,等值线,规则单元格,不规则三角网,及多边形等.点模型与线模型不能完整地表示场,因为所关心的地理变量的值只存在于特定的点或线的位置上.空间插值的方法将基于点或线的模型转化为基于面的模型,如三角网,多边形.,不规则多边形表示场是经常使用的一种近似技术,如Thiessen多边形.提出及原理:荷兰气候学AHThiessen提出根据离散分布气象站的降雨量计算平均降雨量的方法,即将所有相邻气象站连成三角形,作这些三角形各边的垂直
7、平分线,每个气象站周围的若干垂直平分线便围成一个多边形。用这个多边形内所包含的一个唯一气象站的降雨强度来表示这个多边形区域内的降雨强度,泰森多边形的特性是:1),每个泰森多边形内仅含有一个离散点数据;2),泰森多边形内的点到相应离散点的距离最近;3),位于泰森多边形边上的点到其两边的离 散点的距离相等,2.1.2 GIS空间数据模型-矢量与栅格 离散对象与连续场只考虑了地理现象的概念或方式,不能以数字的形式表示地理数据.1)栅格数据 栅格表示中,地理空间被划分成矩形单元格矩阵,所有的地理变化通过对单元格赋予性质或属性来表示,但单元格内部的细节变化信息都丢失了,单元格有时被称为像素,如遥感影象是
8、典型的栅格数据.,最大份额法:当一个单元格是多个区域的交 叉地域时,单元格中占面积份额最大的区域拥有这个单元格.中心点法:中心点所属区域拥有此单元格.2)矢量数据 矢量数据表示中,所有的线通过点直线连接而成,区域通过一系列点之间的直线连接,用多折线表示曲线.,矢量形式表示的区域:形成区域多边形顶点的 点被获取,此方法表示区域比栅格简单,因栅格表示多边形需列出所有单元格.2.1.3属性数据的测度 地理信息中的属性非常广泛,有的是自然或环境的,有的是社会或经济的,区分属性信息的测度类型很重要.量测层次上将属性数据分为离散尺度或连续尺度,定性的或定量的.,更详细的划分如下:,名义属性:是对地理实体的
9、分类,地理对象的名称是最好的例子,名义属性包括数字,文字,甚至颜色.对数字的名义属性进行运算没有任何意义.序数属性:序数属性的类型存在等级关系,序数属性的算术运算也没有任何意义.如区域收入等级划分.平均数无意义,中位数则有意义.间距属性:一个值对另一个值的差异幅度,而不是该值与真实零点之间的差值,因此数量关系的运算受到限制,加减运算有效,乘除无效.,比率属性:数值与真实零点之间差异幅度的度量,两个比率数值之间的加减乘除运算是有效的,如100Kg人的重量是50Kg人的两倍.空间广延量(面积)与空间强度量(密度).此外还要注意数据的方向与周期.空间数据的性质空间数据的性质直接影响空间分析与建模.,
10、1空间依赖性与空间异质性1.1空间依赖性 空间上距离相近事物的相似性比距离远的事物的相似性大.其含义如下:空间某一位置i,某变量的值与其邻近位置j上的观测值有关,其形式为:,假如地理现象是由一个过程及其表述的环境定义,过程表示现象基本因素的变化,环境表示现象的观测框架(空间与时间),空间依赖性表示环境对过程的重要影响.这样传统统计理论关于独立同分布的假设是不成立的.空间依赖性是通过空间自相关测度的,空间自相关的指标多样,可分为全局测度与局部测度.,全局测度给出研究区域整体的一个参数或指数局部测度提供与数据观测点等量的参数或指数1.2空间异质性 异质性表明空间数据的变化不是平稳的,但在局部其变化
11、可能是一致的,于是就出现了局部模型,但局部模型的应用会增加空间数据分析的误差与不确定性.空间每一点的地理要素之间存在不同的关系:如,都是空间观测数据,如房屋价格与CBD距离关系的空间异质性1.3可塑性面积单元问题与生态缪误 面积单元对分析结果的影响,1)尺度效应:空间单元经聚合改变尺度大小时,空间数据的统计分析结果也会发生变化,且不同聚合方案得到不同的结果.2)划区效应:不同聚合方式对分析结果的影响.可塑性面积单元问题是由区域数量,规模,形状对空间数据分析的影响.,P24有关两种效应的说明MAUP对政治也有影响.分析结果仅对所采用的面积单元有效,在其他尺度上无效,因此将某一尺度上的结果推广到其
12、他尺度上将导致生态缪误.,空间数据的不确定性,空间数据的质量对建模分析,表示,结果及决策的正确性意义重大.空间数据使用者主要依赖二次数据源,且记录的时间误差也隐含在数据集中,空间数据的不确定性取决于误差结构随着地图上位置的而变化.如遥感数据虽然经过几何校正,但位置误差还是不均匀的.,明确不确定性的类型,来源及产生机制对提高空间数据质量,建立控制与修正机制意义重大.1.不确定性的类型1.1空间不确定性 这种不确定性是由对象定义的主观性引起的,如不清晰的边界,空间对象的属性具有主观性.,1.2对象定义的不确定性 对象定义依赖于人为规定1.3关系不确定性 生物量与测树因子的关系1.4分区问题 气候类
13、型区的划分,很多专家意见不一.2地理现象测度的不确定性2.1物理测量误差(高山海拔测量),2.2数字化误差2.3不同来源数据集整合时的误差3地理对象表示的不确定性3.1栅格数据表示的不确定性 栅格数据将空间划分为等面积的单元格(像素),一个单元格不完全是一个属性构成,而包含了某几个属性,这样的单元格为混合元,但一个单元格只能有一个值,这样混合元的值为其优势值或中心点值.,这样就会丢失某些信息,使栅格数据结构扭曲空间对象的形状.3.2矢量数据表示的不确定性(数据聚集引起),探索性空间数据分析与可视化,1.EDA ESDA与可视化 EDA技术的特点是数据不做假设,而是利用统计图表,图形和统计概括方
14、法对数据特征进行分析与描述,从而对数据进行更为复杂的建模分析.ESDA技术是EDA的推广,空间数据存在自相关性,使数据无法满足独立性假设.,1.1EDA 与可视化基本方法包括两种类型:1)计算EDA,2)图形EDA技术1.1.1箱线图 属性数据表不能反映总体特征,分布特征与相互之间关系,需要通过统计方法集中反映数据集中性,分散性,偏态性,异常性等.箱线图是反映属性数据这些特征的常用方法.1)中位数与分位数某一变量的n个记录为:,数据的值从小到大进行排序,中位数是从小到大排列数据中位于中间位置的数:,中位数的本质是数据排列的位置,不受异常值的影响,比均值稳定.,中位数反映数据的集中性,描述分散性
15、的统计量是极差:,分位数是另一种利用数据的位序描述数据的统计量,设p是0,1)之间的一个数,有n个位序统计量,则p分位数为:,是np位序位置上的数值,最常用的分位数:,p=0.75,p=0.25,分别记为,其含义为小于 的数据的个数分别占数据总数的75%和25%,因此也称为上,下四分位数.2)极差上下四分位数之间的差值为半极差(H):,极差是度量数据分散性的指标.,若数据序列 符合正台分布总体,则其总体的上下四分位数为:,当数据存在异常值时,标准差 缺乏稳定性,因此 可作为数据分散性的稳健度量.,3)三均值,4)异常数据与极端数据异常数据的判断标准:设A1,A2分别是异常数据的上下截断点,非异
16、常数据的分布区间为:,异常数据的分布范围为:,异常数据中分离出极端数据的分布范围:,以外的数据,5)箱线图1.1.2茎叶图与直方图1)茎叶图的构造P39的数据,P40表示构造方法.2)茎叶图的行数选择根据数据个数n确定行数的方法有:,3)直方图的区间宽度(f,xt=hist(x,k),H为极差,L的计算见以上3式.,1.1.3散点图与散点图矩阵1)散点图与变量之间关系的可视化P41的4组数据说明.2)散点图与异常点的分析,bar(xt,f),3)散点图与不同类别的数据4)散点图矩阵 研究多个变量之间的关系,但只能研究多个成对变量间的关系.5)平行坐标图具体方法是将相邻两坐标轴的间距设为等距,坐
17、标轴之间平行的,就可以表示高维空间变量之间的关系.,对于连续变量首先进行标准化,然后画平行坐标图.绘制方法:,从y轴开始,做实轴的N个拷贝,标记为x1,x2,xN,等距放置并且垂直于x轴,N个轴都具有和y轴一样的正方向,点 被表示成一条折线,其N个顶点位于 轴上,从而建立了RN中的点与顶点分别在x1,x2,xN轴上的平面折线间的一一对应关系,欧式空间与平行坐标空间的映射关系,*点的对应关系 欧式空间的点对应平行坐标的直线,如M(A,B)*线的对应关系 在笛卡尔坐标系下的线由两点唯一确定,同理在平行坐标下的两点也确定一线,不过这时的线表示成一点,如ax+by=c,ESDA与空间数据可视化,地图是
18、空间数据可视化的重要手段,ESDA是将地图与各种统计图结合起来.1主题地图 名义变量用独立值表示,但该数值不能进行任何运算.序数变量用等级符号与分层设色图表示.间隔变量与比率变量体现数据的连续变化,用等级符号,范围图表示.,2主题地图表示的数据分类问题 数据分类方法有:等间隔,等范围,自然分割法,分位数分类,自定义等.同一数据用不同的分类方法会产生不同的解释.分类需要注意的问题:1)包含所有范围的数据(最大与最小)2)使用不重叠的值和不空的类3)分类数量足够大以保证数据的精确性,分类数量n:,5)划分数据集到合理等价的观测组中6)如果可能给出一个逻辑数学关系P49的分类实例*应根据实际情况进行
19、自定义分类,空间点模式方法,根据地理实体或时间的空间位置研究其分布模式的方法为空间点模式1.点模式的概念及空间分析技术研究区域R内的一系列点的组合,是第i个观测事件的空间位置.,点模式分为3种类型:聚集分布,随机分布,均匀分布.点模式的分析方法:1)以聚集性为基础的基于密度的方法,常用样方计数法和核函数法,2)以分散性为基础的基于距离的方法,常用最近邻指数,G-函数,F-函数,K-函数等.空间依赖性所产生的空间效应:1)一阶效应,描述某个参数均值的总体变化,即全局趋势,2)二阶效应,是由空间依赖性产生的,表达的是邻近值相互趋同的倾向,通过与均值的偏差获得.一阶效应用点过程密度 描述,在点s处单
20、位面积内事件的平均数目.,:点s周围一个足够小的领域,:内的事件数目,二阶效应通过研究区域中两个足够够小的子区域内事件数目之间的相互关系,基于密度的方法样方计数法与核函数法,1.样方计数法将区域划分为面积相等的子区域(样方),根据每一个样方中的事件数量计算与概括统计量,再将计算值除样方面积得点分布的密度.,一般使用随机分布模式作为理论上的标准分布,然后将计算得到的点密度与理论分布作比较,判断点模式是属于聚集分布,均匀分布还是随机分布.样方形状,采样方式,样方起点、方向、大小都会影响到点的观测频次与分布.样方的形状与大小必须一样,以保证采样的均匀性.样方尺寸的计算公式为:,:样方面积,A:研究区
21、域面积,n:研究区域中点,的数量.,观测频率与已知频率的显著性差异用K-S检验,1.1K-S检验通过比较观测频率分布与某一标准频率分布,确定观测分布模式的显著性.过程如下:1)假设两个频率分布之间不存在显著性差异.,2)给出一个显著性水平a,如a=0.053)计算两个频率分布的累积频率分布4)计算K-S检验的D统计量,分别是两个分布的第i个等级上的累积,频率.5)计算作为比较基础的门限值,(m是样方数量),如果是两个样本模式的比较,则使用如下公式:,m1,m2分别是两个样本模式的数量.6)如果计算得到的D值大于,则两个分布的差异在统计意义上是显著的.1.2 实例(P62-P64),随机分布点模
22、式是通过泊松过程产生,泊松分布公式:,随机分布点模式:研究区域中存在n个随机分布的点时,一个样方中恰好有1,2,k,n个点落入其中的概率分布,其含义是平均每个样方中包含的点,的数量.,概率计算的递推公式为:,1.3方差均值比的X2检验泊松分布的重要特征是均值=方差=因此,X2检验是随机分布点模式的另外一种方法.,方差均值比,如果空间点模式接近泊松分布,则1)基本原理:假设m个样方中分别有 个事件的记数,然后定义统计量I(分散性指数):,根据样方计数计算I,后将I与显著性水平为a的 值进行比较,如果I显著大于表示聚集分布,反之表示均匀分布.还可以定义聚集性指数如果E(ICS)0,表示聚集分布模式
23、,反之表示规则分布模式.*样方计数法只能获得样方内的信息,不能获得样方内点之间的信息,有局限性(P66),1.2核函数方法 地理事件可以发生在空间的任意位置上,不同位置上事件发生的概率不一样,点密集的区域事件发生的概率高.空间模式在点s上的密度通过研究区域中单位面积上的事件数量来估计,最常用的方法是使用滑动的圆来统计落在圆域内的事件数量,再除以圆的面积,就得到点s处的事件密度.,设s处的事件密度为,则,:以s为中心,r为半径的圆域,#表示事件S落在圆域C中的数量核密度估计的定义为:设X1,X2,Xn是从密度函数f的总体中抽取的样本,要依据这些样本对每一个x估计,f(x)的值,f(x)的估计有参
24、数与非参数估计问题,这里讨论非参数估计:用点 把直线分成若干个小计数区间,这样计数区间的端点与宽度都是固定的,记Ni为样本点落在第i个区间ai,ai+1)里的个数,则f(x)在ai,ai+1)里的函数估计值为:,如果对每个x各作一个以x为中心的小计数区间x-h,x+h,再对落在该区间的样本点计数,设为N(x,h),则密度估计为:,再引进函数,则有,加权模型,事实上可以对这种矩形核函数放宽限制,只需要以下条件的K(x)都可以:,对于一般的概率密度函数这些条件都满足.,K():核函数,h0,为宽度,(x-Xi):估计点到事件Xi处的距离.K()一般为概率密度函数,常用正态核函数,四次多项式核函数,
25、均匀核函数等,h的选择很重要:取得太小,会增加随机的影响,使fn(x)波动较大,呈现出不规则的形态,取得太大,则x经过了(x-Xi)/h的压缩之后平均作用变得突出,会使得fn(x)过于平稳,灵敏性不好,一般来说在数据密集区,h选小一点,反之大一点.*h选择问题:,1)核函数估计的边缘效应靠近研究区域R边界的地方会扭曲核估计的边缘效应,因此在区域R的边界上建立一个警戒区,另外还可以边缘校正的核函数:,计算样本向量x的概率密度估计,返回在xi点的概率密度f,使用plot(xi,f)就可以绘制出概率密度曲线,2)实例 ksdensity,f,xi=ksdensity(x),f=ksdensity(x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 空间 数据 分析
链接地址:https://www.desk33.com/p-259555.html