第3章大数据存储技术大数据基础.pptx
第3章 大数据存储技术,目录,2,理解HDFS分布式文件系统,NoSQL数据库 Hadoop的安装和配置,HDFS文件管理,Hbase的安装和配置Hbase的使用,HDFS简介,3,HDFS文件系统的特点:1.存储数据较大:运行在HDFS的应用程序有较大的数据处理要求,或存储从GB到TB级的超大文件。2.支持流式数据访问:HDFS放宽了可移植操作系统接口(POSIX)的要求,可以以流的形式访问文件系统中的数据。3.支持多硬件平台:Hadoop可以运行在廉价、异构的商用硬件集群上,并且在HDFS设计时充分考虑了数据的可靠性、安全性及高可用性,以应对高发的节点故障问题。,分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop核心子项目,为Hadoop提供了一个综合性的文件系统抽象,并实现了多类文件系统的接口。HDFS基于流式数据访问、存储和处理超大文件,并运行于商用硬件服务器上。,HDFS简介,4,4.数据一致性高:应用程序采用“一次写入,多次读取”的数据访问策略,支持追加,不支持多次修改,降低了造成数据不一致性的可能性。5.有效预防硬件失效:通常,硬件异常比软件异常更加常见,对于具有上百台服务器的数据中心而言,硬件异常是常态,HDFS的设计要有效预防硬件异常,并具有自动恢复数据的能力。6.支持移动计算:计算与存储采取就近的原则,从而降低网络负载,减少网络拥塞。,HDFS的局限性,5,HDFS在处理一些特定问题上也存在着一定的局限性,并不适用所有情况,主要表现在以下三个方面:1.不适合低延迟的数据访问:因为HDFS是为了处理大型数据集任务,主要针对高数据吞吐设计的,会产生高时间延迟代价。2.无法高效地存储大量小文件:为了快速响应文件请求,元数据存储在主节点的内存中,文件系统所能存储的文件总数受限于NameNode的内存容量。小文件数量过大,容易造成内存不足,导致系统错误。3.不支持多用户写入以及任意修改文件:在HDFS中,一个文件同时只能被一个用户写入,而且写操作总是将数据添加在文件末尾,并不支持多个用户对同一文件的写操作,也不支持在文件的任意位置进行修改。,HDFS的体系结构,6,HDFS的存储策略是把大数据文件分块并存储在不同的计算机节点(Nodes),通过NameNode管理文件分块存储信息(即文件的元信息)。下图给出了HDFS的体系结构图。,HDFS体系结构,HDFS采用了典型的Master/Slave系统架构,一个HDFS集群通常包含一个NameNode节点和若干个DataNodes节点。一个文件被分成了一个或者多个数据块,并存储在一组DataNode上,DataNode节点可分布在不同的机架。在NameNode的统一调度下,DataNode负责处理文件系统客户端的读/写请求,完成数据块的创建、删除和复制。,HDFS集群,7,1.NameNode和DataNode HDFS采用主从结构存储数据,NameNode节点负责集群任务调度,DataNode负责执行任务和存储数据块。NameNode管理文件系统的命名空间,维护着整个文件系统的文件目录树以及这些文件的索引目录。这些信息以两种形式存储在本地文件系统中,一种是命名空间镜像,一种是编辑日志。2.数据块 数据块是磁盘进行数据读/写操作的最小单元。文件以块的形式存储在磁盘中,文件系统每次都能操作磁盘数据块大小整数倍的数据。HDFS中的数据块的大小,影响到寻址开销。数据块越小,寻址开销越大。传输一个由多个数据块组成的文件的时间取决于磁盘传输速率,用户必须在数据块大小设置上做出优化选择。HDFS系统当前默认数据块大小为128MB。,HDFS集群,8,HDFS作为一个分布式文件系统,使用抽象的数据块具有以下优势:(1)通过集群扩展能力可以存储大于网络中任意一个磁盘容量的任意大小文件;(2)使用抽象块而非整个文件作为存储单元,可简化存储子系统,固定的块大小可方便元数据和文件数据块内容的分开存储;(3)便于数据备份和数据容错提高系统可用性。HDFS默认将文件块副本数设定为3份,分别存储在集群不同的节点上。当一个块损坏时,系统会通过NameNode获取元数据信息,在其他机器上读取一个副本并自动进行备份,以保证副本的数量维持在正常水平,HDFS集群,9,3.机架感知策略,数据副本存储示意图,大规模Hadoop集群节点分布在不同的机架上,同一机架上节点往往通过同一网络交换机连接,在网络带宽方面比跨机架通信有较大优势;但若某一文件数据块同时存储在同一机架上,可能由于电力或网络故障,导致文件不可用。HDFS采用机架感知技术来改进数据的可靠性、可用性和网络带宽的利用率。,HDFS集群,10,通过机架感知,NameNode可确定每个DataNode所属的机架ID,HDFS会把副本放在不同的机架上。如上页的图所示,第一个副本B1在本地机器,第二个副本B2在远端机架,第三个副本B3看之前的两个副本是否在同一机架,如果是则选择其他机架,否则选择和第一个副本B1相同机架的不同节点,第四个及以上,随机选择副本存放位置。HDFS系统的机架感知策略的优势是防止由于某个机架失效导致数据丢失,并允许读取数据时充分利用多个机架的带宽。HDFS会尽量让读取任务去读取离客户端最近的副本数据以减少整体带宽消耗,从而降低整体的带宽延时。,HDFS集群,11,对于副本距离的计算公式,HDFS采用如下约定:(1)Distance(Rack 1/D1 Rack1/D1)=0#同一台服务器的距离为0(2)Distance(Rack 1/D1 Rack1/D3)=2#同机架不同服务器距离为2(3)Distance(Rack 1/D1 Rack2/D1)=4#不同机架服务器距离为4其中,Rack1、Rack2表示机柜标识号,D1、D2、D3表示所在机柜中的DataNode节点主机的编号。即同一主机的两个数据块的距离为0;同一机架不同主机上的两个数据块的距离为2;不同机架主机上的数据块距离为4。通过机架感知,处于工作状态的HDFS总是设法确保数据块的3个副本(或更多副本)中至少有2个在同一机架,至少有1个处在不同机架(至少处在两个机架上)。,HDFS集群,12,4.安全模式 安全模式是HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。NameNode主节点启动后,HDFS首先进入安全模式,DataNode在启动时会向NameNode汇报可用的数据块状态等。当整个系统达到安全标准时,HDFS自动离开安全模式。离开安全模式的基本要求:副本数达到要求的数据块占系统总数据块的最小百分比(还需要满足其他条件)。默认为0.999f,也就是说符合最小副本数要求的数据块占比超过99.9%时,并且其他条件也满足才能离开安全模式。NameNode退出安全模式状态,然后继续检测,确认有哪些数据块的副本没有达到指定数目,并复制这些数据块到其他DataNode上。,HDFS集群,13,5.文件安全性 为了保证文件的安全性,HDFS提供备份NameNode元数据和增加Secondary NameNode节点两种基本方案。(1)备份NameNode上持久化存储的元数据文件,然后再同步地将其转存到其他文件系统中,一种通常的实现方式是将NameNode中的元数据转存到远程的网络文件共享系统NFS中。(2)在系统中同步运行一个Secondary NameNode节点,作为二级NameNode去周期性地合并编辑日志中的命名空间镜像。Secondary NameNode的运行通常需要大量的CPU和内存去做合并操作,建议将其安装在与NameNode节点不同的其他单独的服务器上,它会存储合并后的命名空间镜像,并在NameNode宕机后作为替补使用,以便最大限度地减少文件的损失。由于Secondary NameNode的同步备份总会滞后于NameNode,依然存在数据损失的风险。,HDFS集群,14,6.元数据持久化,元数据持久化过程,HDFS元数据(描述文件)持久化由FSimage和Editlog两个文件组成,随着HDFS运行进行持续更新,元数据持久化的过程如左图所示。,HDFS集群,15,元数据持久化的过程:首先,主用NameNode(即图中的Active NameNode)接收文件系统操作请求,生成EditLog,并回滚日志,向EditLog.new中记录日志;第二步,备用NameNode(即图中的Standby NameNode)从主用NameNode上下载FSimage,并从共享存储中读取EditLog;第三步,备用NameNode将日志和旧的元数据合并,生成新的元数据FSImage.ckpt;第四步,备用NameNode将元数据上传到主用NameNode;第五步,主用NameNode将上传的元数据进行回滚;最后,循环第一步。,HDFS中的数据流,16,Java抽象类org.apache.hadoop.fs.FileSystem定义了Hadoop的一个文件系统接口。该类是一个抽象类,通过以下两个方法可以创建FileSystem实例:public static FileSystem.get(Configuration conf)throws IOException public static FileSystem.get(URI uri,Configuration conf)throws IOException 这两个方法均要求传递一个Configuration的对象实例,Configuration对象可以理解为描述Hadoop集群配置信息的对象。创建一个Configuration对象后,可调用Configuration.get()获取系统配置键值对属性。用户在得到一个Configuration对象之后就可以利用该对象新建一个FileSystem对象。,HDFS中的数据流,17,Hadoop抽象文件系统主要提供的方法可以分为两部分:一部分用于处理文件和目录相关的事务;另一部分用于读/写文件数据。处理文件和目录主要是指创建文件/目录、删除文件/目录等操作;读/写数据文件主要是指读取/写入文件数据等操作。这些操作与Java的文件系统API类似,如FileSystem.mkdirs(Path f,FsPermission permission)方法在FileSystem对象所代表的文件系统中创建目录,Java.io.File.mkdirs()也是创建目录的方法。FileSystem.delete(Path f)方法用于删除文件或目录,Java.io.File.delete()方法也用于删除文件或目录。,文件的读取,18,客户端从HDFS中读取文件的流程如图下图所示。,客户端从HDFS中读取数据流程,(1)首先,客户端通过调用FileSystem对象中的open()函数打开需要读取的文件。对于HDFS来说,FileSystem是分布式文件系统的一个实例,对应着图中的第一步。,文件的读取,19,(2)然后DistributedFileSystem通过远程过程调用(RPC)调用NameNode,以确定文件起始块的位置。对于每一个块,NameNode返回存有该块副本的DataNode的地址。这些返回的DataNode会按照Hadoop定义的集群网络拓扑结构计算自己与客户端的距离并进行排序,就近读取数据。(3)HDFS会向客户端返回一个支持文件定位的输入流对象FSDataInputStream,用于给客户端读取数据。FSDataInputStream类转而封装DFSInputStream对象,该对象管理着NameNode和DataNode之间的I/O。当获取到数据块的位置后,客户端就会在这个输入流之上调用read()函数。存储着文件起始块DataNode的地址的DFSInputStream对象随即连接距离最近的DataNode。,文件的读取,20,(4)连接完成后,DFSInputStream对象反复调用read()函数,将数据从DataNode传输到客户端,直到这个块全部读取完毕。(5)当最后一个数据块读取完毕时,DFSInputStream会关闭与该DataNode的连接,然后寻找下一个数据块距离客户端最近的DataNode。客户端从流中读取数据时,块是按照打开DFSInputStream与DataNode新建连接的顺序读取的。(6)一旦客户端完成读取,就会对FSDataInputStream调用close()。在读取数据的时候,如果DFSInputStream与DataNode通信错误,会尝试读取该块最近邻的其他DataNode节点上的数据块副本,同时也会记住发生故障的DataNode,以保证以后不会去读取该节点上后续块。收到数据块以后,DFSInputStream也会通过校验和确认从DataNode发来的数据的完整性。,文件的写入,21,客户端在HDFS中写入一个新文件的数据流过程如下图所示。,客户端从HDFS中读取数据流程,(1)客户端通过对DistributedFileSystem对象调用create()函数创建一个文件。(2)DistributedFileSystem对NameNode创建一个RPC调用,在文件系统的命名空间中新建一个文件,此时该文件还没有相应的数据块,即还没有相关的DataNode与之关联。,文件的写入,22,(3)NameNode会执行各种不同的检查以确保这个新文件在文件系统中不存在,并确保客户端有创建文件的权限。如果创建成功,则DistributedFileSystem向客户端返回一个FSDataOutputStream对象,客户端开始借助这个对象向HDFS写入数据。(4)当客户端写入数据时,DFSOutPutStream会将文件分割成多个数据包,并写入一个数据队列中。DataStreamer负责处理数据队列,会将这些数据包放入到数据流中,并向NameNode请求为新的文件分配合适的DataNode存放副本,返回的DataNode列表形成一个管道。(5)DFSOutputStream同时维护着一个内部数据包队列来等待DataNode返回确认信息,被称为确认队列。只有当管道中所有的DataNode都返回了写入成功的信息后,该数据包才会从确认队列中删除。(6)客户端成功完成数据写入操作以后,对数据流调用close()函数,该操作将剩余的所有数据包写入DataNode管道,并连接NameNode节点,等待通知确认信息。,文件的写入,23,如果在数据写入期间DataNode发送故障,HDFS就会执行以下操作:首先关闭管道,任何在确认队列中的数据包都会被添加到数据队列的前端,以保证管道中失败的DataNode的数据包不会丢失。当前存放在正常工作的DataNode上的数据块会被制定一个新的标识,并和NameNode进行关联,以便故障DataNode在恢复后可以删除存储的部分数据块。然后,管道会把失败的DataNode删除,文件会继续被写到另外两个DataNode中。最后,NameNode会注意到现在的数据块副本没有达到配置属性要求,会在另外的DataNode上重新安排创建一个副本,后续的数据块继续正常接收处理。,一致性模型,24,文件系统的一致性模型描述了文件读/写的数据可见性。文件被创建之后,当前正在被写入的块,其他读取者是不可见的。不过,HDFS提供一个sync()方法来强制所有的缓存与数据节点同步。在sync()返回成功后,HDFS能保证文件中直至写入的最后的数据对所有读取者都是可见且一致的。HDFS的文件一致性模型与具体设计应用程序的方法有关。如果不调用sync(),一旦客户端或系统发生故障,就可能失去一个块的数据。所以,用户应该在适当的地方调用sync(),例如,在写入一定的记录或字节之后。尽管sync()操作被设计为尽量减少HDFS负载,但仍有开销,用户可通过不同的sync()频率来衡量应用程序,最终在数据可靠性和吞吐量找到一个合适的平衡。,数据完整性,25,I/O操作过程中难免会出现数据丢失或脏数据,数据传输的量越大,出错的机率越高。比较传输前后校验和是最为常见的错误校验方法,例如,CRC32循环冗余检查是一种数据传输检错功能,对数据进行多项式计算32位的校验和,并将得到的校验和附在数据的后面,接收设备也执行类似的算法,以保证数据传输的正确性和完整性。HDFS也通过计算出CRC32校验和的方式保证数据完整性。HDFS会在每次读写固定字节长度时就计算一次校验和。这个固定的字节长度可由io.bytes.per.checksum指定,默认是512字节。HDFS每次读的时候也再计算并比较校验和。DataNode在收到客户端的数据或者其他副本传过来的数据时会校验数据的校验和。HDFS数据流中,客户端写入数据到HDFS时,在管道的最后一个DataNode会去检查这个校验和,如果发现错误,就会抛出ChecksumException异常到客户端。客户端从DataNode读数据的时候也要检查校验和,而且每个DataNode还保存检查校验和的日志,客户端的每一次校验都会记录到日志中。,数据完整性,26,除了读写操作会检查校验和以外,DataNode通过DataBlockScanner进程定期校验存在在它上面的数据块,预防诸如位衰减引起硬件问题导致的数据错误。如果客户端发现有数据块出错,主要进行以下步骤恢复数据块:(1)客户端在抛出ChecksumException之前会把坏的数据块和该数据块所在的DataNode报告给NameNode;(2)NameNode把这个数据块标记为已损坏,这样NameNode就不会把客户端指向这个数据块,也不会复制这个数据块到其他的DataNode;(3)NameNode会把一个好的数据块复制到另外一个DataNode;(4)NameNode把损坏的数据块删除掉。,目录,27,理解HDFS分布式文件系统,NoSQL数据库 Hadoop的安装和配置,HDFS文件管理,Hbase的安装和配置Hbase的使用,NoSQL数据库,28,NoSQL(Not Only SQL),意即“不仅仅是SQL”。NoSQL的拥护者提倡运用非关系型的数据存储作为大数据存储的重要补充。NoSQL数据库适用于数据模型比较简单、IT系统需要更强的灵活性、对数据库性能要求较高且不需要高度的数据一致性等场景。NoSQL数据库具有如下四大分类:1.键值(Key-Value)存储数据库:常见的键值存储数据库有Tokyo Cabinet/Tyrant、Berkeley DB、MemcacheDB、Redis等。2.列存储数据库:如HBase、Cassandra、Riak等。3.文档型数据库:常见的文档型数据库有MongoDB、CouchDB、SequoiaDB等。4.图(Graph)数据库:诸如Neo4J、InfoGrid、Infinite Graph等。,键值数据库Redis简介,29,Redis(REmote DIctionary Server)是一个由Salvatore Sanfilippo写的Key-Value内存数据库,能达到每秒十万次的读写,常用作缓存或者消息队列。Redis是使用ANSI C语言编写的,遵守BSD协议,支持网络并可基于内存和可持久化的日志型Key-Value数据库,提供多种语言的API。Redis数据库中的值(value)可以是字符串(string)、哈希(map)、列表(list)、集合(sets)和有序集合(sorted sets)等类型。,键值数据库Redis简介,30,与其他Key-Value缓存产品相比,Redis主要具有以下三个特点:首先,Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启时可以再次加载使用;其次,Redis不仅仅支持简单的Key-Value类型的数据,同时还提供list、set、zset、hash等数据结构的存储。最后,Redis还支持数据的备份,即Master/Slave模式的数据备份,可以将数据从主服务器复制到任意数量的从服务器。Redis运行在内存中并可以持久化到磁盘,所以在对不同数据集进行高速读写时需要权衡内存,因为数据量不能大于硬件内存。相比在磁盘上相同的复杂的数据结构,在内存中操作起来非常简单。,Redis数据类型,31,Redis支持5种数据类型:string(字符串)、hash(哈希)、list(列表)、set(集合)及zset。(1)string(字符串)字符串是最常用的一种数据类型,普通的Key/Value存储都可以归为此类。,Redis中的哈希结构,(2)hash(哈希)哈希是一个string类型的field和value的映射表。hash特别适合存储对象,相当于将对象的每个字段存成单个string类型。Redis的hash实际是将内部存储的value作为一个HashMap,并提供了直接存取这个Map成员的接口,如左图所示。,Redis数据类型,32,(3)list(列表)列表是一个链表结构,可以从头部(左边)或者尾部(右边)添加和删除元素。Redis的list类型其实就是每个子元素都是string类型的双向链表,我们可以通过push或pop操作从链表两端添加删除元素。(4)set(集合)set是string类型的无序不重复集合。set是通过hash table实现的。可以对集合采取并集、交集、差集操作;还可以使用不同的命令将结果返回给客户端并且存到一个新的集合中。(5)zsetzset在set的基础上增加了一个顺序的属性,这一属性在添加修改元素的时候可以指定,每次指定后,zset会自动重新按新的值调整顺序。可以将其理解为有列的表,一列存value,一列存顺序,操作中key理解为zset的名字。,Redis持久化,33,Redis将内存中的数据同步到磁盘来保证持久化。Redis主要支持使用Snapshotting(快照)和Append-only file(aof)两种方式实现数据的持久化。(1)Snapshotting快照是默认的持久化方式。这种方式就是将内存中数据以快照的方式写入到二进制文件中,默认的文件名为dump.rdb。可以通过配置设置自动做快照,比如可以配置Redis在n秒内如果超过m个key被修改就自动做快照。(2)Append-only fileAppend-only file方式比快照方式有更好的持久化性,是由于在使用aof方式进行数据的持久化时,Redis会将每一个收到的写命令都通过write()函数追加到文件中。当redis重启时会通过重新执行文件中保存的写命令,在内存中重建整个数据库的内容。当然由于操作系统会在内核中缓存写操作所做的修改,所以可能不是立即写到磁盘上,这样aof方式的持久化也还是有可能会丢失部分修改。不过可以通过配置文件告知Redis通过fsync函数强制操作系统写入到磁盘的策略。,列存储数据库HBase简介,34,HBase是一个分布式的、面向列的开源数据库。它主要用来存储非结构化和半结构化的松散数据,是基于列而非行进行数据存储的。HBase建立在HDFS之上,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务。,Hbase部署架构,在一个HBase集群中一般存在Client、HMaster、HRegionServer、Zookeeper四种角色,如左图所示。,HBase集群中的角色,35,(1)Client客户端包含访问HBase的接口,并维护Cache来加快对HBase的访问,比如Region的位置信息。(2)HMasterHMaster在功能上主要负责Table和Region的管理工作,包括:管理用户对Table的增、删、改、查操作;管理HRegionServer的负载均衡,调整Region分布;在Region Split后,负责新Region的分配;在HRegionServer停机后,负责失效HRegionServer上的Regions迁移。Region是HBase数据管理的基本单位。数据的move、balance、split,都是按照Region来进行操作的。HMaster没有单点问题,HBase中可以启动多个HMaster,通过Zookeeper的Master Election机制保证总有一个Master运行。,HBase集群中的角色,36,(3)HRegionServerHRegionServer主要负责响应用户I/O请求,向HDFS文件系统中读写数据,是HBase中最核心的模块。HRegionServer内部管理了一系列HRegion对象,每个HRegion对应了Table中的一个Region,HRegion由多个HStore组成。每个HStore对应了Table中的一个Column Family的存储,每个Column Family就是一个集中的存储单元。因此将具备共同IO特性的Column放在一个Column Family中,会提高存储效率。(4)ZookeeperZookeeper Quorum中除存储了HBase内置表-ROOT-的地址和HMaster的地址外,HRegionServer也会把自己相关信息注册到Zookeeper中,使得HMaster可以随时感知到各个HRegionServer的健康状态。此外,Zookeeper也避免了HMaster的单点问题。,HBase数据表,37,相较于传统的数据表,HBase中的数据表一般有这样一些特点:(1)大表,一个表可以有上亿行,上百万列;(2)面向列(族)的存储和权限控制,列(族)独立检索;(3)稀疏表结构,对于为空(null)的列,并不占用存储空间。表的逻辑结构如图3.8所示,表由行和列组成。列划分为若干个列族(row family)。,Hbase数据表的逻辑结构,HBase数据表,38,(1)行键行键Row Key是用来检索记录的主键。访问HBase Table中的行,要么通过单个Row Key访问,要么通过Row Key的Range,要么就是进行全表扫描。行键(Row Key)可以是任意字符串(最大长度是64KB,实际应用中长度一般为10100 bytes),在HBase内部,Row Key保存为字节数组。(2)列族HBase表中的每个列,都归属于某个列族(Column Family)。列族是表的一部分,而列不是,列簇必须在使用表之前定义,列名都以列族作为前缀。例如courses:history,courses:math都属于courses这个列族。(3)时间戳HBase中通过行键和列确定的一个存储单元称为cell。每个cell都保存着同一份数据的多个版本,版本通过时间戳(Timestamp)来索引。时间戳的类型是64位整型。时间戳可以由HBase在数据写入时自动赋值,此时时间戳是精确到毫秒的当前系统时间。时间戳也可以由客户显式赋值。,Hbase物理存储,39,HBase的数据表中的所有行都按照行键的字典序排列。在存储时,Table在行的方向上分割为多个HRegion。HRegion是按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,Hregion就会等分为两个新的HRegion。当Table中的行不断增多,就会有越来越多的HRegion。HRegion是HBase中分布式存储和负载均衡的最小单元,不同的HRegion可分布在不同的HRegion server上,但一个HRegion是不会拆分到多个Server上的。一个HRegion由一个或者多个Store组成,每个Store保存一个columns family。每个Strore又由一个MemStore和0多个StoreFile组成。StoreFile以HFile格式保存在HDFS上。为了应对灾难恢复,每个Region Server维护一个HLog,HLog记录数据的所有变更,一旦数据修改,就可以从log中进行恢复。,Hbase物理存储,40,HFile分为如下六个部分:(1)Data Block段:保存表中的数据,这部分可以被压缩。(2)Meta Block段(可选的):保存用户自定义的键值对,可以被压缩。(3)File Info段:HFile的元信息,不被压缩,用户也可以在这一部分添加自己的元信息。(4)Data Block Index段:Data Block的索引,每条索引的key是被索引的block的第一条记录的key。(5)Meta Block Index段(可选的):Meta Block的索引。(6)Trailer:这一段是定长的。保存了每一段的偏移量,读取一个HFile时,会首先读取Trailer,Trailer保存了每个段的起始位置,然后,DataBlock Index会被读取到内存中。为了应对灾难恢复,每个Region Server维护一个HLog,HLog记录数据的所有变更,一旦数据修改,就可以从log中进行恢复。,文档数据库MongoDB简介,41,MongoDB是一个基于分布式文件存储的数据库,由C+语言编写,旨在为Web应用提供可扩展的高性能数据存储解决方案。MongoDB是一个介于关系数据库和非关系数据库之间的产品。MongoDB查询语言功能非常强大,可以实现类似关系数据库单表查询的绝大部分功能,同时支持数据索引。对于数据查询:MongoDB支持动态查询,支持丰富的查询表达式。支持完全索引,可以在任意属性上建立索引,包含内部对象。MongoDB还提供创建基于地理空间索引的能力。MongoDB的查询优化器会分析表达式,并生成一个高效的查询计划,并且包含一个监视工具用于分析数据库操作的性能。提供强大的聚合工具:如Count、Group等,支持使用MapReduce完成复杂的聚合任务。同时支持复制和故障恢复,MongoDB支持主从复制机制,可以实现数据备份、故障恢复、读扩展等功能。而基于副本集的复制机制提供了自动故障恢复的功能,确保了集群数据不会丢失。,文档数据库MongoDB简介,42,对于数据存储:MongoDB采用高效的传统存储方式,文件存储格式为BSON(JSON的一种扩展)。BSON是对二进制格式的JSON的简称,BSON支持文档和数组的嵌套。支持二进制数据及大型对象。同时,MongoDB采用自动分片功能,自动处理碎片,以支持云计算层次的扩展性,可动态添加额外的机器。MongoDB对数据进行分片可以使集群存储更多的数据,实现更大的负载,也能保证存储的负载均衡。提供了多种语言的接口:支持Python、PHP、Ruby、Java、C、C#、Javascript、Perl及C+语言的驱动程序,社区中也提供了对Erlang及.NET等平台的驱动程序。开发人员使用任何一种主流开发语言都可以轻松编程,实现访问MongoDB数据库。,文档数据库MongoDB简介,43,针对MongoDB的特点和提供的功能,MongoDB不适合处理传统的商业智能应用和那些要求高度事务性的系统以及复杂的跨文档(表)级联查询。MongoDB非常适合在以下应用环境中使用:(1)网站数据:MongoDB非常适合实时的插入、更新与查询,并具备网站实时数据存储所需的复制及高度伸缩性。(2)缓存:由于性能很高,MongoDB也适合作为信息基础设施的缓存层。在系统重启之后,由MongoDB搭建的持久化缓存层可以避免下层的数据源过载。(3)大尺寸,低价值的数据:使用传统的关系型数据库存储一些数据时可能会比较昂贵,在此之前,很多时候往往会选择传统的文件进行存储。(4)高伸缩性的场景:MongoDB非常适合由数十或数百台服务器组成的数据库。MongoDB的路线图中已经包含对MapReduce引擎的内置支持。(5)用于对象及JSON数据的存储:MongoDB的BSON数据格式非常适合文档化格式的存储及查询。,MongoDB基本概念,44,MongoDB是NoSQL数据库中最像关系数据库的一种,但其采用基于文档的存储,而是基于数据表的存储。下表给出了MongoDB与关系型数据库在文档、集合等概念的区别,其中MongoDB并不支持表间的连接操作。,SQL术语概念与MongoDB术语概念的比较表,MongoDB基本概念,45,传统关系数据库的数据表与MongoDB中集合相对应,下图给出了一个记录用户信息的关系型数据库表与MongoDB集合的对应关系。用户记录包括id、用户名(user_name)、电子邮箱(email)、年龄(age)、城市(city)信息。,关系数据库表与MongoDB的集合对应关系,MongoDB基本概念,46,一个MongoDB实例可以包含一组数据库,一个数据库可以包含一组集合,一个集合可以包含一组文档,一个文档包含一组字段,每一个字段都是一个键值对。其中key必须为字符串类型,value可以包含如下类型:基本类型,例如,string、int、float、timestamp、binary等;一个文档;数组类型。(1)文档文档是MongoDB中数据的基本单位,类似于关系数据库中的行(但是比行复杂)。必须提醒注意的是,MongoDB中“文档”是由多个键及其关联的值有序地放在一起构成的一个文档。不同的编程语言对文档的表示方法不同,在JavaScript中文档表示为:name:Alex这个文档只有一个键“name”,对应的值为“Alex”。,MongoDB基本概念,47,多数情况下,文档比这个更复杂,它包含多个键/值对。例如:name:alex,age:3文档中的键/值对是有序的,下面的文档与上面的文档是完全不同的两个文档。age:3,name:alex文档中的值不仅可以是双引号中的字符串,也可以是其他的数据类型,例如,整型、布尔型等,也可以是另外一个文档,即文档可以嵌套,文档中的键类型只能是字符串。(2)集合集合是一组文档,类似于关系数据库中的表。集合是无模式的,集合中的文档可以是各式各样的。例如,Alex:name和age:21,它们的键不同,值的类型也不同,但是它们可以存放在同一个集合中,也就是不同模式的文档都可以放在同一个集合中。,MongoDB基本概念,48,(3)数据库MongoDB中多个文档组成集合,多个集合组成数据库。一个MongoDB实例可以承载多个数据库,它们之间可以看作是相互独立的,每个数据库都有独立的权限控制。在磁盘上,不同的数据库存放在不同的文件中。MongoDB中存在Admin、Local和Config三个系统数据库。Admin数据库:一个权限数据库,如果创建用户的时候将该用户添加到admin数据库中,那么该用户就自动继承了所有数据库的权限。Local数据库:这个数据库永远不会被复制,可以用来存储本地单台服务器的任意集合。Config数据库:当MongoDB使用分片模式时,Config数据库在内部使用,用于保存分片的信息。,图数据库Neo4j与知识图谱,49,知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关“属性-值”对,实体之间通过关系相互连接,构成网状的知识结构。在知识图谱的数据层,知识以事实(Fact)为单位存储在图数据库。如果以“实体-关系-实体”或者“实体-属性-值”三元组作为事实的基本表达方式,则存储在图数据库中的所有数据将构成庞大的实体关系网络,形成知识的图谱。Neo4j是一个将结构化数据存储在图(网络)而不是表中的NoSQL图数据库,它可以被看作是一个嵌入式的、基于磁盘的、具备完全事务特性的高性能Java持久化图引擎,该引擎具有成熟数据库的所有特性。Neo4j重点解决了拥有大量连接的传统RDBMS在查询时出现的性能衰退问题。围绕图进行数据建模后,Neo4j会以相同的速度遍历节点与边,其遍历速度与构成图的数据规模没有关系。此外,Neo4j还提供了非常快的图算法、推荐系统和OLAP风格的分析。,图数据库Neo4j与知识图谱,50