首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 93 毫秒
1.
空间离群是指空间邻域中属性特征值明显不同于其他对象的空间对象,空间数据离群挖掘能为人们提供很多有趣的信息,但空间数据具有复杂的拓扑关系、方位关系和度量关系等空间特征,传统的面向事务型数据库的离群挖掘算法并不适用于空间数据库。本文提出了基于MST(Minimum Spanning Tree,最小生成树)聚类的空间数据离群挖掘算法(SOM);有机结合了最小生成树理论与密度的方法,既体现了空间离群的局部特性,又体现了空间离群的孤立程度。该算法通过MST维护空间数据的基本空间结构特征,通过打断MST中最不一致的边形成MST聚类,不仅具有密度的聚类方法能够聚集非球状簇和分布不均的数据集的特点,而且聚类结果不依赖于用户参数的选择,因此,离群挖掘结果更合理。最后,通过实例数据,验证了该算法的有效性,它适用于大规模空间数据集的离群挖掘。  相似文献   

2.
研究并实现了基于Spark的空间查询算法。根据空间查询特性和Spark分布式内存计算模型,设计了HBase分布式存储、分布式空间索引、Spark分布式内存计算框架的空间区域查询算法和Spark Streaming的空间查询算法,提供实时在线空间查询服务。实验表明,基于Spark streaming并行空间查询算法*可以提供空间数据的实时空间查询服务。  相似文献   

3.
空间离群是指空间数据集中那些非空间属性值与邻域中其他空间对象明显不同的空间对象。空间数据一般按地理分布存储具有海量特性,传统的集中式处理模式不能满足海量数据处理的效率和空间数据本身的安全性等要求。因此,在研究小组开发的地理知识服务网格平台GeoKS-Grid的基础上,本文针对分布式空间离群挖掘,提出了一个基于网格的分布...  相似文献   

4.
快速高效地查询信息是衡量当前空间数据库性能的重要指标之一。传统的单节点关系型空间数据管理方式难以满足大数据量空间数据查询的需求,特别是高性能的复杂空间多表连接任务需求。鉴此,本文设计并实现了基于Massive Parallel Processing(MPP)架构的并行空间数据库中间件原型系统。系统充分利用无共享(shared-nothing)架构的优势,特别是针对空间数据的特性,设计了并行空间数据划分与导入、并行空间多表连接、空间数据查询优化等算法与模型。首先介绍了近年来并行数据库系统的发展现状,接着阐述了基于MPP架构的并行空间数据库中间件系统的查询计划算法及其系统架构,最后作者对一些大规模数据量做查询实验及其查询结果分析。实验表明,在处理挖掘大规模数据量时,该系统有近似线性的加速比,相比于传统单节点数据库,它能充分提高海量空间数据的复杂查询的性能,解决了空间数据库并行化处理海量数据的问题。  相似文献   

5.
空间数据获取手段呈现多样化,其数据集每天以PB级的速度在增长,如何高性能地存储、高效处理海量空间数据成为重点问题。基于空间数据库集群系统,提出了Geohash的矢量空间数据分片存储方法,通过该分片方法实现了空间数据的并行导入、分布式矢量空间数据查询。通过实验分析了分布式矢量空间数据库在真实数据集以及虚拟数据集下的读写性能。实验表明:考虑空间分布特征的分布式空间数据库集群在空间查询性能和并发访问性能方面具有更好的扩展性。  相似文献   

6.
图像镶嵌是遥感图像处理中的重要内容,在跨区域遥感图像分析中发挥重要作用。为了解决传统遥感图像并行算法中存在的计算节点利用率低、频繁数据I/O等问题,本文根据Spark分布式内存计算框架,充分利用Spark利于迭代数据处理的优势,提出了一种基于Spark自定义RDD(弹性分布式数据集)的并行镶嵌方法。该方法首先在集群的多个节点上通过相位相关法执行图像重叠区域估计操作,从而提高了图像重叠区域估计的多节点并行计算;然后,通过重写Spark中RDD的compute和getPartitions方法,自定义针对遥感图像处理的RDD,并将图像镶嵌中的重叠区域估计、图像配准和图像融合3个关键步骤作为自定义RDD的Transformation类型的操作算子;最后,通过隐式转换创建自定义RDD,并调用自定义RDD的操作算子实现图像镶嵌的并行处理。实验结果表明,与传统基于MPI的并行镶嵌算法相比,该方法在保证图像镶嵌效果的基础上,能够有效提高大数据量的图像镶嵌效率。  相似文献   

7.
针对空间数据库数据海量且分布的特点,为了能从这些空间数据中更加有效的收集信息和发现知识,介绍了基于信息网格的空间数据挖掘计算模型,在分析空间数据划分一般原则和方法的基础上,针对该计算模型给出了一个数据划分的初步算法,并通过模拟实验对算法的时间性能进行了评价与分析。  相似文献   

8.
近年来,随着遥感空间数据广泛应用于生态系统,推动了区域尺度生态遥感参数模型的发展。敏感性分析对识别模型关键参数,降低模型不确定性和完善模型具有重要作用。区域尺度的生态遥感参数模型,在进行模型参数敏感性分析时,由于涉及到空间数据的复杂运算,单机环境无法满足快速分析的要求。为了提高生态遥感参数模型空间敏感性分析效率,本文以青藏高原为研究区域,利用植被光合模型VPM(Vegetation Photosynthesis Model)和开源云计算平台Hadoop,设计和实现了基于Sobol′的生态遥感参数模型空间敏感性分析并行算法,并在实验室集群环境下进行算法分析,验证了算法的有效性和适用性。该算法的核心是利用MapReduce并行编程技术,对空间敏感性分析中的地图抽样和模型迭代过程进行任务分割,将分割后的子任务分配至不同的计算节点进行并行计算。实验表明,本文提出的并行策略,能有效缩短地图抽样和模型迭代计算时间,相比于单机算法,并行算法的运行速度提高了14倍左右。  相似文献   

9.
随着空间数据的与日俱增,传统依托于单节点的空间数据管理方法,已难以满足海量数据高并发的需求。云计算的兴起带来机遇与挑战,分布式技术与数据库技术的优势互补,为云计算下高效的数据管理提供了可能。本文提出一种在分布式计算引擎(Shark/Spark)中集合之关键技术(包括空间数据映射、空间数据加载、数据备份及空间查询等),将空间数据库对空间数据的高效存储、索引及查询优势与分布式计算引擎对复杂计算的优势相结合,实现一种基于Shark/Spark的分布式空间数据分析框架。在具体实现中,通过空间自定义函数和空间函数下推2种方式实现空间查询,结果表明,影响返回结果数据量的空间查询更适合下推给空间数据库完成,而不影响返回结果数据量的空间查询,利用分布式计算引擎直接运算更有优势。同时,通过与现有的一种分布式GIS方案(ArcGIS on Hadoop)对比发现,空间数据库的空间索引可有效提高查询效率,空间数据管理也更加独立。  相似文献   

10.
林业数据挖掘与可视化的应用分析   总被引:2,自引:0,他引:2  
面对海量的林业空间与非空间数据,提取隐含的信息是"数字林业"急需解决的关键问题之一。数据挖掘和可视化是处理和分析海量空间数据的有力工具,利用它们可以有效地剖析隐藏在数据背后的信息与知识,为我林业规划与决策提供服务。本文将空间数据挖掘和可视化技术整合为一个有机的整体,集成两者的优势,阐述了可视化技术在空间数据挖掘研究中的意义。并讨论了空间数据可视化表达模式和可视化与空间数据挖掘的整合。针对林业资源数据的特点,提出在可视化表达空间数据的基础上对林业数据的多维信息进行综合分析。最后,开发了原型系统,初步实现了林业数据可视化挖掘。  相似文献   

11.
异常轨迹检测是移动对象数据挖掘的一个重要研究领域。TRAOD(TRAjectory Outlier Dectection Algorithm)算法是一种经典的异常轨迹检测算法,但它对于海量轨迹数据的异常检测效率低。为提高海量轨迹数据集的异常检测效率,本文提出了一种利用MapReduce 的异常轨迹检测并行算法(Parallel algorithm for TRAjectory Outlier Detection, PTRAOD),并在此基础上提出了网格索引的异常轨迹检测并行算法(Grid-based Parallel algorithmfor TRAjectory Outlier Dectection, GPTRAOD)。GPTRAOD算法在PTRAOD算法的基础上,利用网格索引实现区域查询,进一步提高算法效率。将PTRAOD算法和GPTRAOD算法在Hadoop 平台上加以实现,结果表明:本文提出的2 个并行检测算法,能实现异常轨迹的检测;GPTRAOD算法的效率优于PTRAOD算法;GPTRAOD算法具有较高的可扩展性和较好的加速比。  相似文献   

12.
流域编码是以子流域划分进行流域相关研究的重要内容。Pfafstetter 流域编码以编码唯一、顾及流域拓扑关系及编码效率高等优点而被广泛采用。本文在流域相关研究的分析范围不断增大、数据精度越来越高的需求背景下,以Pfafstetter 编码为基础,对流域编码并行化方法进行研究。首先,分析了Pfafstetter 编码不全面和码位不一致的问题,改进了Pfafstetter 编码规则;然后,从数据并行的角度,讨论了并行计算环境下的数据划分及并行化策略,进而设计了流域编码并行算法;最后,利用长江中上游流域SRTM数据,在集群系统上对流域编码并行算法的正确性和并行性能进行了测试。实验结果表明,本文设计实现的流域编码并行算法可获取与实际较为一致的计算结果,且提高了编码计算效率,可为基于子流域划分的流域分析并行化提供参考。  相似文献   

13.
比较研究了卫星重力梯度数据粗差探测的阈值法、Grubbs检验、Dixon检验和小波分析法及组合方法。基于卫星重力梯度测量粗差的来源和特征,模拟生成了重力梯度数据的粗差,利用上述粗差探测方法模拟计算的结果表明:联合Dixon检验和小波分析的组合法最有效。  相似文献   

14.
空间聚类是空间数据挖掘的重要方法,而K-Medoids是一种常用的空间聚类算法。K-Medoids聚类算法存在初始点选择问题,而且计算复杂。为了提高算法的有效性和时间效率,本文结合模拟退火算法思想,改进了传统的K-Medoids算法PAM,提出一种基于GPU计算的并行模拟退火PAM算法。类比矩阵乘法运算,定义了一种新的矩阵计算方法,可以有效减少数据在GPU全局内存和共享内存之间的传输,提高了算法在GPU中的执行效率。利用模拟退火算法搜索聚类中心点,保证了聚类结果的全局最优性。基于不同的数据集,将串行和并行模拟退火PAM算法以及已有的遗传PAM算法进行比较,结果表明并行模拟退火PAM算法聚类结果正确,且时间效率高。最后,应用本文改进算法对贵州省安监系统的安全监管隐患数据进行聚类分析,发现了隐患聚集中心,相关结果对政府的决策具有一定的实际应用价值。  相似文献   

15.
目前,地理空间数据面临着由于数据量膨胀和计算量高速增长而引起算法效率低的问题,采用"分而治之"的数据分组策略提高运算效率已成为研究的热点。面向分布不均匀的线数据,本文提出了基于密度的线数据分组算法(简称LGAD)。首先,算法通过查找高密度区提取样本线段,保证了分组算法的起点落到高密区;其次,考虑线空间拓扑关系的复杂性,引用水平、垂直和夹角距离度量线段间距离,创建样本线段与其他线段的距离矩阵;最后,以距离矩阵和最优选择方法实现数据负载均衡分组。实验结果显示,对数据分组和分组后数据进行线段聚类的2个过程中,该算法体现了较好的时间优势,与串行计算相比,在分组数为2-12 时,平均比率达4.3,提高了应用的响应速度,具有较好的实际意义。  相似文献   

16.
随着地理信息科学和系统的发展,GIS数据的时空分辨率和数据量呈现爆炸式的增长趋势。传统的基于个人计算机的景观指数计算软件难以有效快速地完成海量数据的空间分析。针对该问题,本文提出了一个高效的景观指数并行计算方法。首先对原有的并查集连通域标记算法进行了2点改进:① 在第2次遍历数据时,增加了计算斑块面积、周长等斑块基本信息的功能,为景观指数的计算提供必要参数;② 在第2次遍历过程中,增加了重新标记连续序号的功能,减少了原有算法在合并操作后造成的序号不连续,需要重新遍历数据的开销。在此基础上,本文利用MPI并行编程库,采用数据分割和主从进程协同的并行计算模式实现了景观指数的并行计算。实验表明,在保证计算正确性的基础上,本文的并行算法大幅度提高了景观指数的计算性能,为快速分析大规模数据的景观形态和格局提供了有效手段。  相似文献   

17.
蒙古高原土地覆被的变化表征着区域内生态环境的变化,许多环境问题的研究依赖于准确的土地覆被信息。因此,评估当前全球土地覆被数据在区域尺度上的准确性非常重要。本文以蒙古高原为研究区,从构成相似性、类型混淆程度、空间一致性、绝对精度4个方面,分析了GlobeLand30、GLC_FCS30和FROM_GLC 3种30m高分辨率全球土地覆被数据的一致性和准确性。结果表明:① 3种土地覆被数据都显示,草地和裸地是蒙古高原的主要土地覆被类型,任意2种数据的面积序列相关系数都优于0.95;② 3种土地覆被数据中完全一致的区域占蒙古高原总面积的61.87%,主要集中在土地表面异质性低的区域;③ GLC_FCS30数据的总体精度(78.33%)最高,GlobeLand30数据的总体精度(76.85%)次之,FROM_GLC数据的总体精度(75.86%)最低;林地、草地、水体和裸地在3种土地覆被数据中的精度较高(75%以上),灌丛、湿地等地类的精度较低(50%以下)。因此,对蒙古高原土地覆被进行全要素研究时,可以综合考虑选择总体精度最高的GLC_FCS30数据。对特定地类研究的用户,可参考3种土地覆被数据的分类精度有针对性的进行选择。本文可为蒙古高原相关研究选择合适的土地覆被数据提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号