期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

A hierarchical indexing strategy for optimizing Apache Spark with HDFS to efficiently query big geospatial raster data

Fei Hu Yongyao Jiang Yun Li Weiwei Song Daniel Q. Duffy 《International Journal of Digital Earth》2020,13(3):410-428

ABSTRACT

Earth observations and model simulations are generating big multidimensional array-based raster data. However, it is difficult to efficiently query these big raster data due to the inconsistency among the geospatial raster data model, distributed physical data storage model, and the data pipeline in distributed computing frameworks. To efficiently process big geospatial data, this paper proposes a three-layer hierarchical indexing strategy to optimize Apache Spark with Hadoop Distributed File System (HDFS) from the following aspects: (1) improve I/O efficiency by adopting the chunking data structure; (2) keep the workload balance and high data locality by building the global index (k-d tree); (3) enable Spark and HDFS to natively support geospatial raster data formats (e.g., HDF4, NetCDF4, GeoTiff) by building the local index (hash table); (4) index the in-memory data to further improve geospatial data queries; (5) develop a data repartition strategy to tune the query parallelism while keeping high data locality. The above strategies are implemented by developing the customized RDDs, and evaluated by comparing the performance with that of Spark SQL and SciSpark. The proposed indexing strategy can be applied to other distributed frameworks or cloud-based computing systems to natively support big geospatial data query with high efficiency. 相似文献

2.

基于Spark Streaming的实时流数据处理模型化研究与实现

云惟英苟宇王京王丽莉《测绘与空间地理信息》2017,40(Z1)

通过研究与分析,选取Spark Streaming技术实现对P实时流数据的处理.同时,研究出一套模型化的方式,实现动态装配软件的执行过程;并通过具体的实例展示了两者结合后,在数据处理的易用性、性能及吞吐量方面,都得到了大幅提升. 相似文献

3.

基于云计算系统的空间查询处理方法

陈逸然黄舟《测绘科学》2016,41(12):273-278

针对传统的关系型空间数据库已经不能很好地适应于超大规模高并发空间查询访问的处理需要的问题,该文着眼于解决大数据时代下地理信息服务所面临的日益严峻的大规模空间查询访问需求,探索了一套基于Spark架构的空间查询实现技术,并给出相应的解决方案。提出一个基于Spark并提供类SQL访问接口的空间查询实现模型GeoSpark SQL,解决了以下关键问题:数据的外包矩形数据生成和标准地理信息数据对Spark的导入导出方法;Spark空间查询算子实现方法;Spark空间索引与查询优化方法。GeoSpark SQL模型在初步实验中,已可以满足实时性的要求,对复杂的空间查询也能有良好的性能表现。相似文献

4.

基于Spark的矢量数据叠加赋值方法研究与实现

卢浩范善策李晓坤王少华《测绘与空间地理信息》2017,40(Z1)

随着GIS数据获取与处理技术的迅速发展,以土地利用为代表的矢量空间数据规模不断膨胀,大量生产应用对图层间矢量数据叠加赋值操作性能提出了更高要求.本文提出了基于Apache Spark技术的矢量数据叠加赋值方法,通过扩展Spark技术的弹性分布式数据集,使其提高对于GIS空间数据的表达能力,通过空间索引的构建使得叠加计算可以在Spark集群各节点上分布式高效运行.通过十万、百万、千万3种量级的数据进行实验,结果表明,相比传统算法,基于Spark技术的矢量数据叠加赋值方法有30%—90%的性能提升. 相似文献

5.

大规模数据集Spark并行优化谱聚类

吕洪林尹青山《测绘通报》2019,(12):96-100

针对已有大规模数据集并行谱聚类算法的计算耗时和资源占用巨大等问题，基于当前批处理和图计算兼顾的Spark并行技术，提出了大规模数据集谱聚类的并行优化改进算法，算法通过并行单向迭代避免了相似矩阵计算时的数据重复计算，通过并行位置变换、标量乘法替换及距离缩放优化算法的资源占用，通过近似特征向量替代进一步优化算法的计算量。试验结果验证了算法近特征向量的有效性及在大规模数据集下良好聚类性能和扩展性。相似文献

6.

基于C-SOM和Spark的并行空间离群挖掘方法及应用

潘淼鑫林甲祥陈崇成叶晓燕《地球信息科学学报》2019,21(1):128-136

空间离群挖掘可以发现空间数据集中非空间属性值与邻域中其他空间对象明显不同的空间对象。随着空间数据量的快速增加,传统集中式处理模式面临单机性能瓶颈、难以扩展等问题,已逐渐不能满足应用需要。因此,本文根据Spark并行计算框架,充分利用Spark快速内存计算和扩展性的优势,提出了一种基于考虑约束条件的空间离群挖掘算法（C-SOM）和Spark的并行空间离群挖掘算法和原型系统。该并行算法以C-SOM为核心,并行地在多个计算节点对全局数据集和各局部数据集执行C-SOM算法,得到全局离群和局部离群。轻量级的原型系统基于Spark实现了该并行算法,采用Browser/Server架构,提供给用户可视化的操作界面,简洁实用。最后,通过福建省东南沿海土壤化学元素调查数据和人工合成数据的离群分析,验证了该并行算法和原型系统的合理性、有效性和高效性。相似文献

7.

基于Shark/Spark的分布式空间数据分析框架

温馨罗侃陈荣国《地球信息科学学报》2015,17(4):401-407

随着空间数据的与日俱增,传统依托于单节点的空间数据管理方法,已难以满足海量数据高并发的需求。云计算的兴起带来机遇与挑战,分布式技术与数据库技术的优势互补,为云计算下高效的数据管理提供了可能。本文提出一种在分布式计算引擎（Shark/Spark）中集合之关键技术（包括空间数据映射、空间数据加载、数据备份及空间查询等）,将空间数据库对空间数据的高效存储、索引及查询优势与分布式计算引擎对复杂计算的优势相结合,实现一种基于Shark/Spark的分布式空间数据分析框架。在具体实现中,通过空间自定义函数和空间函数下推2种方式实现空间查询,结果表明,影响返回结果数据量的空间查询更适合下推给空间数据库完成,而不影响返回结果数据量的空间查询,利用分布式计算引擎直接运算更有优势。同时,通过与现有的一种分布式GIS方案（ArcGIS on Hadoop）对比发现,空间数据库的空间索引可有效提高查询效率,空间数据管理也更加独立。相似文献

8.

Parallel and scalable block system generation

《Computers and Geotechnics》2017

Generating a realistic representation of a fractured rock mass is a first step in many different analyses. Field observations need to be translated into a 3-D model that will serve as the input for these analyses. The block systems can contain hundreds of thousands to millions of blocks of varying sizes and shapes; generating these large models is very computationally expensive and requires significant computing resources.By taking advantage of the advances made in big data analytics and Cloud Computing, we have a developed an open-source program—SparkRocks—that generates block systems in parallel. The application runs on Apache Spark which enables it to run locally, on a compute cluster or the Cloud. The block generation is based on a subdivision and linear programming optimization as introduced by Boon et al. (2015). SparkRocks automatically maintains load balance among parallel processes and can be scaled up on the Cloud without having to make any changes to the underlying implementation, enabling it to generate real-world scale block systems containing millions of blocks in minutes. 相似文献

9.

一种分布式架构的空间大数据服务平台

肖睿饶庆云董晓晶田江涛胡中南《测绘与空间地理信息》2017,40(Z1)

随着位置信息在各行各业中的广泛应用,空间大数据得到迅猛发展.空间大数据除具有数据量大的特点之外,还具有复杂性,同时,越来越多的应用对数据的实时性也有较高的要求.传统的GIS软件在承载和处理空间数据时,也面临越来越多的挑战,如难以对复杂多样的空间数据进行一体化存储和管理;传统GIS软件架构和单机处理能力,无法对较大体量(10亿条记录或更大)的空间数据进行分析.本文从分布式存储技术、分布式空间处理计算技术和分布式计算协调技术三个方面阐述如何应对上述问题,并提出了将Spark分布式框架和Su-perMap iObject for Spark空间处理引擎相结合的分布式空间处理计算技术,以及数据库的一体化管理和监控技术,实现对多种数据库如PostgreSQL集群、MongoDB和Elasticsearch的统一管理和监控. 相似文献

10.

结合手机信令数据和地理空间数据的居民职住信息识别

侯笑宇司连法王梅红贺风《测绘通报》2019,(5):139-142

基于手机信令数据和地理信息数据，融合地理信息空间运算能力，创新性地提出了一种识别居民职住信息的方法。在Spark平台上，首先运用地理信息空间分析服务将手机信令数据绑定至地理实体，再通过降噪算法完成定位校准和信令数据的清洗、加工，最后构建数学算法和模型得到居民的工作地和居住地。以成都市居民连续两周的手机信令数据为例，验证了该方法的可行性，该成果将会为商业选址、客群管理、城市规划等应用提供数据支撑。相似文献