首页 | 本学科首页   官方微博 | 高级检索  
文章检索
  按 检索   检索词:      
出版年份:   被引次数:   他引次数: 提示:输入*表示无穷大
  收费全文   12篇
  免费   3篇
测绘学   8篇
大气科学   1篇
地球物理   1篇
地质学   1篇
海洋学   2篇
综合类   2篇
  2022年   3篇
  2020年   1篇
  2019年   5篇
  2017年   5篇
  2016年   1篇
排序方式: 共有15条查询结果,搜索用时 140 毫秒
1.
ABSTRACT

Earth observations and model simulations are generating big multidimensional array-based raster data. However, it is difficult to efficiently query these big raster data due to the inconsistency among the geospatial raster data model, distributed physical data storage model, and the data pipeline in distributed computing frameworks. To efficiently process big geospatial data, this paper proposes a three-layer hierarchical indexing strategy to optimize Apache Spark with Hadoop Distributed File System (HDFS) from the following aspects: (1) improve I/O efficiency by adopting the chunking data structure; (2) keep the workload balance and high data locality by building the global index (k-d tree); (3) enable Spark and HDFS to natively support geospatial raster data formats (e.g., HDF4, NetCDF4, GeoTiff) by building the local index (hash table); (4) index the in-memory data to further improve geospatial data queries; (5) develop a data repartition strategy to tune the query parallelism while keeping high data locality. The above strategies are implemented by developing the customized RDDs, and evaluated by comparing the performance with that of Spark SQL and SciSpark. The proposed indexing strategy can be applied to other distributed frameworks or cloud-based computing systems to natively support big geospatial data query with high efficiency.  相似文献   
2.
通过研究与分析,选取Spark Streaming技术实现对P实时流数据的处理.同时,研究出一套模型化的方式,实现动态装配软件的执行过程;并通过具体的实例展示了两者结合后,在数据处理的易用性、性能及吞吐量方面,都得到了大幅提升.  相似文献   
3.
随着GIS数据获取与处理技术的迅速发展,以土地利用为代表的矢量空间数据规模不断膨胀,大量生产应用对图层间矢量数据叠加赋值操作性能提出了更高要求.本文提出了基于Apache Spark技术的矢量数据叠加赋值方法,通过扩展Spark技术的弹性分布式数据集,使其提高对于GIS空间数据的表达能力,通过空间索引的构建使得叠加计算可以在Spark集群各节点上分布式高效运行.通过十万、百万、千万3种量级的数据进行实验,结果表明,相比传统算法,基于Spark技术的矢量数据叠加赋值方法有30%—90%的性能提升.  相似文献   
4.
陈逸然  黄舟 《测绘科学》2016,41(12):273-278
针对传统的关系型空间数据库已经不能很好地适应于超大规模高并发空间查询访问的处理需要的问题,该文着眼于解决大数据时代下地理信息服务所面临的日益严峻的大规模空间查询访问需求,探索了一套基于Spark架构的空间查询实现技术,并给出相应的解决方案。提出一个基于Spark并提供类SQL访问接口的空间查询实现模型GeoSpark SQL,解决了以下关键问题:数据的外包矩形数据生成和标准地理信息数据对Spark的导入导出方法;Spark空间查询算子实现方法;Spark空间索引与查询优化方法。GeoSpark SQL模型在初步实验中,已可以满足实时性的要求,对复杂的空间查询也能有良好的性能表现。  相似文献   
5.
Generating a realistic representation of a fractured rock mass is a first step in many different analyses. Field observations need to be translated into a 3-D model that will serve as the input for these analyses. The block systems can contain hundreds of thousands to millions of blocks of varying sizes and shapes; generating these large models is very computationally expensive and requires significant computing resources.By taking advantage of the advances made in big data analytics and Cloud Computing, we have a developed an open-source program—SparkRocks—that generates block systems in parallel. The application runs on Apache Spark which enables it to run locally, on a compute cluster or the Cloud. The block generation is based on a subdivision and linear programming optimization as introduced by Boon et al. (2015). SparkRocks automatically maintains load balance among parallel processes and can be scaled up on the Cloud without having to make any changes to the underlying implementation, enabling it to generate real-world scale block systems containing millions of blocks in minutes.  相似文献   
6.
随着位置信息在各行各业中的广泛应用,空间大数据得到迅猛发展.空间大数据除具有数据量大的特点之外,还具有复杂性,同时,越来越多的应用对数据的实时性也有较高的要求.传统的GIS软件在承载和处理空间数据时,也面临越来越多的挑战,如难以对复杂多样的空间数据进行一体化存储和管理;传统GIS软件架构和单机处理能力,无法对较大体量(10亿条记录或更大)的空间数据进行分析.本文从分布式存储技术、分布式空间处理计算技术和分布式计算协调技术三个方面阐述如何应对上述问题,并提出了将Spark分布式框架和Su-perMap iObject for Spark空间处理引擎相结合的分布式空间处理计算技术,以及数据库的一体化管理和监控技术,实现对多种数据库如PostgreSQL集群、MongoDB和Elasticsearch的统一管理和监控.  相似文献   
7.
空间离群挖掘可以发现空间数据集中非空间属性值与邻域中其他空间对象明显不同的空间对象。随着空间数据量的快速增加,传统集中式处理模式面临单机性能瓶颈、难以扩展等问题,已逐渐不能满足应用需要。因此,本文根据Spark并行计算框架,充分利用Spark快速内存计算和扩展性的优势,提出了一种基于考虑约束条件的空间离群挖掘算法(C-SOM)和Spark的并行空间离群挖掘算法和原型系统。该并行算法以C-SOM为核心,并行地在多个计算节点对全局数据集和各局部数据集执行C-SOM算法,得到全局离群和局部离群。轻量级的原型系统基于Spark实现了该并行算法,采用Browser/Server架构,提供给用户可视化的操作界面,简洁实用。最后,通过福建省东南沿海土壤化学元素调查数据和人工合成数据的离群分析,验证了该并行算法和原型系统的合理性、有效性和高效性。  相似文献   
8.
针对已有大规模数据集并行谱聚类算法的计算耗时和资源占用巨大等问题,基于当前批处理和图计算兼顾的Spark并行技术,提出了大规模数据集谱聚类的并行优化改进算法,算法通过并行单向迭代避免了相似矩阵计算时的数据重复计算,通过并行位置变换、标量乘法替换及距离缩放优化算法的资源占用,通过近似特征向量替代进一步优化算法的计算量。试验结果验证了算法近特征向量的有效性及在大规模数据集下良好聚类性能和扩展性。  相似文献   
9.
物理海洋数据具有多维、时空和海量等特征,主要以NetCDF结构化文件格式进行存储。然而,在分布式环境中,结构化文件存在数据块寻址困难、边界不易判定等问题,制约着大数据场景下的存储及应用。论文设计基于HDFS+Spark的NetCDF物理海洋数据云存储方案,首先采用HDFS分布式存储技术存储和管理物理海洋数据;并设计基于Spark并行计算框架的数据分片方案,复写读取接口获取分布式环境下的NetCDF文件数据块地址,实现了物理海洋数据的高效率存储与查询分析。选取中国海域100 a时长的物理海洋数据进行波高-周期散布图统计实验。结果表明:在数亿级记录数条件下,文中方法可将查询分析耗时由集中式文件存储方式的2 300 s缩短至50 s内,效率较集中式文件存储方式提升95%以上,验证了该方法的正确性和有效性。  相似文献   
10.
面对海量的海表面温度数据,如何使用大数据处理平台和新的处理技术来实时处理、分析并预测海表面温度数据,是一个亟待解决的问题。本文基于现阶段的时间序列方法和专家意见,首先,将类比合成方法引入到海表面温度预测应用中;其次,基于Spark平台提出了一种改进的快速DTW算法SparkDTW;最后,为了充分利用通过时间序列挖掘得到的信息,将SparkDTW与SVM相结合,提出了SparkDTW+SVM混合模型,为海表面温度预测的应用研究提供了较好的理论基础和技术支持。实验结果表明,SparkDTW算法预测精度优于SVM,提高了海表面温度预测效率,验证了将类比合成方法应用在海表面温度预测的可行性;SparkDTW+SVM在精度方面要优于SparkDTW和SVM,表明SVM模型能充分利用时间序列挖掘的信息,验证了SparkDTW+SVM在海表面温度预测的有效性。  相似文献   
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号