首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
空间聚类是当前地球信息科学与计算机科学领域共同关注的热点问题之一,常用来揭示空间数据分布规律以及发现空间数据异常。空间聚类有效性评价即对空间聚类结果进行定量、客观的评判,对于在实际应用中针对不同数据集选取最优的空间聚类算法以及确定最佳的聚类参数具有重要意义。首先选取并编程实现了数种空间聚类有效性评价方法,包括聚类中心的距离矩阵、距离方差、改进Hubert's统计、Davies-Bouldin、Calinski-Harabasz和基于信息论的空间聚类有效性评价方法等,同时提出了顾及簇间分离度和簇内紧凑度的空间聚类有效性评价方法,并通过试验分析验证了其可行性及有效性。然后在K-Means法对数据集进行聚类的基础上,对比研究了前述聚类有效性评价方法的特性及优缺点。  相似文献   

2.
目前,地理空间数据面临着由于数据量膨胀和计算量高速增长而引起算法效率低的问题,采用"分而治之"的数据分组策略提高运算效率已成为研究的热点。面向分布不均匀的线数据,本文提出了基于密度的线数据分组算法(简称LGAD)。首先,算法通过查找高密度区提取样本线段,保证了分组算法的起点落到高密区;其次,考虑线空间拓扑关系的复杂性,引用水平、垂直和夹角距离度量线段间距离,创建样本线段与其他线段的距离矩阵;最后,以距离矩阵和最优选择方法实现数据负载均衡分组。实验结果显示,对数据分组和分组后数据进行线段聚类的2个过程中,该算法体现了较好的时间优势,与串行计算相比,在分组数为2-12 时,平均比率达4.3,提高了应用的响应速度,具有较好的实际意义。  相似文献   

3.
网络环境下,如何让用户快速发现所需数据是地学数据共享平台长期面临的挑战之一。本文基于国家地球系统科学数据共享平台网站服务器日志数据获取用户搜索行为及数据集访问行为,使用聚类算法挖掘用户行为模式,并基于会话聚类 模式开发在线搜索和访问预测算法。在数据预处理阶段,对原始服务器日志数据进行清洗、用户识别、用户会话识别、搜索词提取。在模式挖掘阶段,采用DBSCAN算法对会话进行聚类。考虑到会话向量值的二元性,聚类算法中的距离采用Jaccard距离函数计算。视每个会话聚类包含的搜索词集合为一个文本,所有用户历史搜索词集合为语料库,统计各聚类中搜索词的TF-IDF值。在线搜索推荐,以搜索词检索各聚类中TF-IDF值,返回TF-IDF值最高的搜索词所属聚类,并给出该聚类的高频项目作为推荐。在线访问推荐,则以用户实时访问向量为查询向量,计算该向量与聚类中心的聚类。根据聚类排序,给出距离最近的聚类,并产生该聚类中高频项目作为推荐。实验结果表明基于TF-IDF和聚类的搜索推荐有较高的准确率和召回率,访问推荐效果基于高频统计的推荐有较大提高。研究可得出以下结论:① 地学共享网用户访问和搜索行为体现了专业性的特点,其行为较普通网站用户可预测性更好;② 对于地学数据共享用户行为预测,需明确定义用户行为,并采用合适的距离函数描述行为相似性;③ 通过搜索词TF-IDF值来预测用户数据需求的方法可行,以此产生的推荐可作为搜索结果的补充。本研究可服务于地学领域数据共享平台建设,提高共享服务质量,也可为其他领域科学数据共享提供技术方法借鉴。  相似文献   

4.
为了充分挖掘浮动车轨迹数据的潜在特性,本文在OPTICS空间密度聚类算法基础上,提出了一种有向密度的快速聚类方法(D-OPTICS)。该方法通过扇形空间邻域计算其有向密度信息,并基于方向信息约束其密度可连通性,通过有向可达距离曲线生成数据基本簇,最后,通过空间网格及类簇聚合等优化方法,实现其大规模浮动车轨迹数据的快速聚类处理。通过有向时空数据的聚类分析,发现浮动车轨迹的时空分布特性,以提取复杂路网的结构信息。本文以福州市大规模浮动车轨迹数据,对D-OPTICS进行了系统实验,分析表明,该算法可实现浮动车轨迹数据的快速有向密度聚类分析,有助于挖掘发现时空轨迹数据的分布规律,且基于聚类结果提取了福州市区复杂路网的有向拓扑结构图。同时,与DBSCAN及OPTICS等传统的密度聚类算法进行性能对比,实验表明,D-OPTICS算法能更好地支持大规模浮动车轨迹数据的处理要求。  相似文献   

5.
为解决传统的K-means算法需要人工确定K值和随机选取初始簇中心容易陷入局部最优的问题,提出自适应簇中心选择算法.首先将任意选取的一篇文档和与其距离最远的文档作为初始簇中心聚类得到2个大类并重新计算簇中心,然后,找出与新的簇中心距离大于设定阈值的文档并依据文档距离判断是否需要增加新的类别,迭代上述过程确定聚类簇中心及类别数.实例验证结果表明,提出的算法与改进的K-means算法相比,在聚类结果的质量和算法收敛的速度上都有明显的改善.  相似文献   

6.
轨迹聚类是空间数据挖掘领域的一个研究热点,对城市交通规划、路网结构提取与更新等具有重要意义。轨迹聚类包括轨迹相似性度量和聚类参数设置2个核心问题。然而,由于轨迹的形态结构特征复杂,现有轨迹相似性度量指标存在对噪声敏感或未充分考虑轨迹运动方向一致性的问题,且大多数聚类算法仍需人为设置参数,聚类挖掘结果的质量受到用户主观经验的影响。针对上述问题,本文提出了一种融合多特征的移动轨迹自适应聚类方法。首先,通过融合轨迹的空间邻近性和运动方向特征定义了一种对噪声鲁棒的轨迹相似性度量指标—DSPD距离;在此基础上,通过扩展Ward层次聚类方法提出了一种基于中心轨迹概念的空间层次聚类算法,该算法使用DSPD距离作为相似性度量指标,利用聚类特征曲线自动确定最佳聚类参数。以11组模拟轨迹数据和武汉市真实轨迹数据为例进行实验与分析,结果表明,本文方法在顾及空间邻近性的基础上,可以有效区分不同移动方向的轨迹簇,同时,利用轨迹数据特征自动确定聚类参数,降低了挖掘结果的主观性。  相似文献   

7.
针对核聚类算法与免疫网络聚类算法的不足,将免疫网络机制与核理沦相结合,通过用核距离函数代替欧拉距离函数,设置反映抗体识别抗原数量的权重和引入人工免疫网络机制等解决样本类边界模糊和类间数据密度分布不均匀问题.最后通过人工数据集和lRIS数据集上的仿真试验,验证了算法的有效性.  相似文献   

8.
针对CURE算法处理大量数据时聚类速度较慢的问题,一方面采用网格聚类方法对初始聚类对象进行网格预聚类处理,缩短初始化族聚类时间;另一方面采用MapReduce框架对算法进行并行性扩展,使其能够充分利用集群的计算和存储能力,从而加速海量数据的处理。以联合程序开发网站的数据集和MATLAB人工数据集作为测试数据集,对改进算法Grid-CURE进行实验分析。实验结果表明:方法可有效提升处理大数据的效率以及提升其抗噪声能力。  相似文献   

9.
高光谱遥感能以纳米量级宽度的窄波段及多达数百个的波段,对目标进行连续的光谱成像,但其海量数据及相邻波段高度相关造成的数据冗余却制约着它的应用.因此,对高光谱遥感影像分类须进行有效的处理、寻找最优特征,以增强地物的最大可分性.本文首先针对EO-4 Hyperion高光谱影像波段维数高,相关性强和数据量大等特点,利用独立成...  相似文献   

10.
聚类是数据挖掘中很重要的一部分.提出一种新的算法,不仅能避免最终的结果陷入局部解而且不用预知类别就可以对大批的数据进行分类,同时可以很容易的找出噪声数据.实验证明了这种算法在科学数据挖掘中是很有效的.  相似文献   

11.
从四色问题的抽象模型入手,通过对现有的搜索算法——遗传算法、模拟退火算法这两种算法的原理和流程进行了较为细致的分析,总结出它们在地图四色填充实现过程中的优点与不足之处,并进行比较,找出这两种算法的结合点进行算法的改进优化,将模拟退火算法引入遗传算法,使它们结合起来解决地图四色填充问题,从而形成相对优化的算法,以期达到更...  相似文献   

12.
TGIS(Spatial-TemporalGIS)是GIS的重要分支,是实现动态数字地球的关键技术。静态3DGIS的技术已基本成熟,而其加上时间维的4DTGIS的关键技术是时空数据库的建立及其操作,它们与时空数据模型有关,主要处理超海量数据的存取和查询。本文结合快照模型的简单易行性和面向对象模型的方便灵活性,同时避开快照模型的不一致性和冗余性,以及面向对象的复杂性,探讨基于快照方式的面向对象模型,是一种实用的TGIS数据模型。它在对时间属性的处理方面采用独到的方法,首先建立一个基数据,然后通过快照方式产生缓冲数据,经过比较形成一个以对象变化为主的带有时间戳的新数据层。这样,在数据存储方面,节省了很多空间;在查询分析方面,以对象变化分层的数据算法更容易实现。此理论方法有效解决了TGIS的“瓶颈”问题,并通过自动元胞机理论(CA)予以证明。  相似文献   

13.
DEM数据作为重要的基础地理信息数据,其数据完整性问题不容忽视。基于DEM数据完整性认证的要求,以及相关认证算法的欠缺,本文运用感知哈希技术设计了一种DEM数据认证算法,并可实现篡改定位。因DEM数据具有数据量大、细节丰富的特点,首先对其进行规则格网划分,将其划分为互不重叠的格网单元;然后对格网单元数据进行DCT分解,提取数据的特征信息以生成特征向量矩阵,并对特征向量矩阵进行摘要化处理;随后,使用Logistic混沌系统对简化后的特征向量矩阵进行置乱;对置乱矩阵进行量化、编码后,便可生成感知哈希序列。在数据认证时,首先计算原始数据与待验证数据的高程相对中误差,再将二者的感知哈希序列进行归一化汉明距离度量,结合判定阈值,即可对DEM数据进行数据认证与篡改定位。该算法对DEM数据的格式转换、水印嵌入等攻击有较强的鲁棒性,对各类改变内容的操作具有敏感性,并可实现DEM数据微小篡改的识别与定位。与已有的DEM完整性认证方法相比,将DEM数据的"内容"作为完整性度量的重要标准,在具体应用中更具有实用价值。  相似文献   

14.
Vatti算法是常用的矢量多边形裁剪算法之一,在其构建扫描束实现交点计算的过程中,二叉树的数据结构和递归计算方法导致其计算效率受矢量多边形边界顶点数量影响显著。本文针对Vatti算法执行过程中较为耗时的扫描束构建环节,提出了一种多边形边界顶点预排序的优化方法——VCS(Vertex Coordinate Pre-Sorting)方法,并基于该方法实现了对Vatti算法的GPU细粒度并行化。VCS方法使用双向链表对Vatti算法原有的二叉树数据结构进行了替换,以较小的额外存储空间取得了多边形边界顶点信息查找效率的明显提升。在GPU环境下采用双调排序算法对多边形边界顶点数组元素进行并行化排序并过滤出有效值,克服了原始算法使用二叉树存储导致效率低下的问题。实验结果表明,改进后的算法与原始算法相比,具有相同的计算精度;当多边形顶点数量为92万,CUDA每个线程块中的线程数量为32时,使用VCS优化方法,与采用CPU计算构建扫描束方法相比,GPU并行化方法获得了39.6倍的相对加速比,矢量多边形叠加分析算法效率总体上提升了4.9倍。  相似文献   

15.
广义三棱柱(GTP)是近年来提出并被广泛应用于三维地质建模领域的一种较为成熟的空间数据模型,可满足大多数地质钻孔数据的三维地质建模的要求。然而,现有针对GTP模型的三维空间剖切分析方法,仍无法适用于偏斜钻孔数据所建三维地质模型高效多次任意剖切、不能支持较为复杂的地质模型空间分析的问题。本文通过对GTP剖切算法改进研究,提出了采用动态四面体剖分法减小数据冗余;鉴于GTP形态较为复杂,可对剖切后保留多面体进行拓扑关系的重组,解决任意多次剖切问题;将多次“面-体”形式的单剖切运算组合为一次“体-体”形式的复合剖切运算的方法,可高效实现对三维地质模型空间分析。本文着重面向GTP体元的多重任意切剖平面的剖切问题,在分析了GTP体元特征的基础上,弥补了三维地质建模领域中对GTP体元任意、多重剖切方法研究的不足。应用实例表明,上述改进算法可以提高GTP剖切计算速度,并能够快速实现巷道掘进模拟,以及空间开挖模拟等复杂的空间分析功能。  相似文献   

16.
 数据划分是并行算法设计的重要步骤,其结果的均衡性与高效性是提高并行算法性能的重要前提。对于集聚分布的点集数据,传统的D-TIN(Delaunay Triangulation)并行算法尚未给出划分结果均衡、划分效率高效的理想解决方案。针对上述问题,本文在传统D-TIN并行算法规则条带划分方法的基础上,提出采用动态条带实现针对集聚分布点集数据的均衡、高效划分方法。首先,获取点集的最小外接矩形,并使用规则矩形条带按照同一方向进行点集粗分,然后,按顺序进行相邻条带的合并,必要时需动态调整合并区域边界以达到满足负载均衡的要求。为了提高划分效率,尽量减少边界移动次数,采用了对半移动的规则进行边界的动态调整。为了验证动态条带划分方法的适用性,本文使用人工模拟点集数据,进行加速比测试,使用实验区域真实数据进行D-TIN并行构建效率的统计,实验证明,采用该数据划分方法可以获得更高、更稳定的并行加速比,并且数据分布形态和数据规模对加速比的影响较小,进行D-TIN构建可以获得更好的执行效率,并且加速效果更加明显。  相似文献   

17.
目前,空间关系查询中常用的Plane Sweep 算法是一种串行方法,而关于多核CPU的并行查询算法,在面对海量数据查询时,由于CPU核心数及线程数量的限制,其难以满足查询效率需求。针对该问题,本文提出了一种全新的异构多核架构多边形图层间空间关系查询的并行算法。首先,利用STR 树索引过滤不相交的多边形;然后,对过滤后多边形的线段构建四叉树索引,利用CPU+GPU架构并行计算线段的相交以判断多边形环间的拓扑关系;再根据环间的拓扑关系计算多边形间的维度扩展九交模型(DE-9IM)参数值,据此确定多边形间的空间关系;最后,通过实验验证了该算法的准确性和高效性。实验表明,本算法能有效缩短大数据量的空间查询时间。在实验中逐渐增加目标数据集和源数据集多边形的数量,当两数据集都为50 000 个多边形时,以包含关系为例,相比于ArcGIS,本文提出的算法可达到2 倍的加速比。  相似文献   

18.
手机的普及使手机定位数据成为分析个体时空行为特征的新兴重要数据源之一,并被逐渐应用到人口管理、城市规划、交通分析和流行病防控等众多领域的研究中。从手机定位数据中识别个体的停留区域是众多基于手机定位数据研究的重要基础环节。然而,当前常用的手机定位数据定位精度相对较低,且往往存在定位震荡和定位漂移导致的数据噪声,这些因素增加了从手机定位数据中识别停留区域的难度。为了提高从手机定位数据中识别个体停留区域的准确性,本研究结合个体行为的时空连续性,提出了一种基于滑动窗口的增长聚类算法。实验结果显示,相较常用的ST-DBSCAN算法和SMoT算法,对于采样时间间隔稀疏的手机定位数据,本研究提出的滑动窗口聚类算法在准确率方面的提升幅度最大可以达到35%。由于隐私问题,当前研究和应用中使用的大规模手机定位数据集中的时间分辨率往往较低,因此,本研究提出的滑动窗口聚类算法具有较为广泛的应用场景,可增强基于手机用户停留区域的众多研究结果的可靠性,为手机定位数据的广泛合理应用提供关键技术支撑。  相似文献   

19.
异常轨迹检测是移动对象数据挖掘的一个重要研究领域。TRAOD(TRAjectory Outlier Dectection Algorithm)算法是一种经典的异常轨迹检测算法,但它对于海量轨迹数据的异常检测效率低。为提高海量轨迹数据集的异常检测效率,本文提出了一种利用MapReduce 的异常轨迹检测并行算法(Parallel algorithm for TRAjectory Outlier Detection, PTRAOD),并在此基础上提出了网格索引的异常轨迹检测并行算法(Grid-based Parallel algorithmfor TRAjectory Outlier Dectection, GPTRAOD)。GPTRAOD算法在PTRAOD算法的基础上,利用网格索引实现区域查询,进一步提高算法效率。将PTRAOD算法和GPTRAOD算法在Hadoop 平台上加以实现,结果表明:本文提出的2 个并行检测算法,能实现异常轨迹的检测;GPTRAOD算法的效率优于PTRAOD算法;GPTRAOD算法具有较高的可扩展性和较好的加速比。  相似文献   

20.
对于鲁棒矢量空间数据水印技术而言,几何变换攻击是难以对付的一种攻击。现有的抗几何变换攻击算法难以抵抗顶点攻击,因此,借用数据归一化的思想,本文提出了一种归一化的矢量空间数据盲水印算法。该算法在嵌入水印前将空间数据的坐标值进行归一化处理,以实现对平移和缩放的不变性,并通过修改顶点坐标数据的归一化值来嵌入水印。水印被多次嵌入,实现了水印的盲提取。实验结果表明,该方法对平移、缩放、増删点、裁剪、压缩、要素排序、数据格式转换等攻击具有较好的鲁棒性,同时能控制水印嵌入引起空间数据误差的大小。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号