首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
词频反文档频率是文档特征权值表示的常用方法,用以评估单词对于语料库中的其中一份文件的重要程度。通过合理映射病例库与语料库的词汇关系,对词频反文档频率模型进行改进,并将改进后的词频反文档频率模型应用到针灸处方疾病症状权重挖掘中,计算出疾病所对应的各种症状权重。实验统计了106种疾病,其中与临床诊疗经验相符合的有84种,准确率达79.2%,实验表明改进的模型能得到较好的疾病症状权重鉴别效果。  相似文献   

2.
数据空间自相关性对关联规则的挖掘与实验分析   总被引:1,自引:0,他引:1  
传统的空间关联规则挖掘,一般足使用属性关联规则的挖掘算法,对空间数据进行泛化处理,不考虑空间数据的空间自相关性,也没有考虑空间自相关与空间关联规则的关系.本文运用改进的Apriori算法对某一数据进行空间关联规则挖掘,并对同一数据进行空间自相关分析,比较两种方法反映的属性的相关性,探讨了数据的空间自相关性对空间关联规则...  相似文献   

3.
本文着重就地理信息数据挖掘中的两种模式:关联规则和序列模式的概念和作用进行了探讨,阐述了在关联规则中寻找大项集算法的实现,以及在数据挖掘的序列模式基础上对寻找大项集算法的结果进行了改进和优化,使数据的关联规则与时间和序列之间建立了密切的联系,从而更好的实现了对于大规模地理信息数据库中数据的挖掘和利用。  相似文献   

4.
针对传统迭代最近点算法不具备抗差性的难题,利用迭代最近点算法配准残差的分布规律,综合M估计及选权迭代思想,提出改进权重的迭代最近点配准算法。根据每个点对配准计算出对应的初始权重,然后在附加点对权重的基础上使用选权迭代法计算出满足条件的权重,以达到抵御粗差的目的。结果表明,选权迭代过程能合理改善三维空间转换参数计算的结果,提出的改进算法较适合含粗差点的点云数据的配准。  相似文献   

5.
城市功能区的动态监测可为城市空间结构分析、公共资源的配置以及城市规划提供决策支持.利用POI数据进行城市功能区的识别,多侧重于城市功能区研究单元的划分,很少涉及POI权重的定量分析和城市功能区的时空变化分析.本文以上海市为例,基于TF-IDF算法提出了一种POI赋权进行城市功能区识别与分析的方法:首先基于网格单元,利用TF-TDF算法计算POI权重,然后通过POI权重与频率密度计算,进行城市功能区的识别,建立城市功能区转移矩阵,进行城市功能区的时空变化分析.研究结果表明:基于公共认知度对各类POI赋权具有不一致性,利用TF-TDF算法计算POI权重克服了传统主观赋值法的过于主观性,对于城市功能区的判别更加精准;基于网格单元的城市功能区识别更加准确,从时间序列角度出发,城市功能区的扩散与演化更加直观;上海市2008—2018年,城市化水平较快,无数据区由51.00%下降到19.52%,工业功能区数量下降,商服和公共功能区数量大幅增加,与上海市实际状况相一致.通过研究可为城市发展规划和产业结构合理布局提供参考依据.  相似文献   

6.
近年来,公交扒窃案呈上升趋势,为了预防和打击此类犯罪,需要有效识别其犯罪模式。传统的犯罪分析方法,往往将时间和空间分割开来研究,本文则引入加权时空关联规则进行挖掘分析,试图找出公交扒窃的案发时空规律。首先,对公交扒窃数据进行时间粒度和空间粒度的划分,将公交主要运营时间以2 h为单位划分成等间隔的公交时段并对其进行编码,将公交线路按公交站点划分成公交路段;其次,对数据进行空间分析和时间归并,提取出每个案件发生的公交路段和案发时段,并将案发时段归并到公交时段中;再次,由于每个公交路段的案发率不同,其对结果的贡献率也不同,因此,给每个路段赋予一个权重;最后,用Apriori算法进行加权关联规则挖掘,得到公交扒窃的时空犯罪模式。研究表明,这种挖掘方法具有以下特点:(1)按公交站点进行公交路段的划分具有创新性;(2)通过对案发路段的加权,能将空间位置重要程度的差异区分开来,更符合实际情况;(3)挖掘过程中同时考虑了时间与空间属性。  相似文献   

7.
空间离群是指空间邻域中属性特征值明显不同于其他对象的空间对象,空间数据离群挖掘能为人们提供很多有趣的信息,但空间数据具有复杂的拓扑关系、方位关系和度量关系等空间特征,传统的面向事务型数据库的离群挖掘算法并不适用于空间数据库。本文提出了基于MST(Minimum Spanning Tree,最小生成树)聚类的空间数据离群挖掘算法(SOM);有机结合了最小生成树理论与密度的方法,既体现了空间离群的局部特性,又体现了空间离群的孤立程度。该算法通过MST维护空间数据的基本空间结构特征,通过打断MST中最不一致的边形成MST聚类,不仅具有密度的聚类方法能够聚集非球状簇和分布不均的数据集的特点,而且聚类结果不依赖于用户参数的选择,因此,离群挖掘结果更合理。最后,通过实例数据,验证了该算法的有效性,它适用于大规模空间数据集的离群挖掘。  相似文献   

8.
录井解释过程中,由于数据特征维度较高和数据集成化能力不足等,需要人工校正录井综合图的岩性剖面。提出一种基于数据挖掘的录井剖面归位解释处理方法,对选取的录井解释数据进行数据清洗,选取有效影响因子,进行基于主成分分析的特征降维;分析录井解释数据特点,选择神经网络算法作为模式挖掘模型;对模式挖掘模型进行表达与解释,将实验获得的最优特征识别模式运用于实际数据。结果表明,采用模式挖掘模型在未知区块的平均识别准确率接近于92%,模型泛化能力相对稳定,对部分常用的岩性的识别准确率接近于95%,与多次人工校正后的归位结果相近。  相似文献   

9.
为了充分挖掘浮动车轨迹数据的潜在特性,本文在OPTICS空间密度聚类算法基础上,提出了一种有向密度的快速聚类方法(D-OPTICS)。该方法通过扇形空间邻域计算其有向密度信息,并基于方向信息约束其密度可连通性,通过有向可达距离曲线生成数据基本簇,最后,通过空间网格及类簇聚合等优化方法,实现其大规模浮动车轨迹数据的快速聚类处理。通过有向时空数据的聚类分析,发现浮动车轨迹的时空分布特性,以提取复杂路网的结构信息。本文以福州市大规模浮动车轨迹数据,对D-OPTICS进行了系统实验,分析表明,该算法可实现浮动车轨迹数据的快速有向密度聚类分析,有助于挖掘发现时空轨迹数据的分布规律,且基于聚类结果提取了福州市区复杂路网的有向拓扑结构图。同时,与DBSCAN及OPTICS等传统的密度聚类算法进行性能对比,实验表明,D-OPTICS算法能更好地支持大规模浮动车轨迹数据的处理要求。  相似文献   

10.
采取混沌映射和自适应惯性权重结合的策略对标准鲸鱼算法进行改进,从而提高算法的全局寻优能力和收敛速度,并针对BP神经网络的劣势,利用改进鲸鱼算法对BP神经网络进行优化处理。在此基础上建立改进鲸鱼算法优化BP神经网络的GPS高程异常拟合预测模型,并通过两组不同地形特征工程中的GPS数据对模型进行验证。结果表明,利用改进鲸鱼算法优化的BP模型进行GPS高程拟合时可取得更高的精度和稳定性。  相似文献   

11.
应用基于Apriori算法的关联规则挖掘技术对一次卷烟市场调查得到的数据进行分析,找出其中的关联规则,作为正确决策的基础。  相似文献   

12.
空间离群挖掘可以发现空间数据集中非空间属性值与邻域中其他空间对象明显不同的空间对象。随着空间数据量的快速增加,传统集中式处理模式面临单机性能瓶颈、难以扩展等问题,已逐渐不能满足应用需要。因此,本文根据Spark并行计算框架,充分利用Spark快速内存计算和扩展性的优势,提出了一种基于考虑约束条件的空间离群挖掘算法(C-SOM)和Spark的并行空间离群挖掘算法和原型系统。该并行算法以C-SOM为核心,并行地在多个计算节点对全局数据集和各局部数据集执行C-SOM算法,得到全局离群和局部离群。轻量级的原型系统基于Spark实现了该并行算法,采用Browser/Server架构,提供给用户可视化的操作界面,简洁实用。最后,通过福建省东南沿海土壤化学元素调查数据和人工合成数据的离群分析,验证了该并行算法和原型系统的合理性、有效性和高效性。  相似文献   

13.
几千年来针灸处方数据的积累,为现代医务工作者提供了丰富的针灸临床经验,但是,如何借鉴海量的针灸处方生成有价值、最优的针灸处方,则是现代针灸学致力于研究的重点。搜集了跨度几千年的大部分针灸处方数据,在对其进行结构化的基础上,利用遗传算法的思想对每一朝代单独聚类产生各自的适应度函数,然后再对各个朝代的适应度函数按其权重组合形成总的适应度函数,最终通过适应度函数取值的高低获得优化后的针灸处方。将算法用于开发针灸处方决策支持系统,经临床实践,其寻优结果具有较高的适用价值。  相似文献   

14.
针对小波神经网络存在的局限性,采用粒子群算法对小波神经网络进行优化,并在此基础上建立GPS高程异常值的拟合模型.为了避免粒子群算法陷入局部极小值和收敛速度慢等问题,采用惯性权重非线性递减和自适应学习因子相结合的策略对粒子群算法进行改进,从而提高模型的训练精度.以某矿区实测GPS数据为例,对所建模型的拟合性能进行验证.结...  相似文献   

15.
挖掘可表征城市之间联系的信息并进行网络复现,已成为一种研究区域联系的重要研究范式。纪传文本地名的共现网络研究对深化理解历史地理要素、拓展城市网络分析的运用具有重要意义。本文基于对地名共现的空间网络的研究综述,提出基于地名共现词频进行网络分析的改进方法,纳入地名稀缺性及区域优势不对称性测算城市关联度,规避了现有测算方法中缺乏考虑地名稀缺性及边权不对称性所导致的信息失真。在网络复现算法检验上,使用《三国志》地名共现数据集,实现了三国时期州郡网络复现中的地理分布、层级结构表达,同时实现了州郡的区域优势识别。结果表明,新算法相较传统的地名共现算法,其计算结果反映了边权的不对称性,且在有限文本数的效度测试中区位推荐算法提高效度5‰,概率误差低于既有算法,复现地名词频的效果更为稳健。另外,既有算法计算结果均为对称联系,而由区位推荐算法得到的非对称性地域关联数据为判别区域体系的节点层级提供了统计依据。  相似文献   

16.
通过处理FG5和A10型绝对重力仪实测数据,探索g7软件的内部算法。若采用软件手册提供的观测方程和算法,A10测量数据的解算结果与软件处理结果的差值在3 μGal以内,而FG5相差较大。在对观测方程和时间观测量进行改正以后,得到的FG5测量数据解算结果与g7软件处理结果的差值在-0.1~0.1 μGal之间。由此认为,改正后的模型和算法与g7软件所采用的解算模型和算法基本一致。  相似文献   

17.
在文明交通的时代背景下,公众对其文明出行、减少交通违法行为的关注度越来越高,研究交通违法行为规律既能减少城市交通违法行为的发生,也能从源头减少交通事故的发生。对福州市2018年交通违法数据按照福建省交通违法扣分相关标准进行分类,利用分类后的数据进行时空关联规则挖掘,得到数据中隐含的规律信息。通过FP-growth算法结合交通违法地址、时间、天气和违法种类进行时空多维数据关联规则挖掘。结果表明:福州市交通违法行为主要聚集在城区和福清市,且上午比下午和晚上更容易发生交通违法行为,受天气影响较小,大多数交通违法行为都是在多云天气下发生;关联规则挖掘在满足最小支持度和置信度下,共挖掘出福州市19处交通违法地址和11种交通违法行为。  相似文献   

18.
Web环境下地学数据共享用户行为模式分析   总被引:1,自引:0,他引:1  
了解科学数据共享用户行为特征对实现高效、精准的数据共享服务具有重要的参考意义。本文基于国家地球系统科学数据共享平台网站服务器日志及服务记录数据,利用空间数据挖掘及Web使用挖掘技术,探索地球系统科学数据共享用户行为模式。在数据预处理阶段,完成用户识别、会话识别、位置识别,并对数据进行空间建模、空间数据库建库。在数据挖掘阶段,分别对用户产生的网页浏览数、会话数、数据集浏览数为对象进行空间“热点”分析,识别用户行为的地域差异。针对用户数据浏览和下载行为,采用FP-growth算法对用户——数据之间进行关联规则挖掘,发现用户对数据关注和使用的高频规律。分析结果表明:(1)该共享平台用户地在国内各省市均有分布,用户最多的3个省(市)分别为北京市、山东省、江苏省,该分布与国内高校学生分布相关程度不高,但与“211工程”高校学生的空间分布相关度较高;(2)空间“热点”分析表明,北京、天津及河北北部无论在网页浏览、数据浏览还是会话量上都是“热点”区域,但识别的“冷点”区域有较大不同,尤其是数据访问“冷点”分布较广,如南方沿海省份、河南省、山东省、四川省等;(3)关联规则挖掘发现多个数据浏览高频项目集以及关联规则。数据下载高频项与数据浏览高频模式较好吻合,但下载行为未表现出明显关联规则。本文提供了一种结合Web使用挖掘和空间数据挖掘的用户行为模式挖掘方法,该方法也可用于其他类型网站的数据挖掘。  相似文献   

19.
空间聚类与传统聚类方法的区别之一在于空间聚类是对空间实体的集群性进行分析,在聚类过程中需考虑模式在空间分布上的一种或几种结构特征,如模式间的远近关系、拓扑关系、方位关系、疏密关系等。然而,传统聚类算法大多忽略空间结构特征对聚类结果的影响。同时,传统数据挖掘过程往往是“黑箱”作业,用户不论感兴趣与否都只能被动地接受挖掘结果,而且结果往往是抽象的、不易理解的。本文对基于MST的可视化空间数据聚类挖掘算法进行了研究,利用Delaunav三角网和MST最小生成树使得地理实体的邻接度与其他属性数据一起参与了空间聚类处理,同时用J2EE技术开发可视化空间聚类挖掘工具,为此类应用系统的建立提供了一种实用的可行方案。  相似文献   

20.
导航大数据是大量与导航相关且具有泛在导航、定位、授时特征的数据集合。城市环境的特性影响居民的出行活动,而居民出行活动中产生的导航大数据则蕴含了城市环境的时空信息。热点区域空间分布以及热点区域之间的关联性特征是城市环境时空特性的重要组成部分,由客观的环境现状和主观的人为活动造成。通过挖掘导航大数据可以揭示这些特征。本文提出了利用导航大数据的城市热点区域关联性挖掘方法。首先,通过对居民出行的起点和终点坐标进行空间聚类,挖掘城市中的热点区域,并依据点的分布特点对城市热点区域进行离散化;然后,利用基于谱聚类和蚁群算法的方法分析居民出行特征,揭示城市中热点区域之间存在的关联性。本文提出的方法能够充分利用导航大数据对城市动态的感知能力。以上海市2007年2月20日的出租车轨迹数据为例进行分析,结果表明:利用导航大数据分析城市热点区域之间的关联性,可以得到具有紧密关联性的热点区域的空间分布特征;上海市居民出行活动频繁的热点区域被划分为15个内部紧密关联的子图,形成该分布特征的内在机制以及居民流通规律与上海市的土地资源利用及道路交通建设现状密切相关。分析方法和结果可为合理的城市功能区域规划,智慧城市建设等提供决策支持和参考信息。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号