首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 328 毫秒
1.
针对传统分词对词典依赖过高的问题,该文提出了一种基于深度学习的中文地址要素的切分与重组算法。首先利用二元语法(Bigram)二分法将地址切分,然后用网络兴趣点(POI)数据地址集作为样本,采用基于深度学习的方法对地址要素进行特征匹配与要素重组,最终实现以地址要素为单元的中文地址自动切分。本文采用上万条网络采集的POI地址数据作为实验样本,实验结果表明,该算法不仅降低了对词典的依赖,同时也对地名地址的切分正确率有较大提升。  相似文献   

2.
针对现有中文地名匹配算法匹配核心地址要素不明确,准确性不足的问题,本文提出了一种基于规则与词典相结合的地址匹配算法。该算法通过地址要素特征词来对地址要素进行初识别,利用地址要素词典对可能的地址要素进行匹配,通过遍历词典得到所有可能的地址要素,对各类地址要素进行组合得到最有效地址要素,利用最有效地址要素进行地址匹配与定位。利用该算法对高德地图随机抽取的1800条POI数据进行了匹配验证,实验结果表明该算法在匹配效率和准确性两方面均有较大提升。  相似文献   

3.
孙立财  陈以松  熊杰  罗安  王勇 《测绘通报》2021,(10):108-113
随着自发地理信息和中文地址要素切分技术的发展,地址要素的质量有待评价。本文针对中文地址文本切分产生的地址要素质量难以有效评价的问题,提出了一种多源数据和网络检索支持下的地址要素可信度评估方法。首先利用中文分词工具对地址要素进行分词与词性标注,通过分析词频和词性组合模式,对地址要素的命名结构进行可信度计算。其次基于大规模的地址样本、道路数据及POI数据,挖掘多源数据对地址要素的数据支撑,计算数据支持度。然后利用搜索引擎对地址要素进行快速检索,分析搜索结果与数量,对地址要素的网络可信度进行计算。最后提出一种地址要素综合可信度计算模型,实现地址要素的综合可信度计算。试验结果表明,该模型与方法不仅能够高效快速地计算中文地址文本中地址要素的可信度,还能够有效发现地址要素中存在的偏僻、虚假等相关问题,为地址要素的自动化检测与标准化处理提供参考。  相似文献   

4.
王勇  刘纪平  郭庆胜  罗安 《测绘学报》2016,45(5):623-630
针对互联网POI(兴趣点)地址信息中广泛存在的地址要素不完整、文字表达不一致等不规范现象,提出一种顾及位置关系的网络POI地址信息标准化处理方法,首先对POI信息进行切分提取并逐层匹配地址树模型;然后基于4种位置关系从标准POI库中选出相应集合,作为丰富和修正非标准POI地址要素的候选;最后通过最小粒度地址要素的回溯,实现POI地址信息的快速标准化处理。试验表明该方法可以获得较高的准确率,尤其适用于在互联网数据环境中的POI地址信息标准化。  相似文献   

5.
地址数据的规范化表达是地理编码的前提。首先,通过设计地址要素层次模型,建立地址要素词典库,并存储地址要素名称、地址通名、地址专名、地址要素类型编码等,用于地址要素拆分;其次,采用首次取两个字、再逐次加一字的地址通名切分方法对原始地址数据进行地址要素拆分和规范化,弥补了常用的最大正向分词算法中M系数难以确定的不足,避免了没有意义的循环,提高了查找效率和准确率。最后,基于地址要素组合规则对拆分后的地址要素进行重构获得规范化的地址。  相似文献   

6.
不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。  相似文献   

7.
根据近来对地理信息Web服务搜索引擎的研究,设计一种基于网络爬虫自动采集POI(Point Of Interest)深度服务信息的方法。使用网络爬虫与DOM(Document Object Model)技术从发布相关POI深度服务信息的网站抓取实时信息,并通过编辑距离与针对地址匹配的改进最大公共子序列分析页面内容与POI主题相关度,进而将相关度最高的深度服务信息与POI点匹配,生成深度服务信息点特征。实验证明了方法的有效性。  相似文献   

8.
通过对邮政标准地址进行结构化解析、构建地址要素词典和基于编辑距离算法计算地址相似度,实现了描述性、非规范化、机器难以理解的中文地址与邮址编码的匹配.本文以苏州市为试点城市,构建了11组测试集进行验证,实验结果表明,该方案对于提高中文地址与邮政编码匹配的正确率具有实际意义.  相似文献   

9.
地址要素识别机制的地名地址分词算法   总被引:2,自引:1,他引:1  
本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于整词二分分词词典,采用FMM算法,增加了基于地址要素的识别机制,从而有效地实现了对地名地址串的拆分。识别机制通过判断地址要素的完整性完成对未登录地址名称的处理,解决了分词算法对未登录地址名称的识别问题。测试证明新算法能够有效实现对地名地址串的拆分,从很大程度上解决对未登录地址名称的识别问题。  相似文献   

10.
针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅在正确率和召回率等指标上优于传统算法,更提出了一种用于解决未登录地址名词识别问题的新方法。  相似文献   

11.
刘现印  李玉琳  尹斌  田沁 《测绘科学》2021,46(8):165-171,212
中文地址解析是中文地址匹配最核心的问题.针对当前比较流行的基于条件随机场(CRF)或者基于规则的中文地址解析方法,该文结合深度学习中的双向门控循环网络(BiGRU)和CRF的方法来实现中文地址分词;并且针对当前的层次地址模型和四词位标注体系,该文采用 了基于空间关系地址模型和五词位的标注方法.然后分别采用基于规则的模型、CRF、BiGRU+SoftMax和BiGRU+CRF模型进行对比实验,发现该文提出的BiGRU+CRF模型配上新的空间关系地址模型及标注体系,可以对地址解析方面有更好的效果.  相似文献   

12.
兴趣点(POI)是电子地图、导航等应用关注的主要要素之一,其数据质量直接影响地理信息服务的智能化水平。鉴于OpenStreetMap(OSM)等众源地理信息数据的非专业收集特征,其POI数据标签常存在缺失、标记错误等质量问题,亟须对POI标签进行智能化推断和增强处理。常规神经网络模型直接从单一层次预测多类别数据,未考虑POI类别在数量上分布不平衡的问题,其预测标签倾向于包含较多数据的类别,学习算法难以泛化小规模样本规则。本文考虑到不同POI类别间的数据规模差异较大,提出基于多层次POI类别组织的神经网络预测方法,通过小样本类别的层次化聚合,建立POI类别树结构,在树结构的不同层次上实现数据规模相对平衡的类别划分,支持神经网络高精度的标签预测。试验表明,本文方法仅需利用POI基础位置信息与邻近关系,其预测精度高于传统方法。  相似文献   

13.
宋子辉 《遥感学报》2013,17(4):788-801
地址匹配算法是位置服务的核心关键技术,具有广泛应用前景。在分析现有三类主要的中文地址匹配算法——要素层级匹配法、全文检索法、正则表达式法的基础上,本文提出了基于自然语言理解的中文地址匹配算法。在这个新算法中,建立了空间关系地址模型以解决中文地址抽象问题、地址库逻辑模型以解决地址信息的空间知识表达问题。新算法的完整流程包括 “预处理”、“地址解析”、“地址要素标准化”、“推理匹配”和“匹配登记”等五个环节,本文重点阐述了“地址解析”和“推理匹配”这两个重要环节,分别依据“自然语言理解”中的“中文分词”和“语义推理”原理,对用非结构化的中文自然语言来描述的中文地址进行处理,实现自然语言理解方法与地址匹配之间的结合,从而建立完整的基于自然语言理解的中文地址匹配算法。为验证该算法,开发了“中文地址智能匹配实验系统”,对河南省濮阳市人口库1000条居民地址数据进行匹配,匹配率达到了95%,准确率高于93%。  相似文献   

14.
吕欢欢  宋伟东 《测绘科学》2015,40(3):96-100
针对数字城市地理空间框架建设中地址匹配的具体需求和现存中文地址匹配方法中存在的问题,该文提出一种多元地址要素组合的地址匹配方法:分析地名地址数据的分词方法和作为参考数据的地址编码库的物理结构;给出组合策略和匹配流程,针对地址要素的不同重要程度分配权重,计算不同组合中各地址要素相似性匹配指数,并采用加权求和方式获得匹配总分;并以城市地址编码数据库为参考数据,工商领域监管对象地名地址数据为输入地址对提出方法进行实验和验证,与其他匹配算法对比的结果表明,提出算法有效、正确、灵活。  相似文献   

15.
建筑物要素合并是大比例尺地图缩编过程中实现空间结构简化的重要手段。基于综合规则的合并方法难以同时顾及要素形态、分布等诸多特征,受预设算法参数影响大,综合过程缺乏灵活性。针对这一问题,本文提出了一种基于图顶点深度聚类网络的建筑物合并模型,利用Delaunay三角网构建建筑物群组表征图模型,结合自编码器与图卷积网络学习剖分三角形的几何形态、空间分布特征,采用自监督学习方式实现三角形的聚类与分类(保留、删除),最终在不依赖样本条件下实现建筑物要素端到端智能化合并。试验表明,该方法对预设合并参数依赖低,能同时顾及建筑物要素的形态与分布特征。合并过程具有一定灵活性,合并结果能较好满足地图可视化要求。  相似文献   

16.
传统基于深度卷积神经网络的场景分类方法往往需要大量标记样本用于模型的参数训练,在标记训练集数量有限的情况下,学习得到的特征泛化能力降低.针对这一问题,本文提出了高分影像分类的半监督深度卷积神经网络学习方法(3sCNN),采用自学习半监督策略,训练阶段不断增加训练样本:首先,通过有限的标记数据对深度网络进行初步训练;然后,利用经过初步训练的网络对未标记数据进行预测,得到未标记样本的预测标签及其对应的置信度;最后,将具有高置信度的未标记样本作为真实标记数据加入到训练集中,继续对网络进行训练并重复上述过程.为验证算法的有效性,本文在3个常用数据集上进行试验,试验结果证明本文算法可以有效提高有限样本下高分影像场景分类精度.  相似文献   

17.
兴趣点,又称POI(points of interest)是网络地图、导航地图中重要的表达要素,包括餐饮、娱乐、金融机构、旅游景点、地标建筑、加油站、停车场等人们日常生活中最为经常使用的信息。其数据的准确性、属性的丰富程度、表达的清晰度及其实时显示效率都将影响地图的服务质量。当前POI表达存在许多问题,特别是在用户搜索特定信息时,由于查询结果数据量较大,造成POI的叠置、压盖等,这一问题严重影响了用户对POI信息的查询与检索。地图综合提供了大量的算子算法以实现点或点群要素的选取,但是它们在综合效率方面亟待提高。面向矢量数据处理的并行计算,其数据划分不仅需要满足负载均衡、划分算法高效等要求,而且对于划分后各部分数据在计算前后拓扑关系的保持也显得尤为重要。兴趣点与路划网络是密切相关的要素,两者之间存在着相互依存的空间关系。本文提出基于路划网眼划分兴趣点的方法,既能保证兴趣点的划分效率,又能保证不同分区内POI选取计算的正确性。选择点选取算法中的"圆"增长算法,采用典型试验区域的路划网眼数据,基于不同节点数划分兴趣点数据,实现兴趣点选取并行计算。试验证明,该方法不仅保证了兴趣点划分的均衡性,而且可以提高兴趣点选取计算效率。通过这一研究,对面向矢量数据的地理信息分析、地图制图综合等复杂算法的并行计算具有重要意义。  相似文献   

18.
一种基于地址分词的自动地理编码算法   总被引:3,自引:0,他引:3  
针对我国多数城市地名/地址表述的不规范性,基于可伸缩地址模型提出地理编码数据库的构建方案,设计一种基于地址分词的自动地理编码算法.首先根据地理编码库编制地址词典,利用地址词典对地名/地址进行地址分词,形成地址要素及其级别;然后再对地址要素及其级别组合形成查询条件到地理编码库中进行匹配;最后分析影响这种地理编码算法精准度...  相似文献   

19.
复杂多变的中文地址结构使得在进行地址匹配时存在一定的局限性,影响地址匹配效率。针对该问题,研究了适合空间推理的空间约束地址模型。在分析中文地址的结构特点以及地址描述中存在的问题的基础上,以地址要素间的空间关系为切入点,构建该模型。进行推理匹配时,首先借助空间约束关系进行推理识别;然后,采用深度优先、集合查找的策略,同时正向推理所在城市作为集合查找左边界;最后,逆向推理最小目标地址要素直到获取最优目标地址。以中文地址作为实验数据进行推理匹配的可行性验证。试验结果表明,顾及空间关系的推理匹配方法可以有效解决地址描述的多样性和空间约束不一致性等问题,极大地提高了检索效率和匹配成功率。  相似文献   

20.
地址文本作为描述地理位置的字符串,通过对文本信息的解析可将自然地址描述转化为可被计算机识别的地理空间位置。通过分析地籍数据中地址文本的特点,设计了基于词典匹配算法的地址逐级标准化算法,并开发了相应的原型系统。实验结果的准确率高于95%,且有较高的操作效率,具有一定的地址文本解析价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号