首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 437 毫秒
1.
新闻事件类型识别的核心是文本分类问题,可利用模式识别或者机器学习来解决。互联网中的新闻事件种类多样,各类事件都有不同的结构特征,在自然语言中的表达方式也多种多样,基于模式识别的事件抽取难以覆盖全部的事件表达模式,识别召回率不高。本文使用机器学习方法来进行新闻事件的抽取,设计了词法、句法和语义三类不同类型的特征,并基于支持向量机实现新闻事件的类型识别。支持向量机模型适合解决自然语言这类高维数据的分类问题,能够有效捕捉不同特征之间的分类差异,具有较好的准确率和召回率。  相似文献   

2.
网络文本蕴涵地理信息抽取:研究进展与展望   总被引:1,自引:0,他引:1  
互联网的普及产生了大量蕴含着丰富地理语义的文本,为地理信息的深度挖掘和知识发现带来了巨大机遇。同时,蕴含地理语义文本的异构性和动态性,使得地理实体的属性数量和种类激增、地理语义关系复杂,对地理信息检索、空间分析和推理、智能化位置服务等提出了严峻的挑战。本文阐述了网络文本蕴含地理信息抽取的技术流程,从地理实体识别、地理实体定位、地理实体属性抽取、地理实体关系构建、地理事件抽取5个方面总结了网络文本蕴含地理信息抽取的进展和关键技术瓶颈,分析了可用于网络文本蕴含地理信息抽取的开放资源,并展望了未来的发展方向。  相似文献   

3.
大数据时代海量网络文本中蕴含的灾害事件信息是防灾减灾研究和应用的重要资源。从异构的Web文本中快速、准确抽取灾害事件时空信息和属性信息,分析其时空动态变化模式与趋势并进行可视化表达,是当前地理信息与灾害信息领域关注的热点。本文从Web文本挖掘的整体技术框架、灾害主题页面抓取、灾害事件信息解析与抽取、灾害事件信息空间展示分析、以及防灾减灾应用系统等方面调研和综述了相关进展。针对防灾减灾领域的Web文本信息获取未来趋势,分析概括了全流程的Web文本灾害事件信息提取适用技术,并指出未来研究趋势:① 重点开展全球灾害信息全景式获取分析,实现全球灾害事件信息的自动化获取、分析及可视化展示;② 向联合国可持续发展目标(SDGs)和中国“一带一路”倡议,加强典型热点区域的Web灾害事件信息获取分析应用研究并形成示范系统;③ 按照数据、信息、知识的应用层次,建立以大数据挖掘和分析技术支撑的新型防灾减灾知识服务系统。  相似文献   

4.
地理要素变化检测已成为国家地理信息"十二五"规划和全国地理国情普查的重要组成部分。网页文本中蕴含海量的地理要素信息,尤其是新闻、政府、社交平台等网站的网页文本更新频繁,可为地理要素变化检测提供现势性的数据源。本文针对网页文本中地理要素变化的语言描述特点,构建了表达地理要素变化的语义知识库,设计了搜索引擎和通用主题相结合的网页爬虫,实现了相关网页文本的高效获取;采用规则模型和条件随机场模型,分别进行网页文本中地理要素变化信息抽取,包括地理要素名称、位置(地名)、时间和属性等。实验结果显示,本文设计的网页爬虫具有较高的相关网页文本获取能力,地理要素变化信息抽取的准确率能够达到70%以上,但是,语义知识库的完备程度对于信息抽取性能具有较大影响。研究成果表明,以网页文本为数据源的地理要素变化信息获取方法,能提供一种快速检测地理要素变化的新途径,与实地调绘和遥感影像检测等方法结合应用具有较好的优势互补性,可作为有力的辅助手段解决地理要素的持续更新和实时更新问题。  相似文献   

5.
文本蕴含大量地理位置描述信息,有效融合地理关联信息以实现文本的精细定位是地理信息服务的难点。本文提出一种融合土地利用/覆被信息的描述地理位置的细粒度定位方法:在文本描述地理关联信息(地理位置实体、土地利用/覆被实体与空间关系)抽取、土地利用/覆被精细分类与地理位置粗粒度匹配定位的基础上,使用自然语言空间关系近似转换模型,确定地理位置的细粒度定位范围;基于土地利用/覆被实体及其周边精细分类信息,在该范围内检索匹配,确定地理位置的细粒度定位坐标。本文以野生亚洲象活动/肇事监测文本为例开展实验,并用匹配率与位置精度评价定位质量,结果表明:本文方法显著提升了地理位置的细粒度定位质量,实验精确匹配率(81.51%)、位置误差距离的均值(65.97 m)及其≤50 m的比例(70.50%)均优于国内主流在线地理编码与地名检索服务结合空间关系或其单独使用结果。该方法有助于完善地理位置定位方法体系、提升地理信息空间化质量,并可服务于野生动物活动/肇事监测预警等精细定位任务。  相似文献   

6.
网络新闻文本在环境污染事件感知方面具有重要的应用价值。然而,由于环境污染事件的“多米诺效应”,网络新闻文本往往存在对多类型污染事件的混合描述,现有事件检测方法容易导致文本分类错误。本文提出一种基于联合主题特征的网络新闻文本蕴含环境污染事件检测方法,通过兼顾环境网络新闻文本的全局特征和主题分布特征来改善检测分类效果。该方法采用词频-逆文档频率向量对文档进行全局特征表示,并结合文档的主题分布特征向量,构建联合主题特征向量作为监督分类模型的输入,实现环境污染事件检测。实验结果表明,使用联合主题特征的支持向量机方法进行事件类别检测平均F1值相较于全局特征提高15%,相较于主题特征提高36%。本文提出的网络新闻文本蕴含环境污染事件检测方法可支持污染事件类型检测和影响信息抽取,有助于环境污染事件的时空统计与变化趋势预测。  相似文献   

7.
全球气候变化加剧了海洋环境灾害的影响力与破坏力,实时灾情信息获取与分析成为灾害应急处置中的关键环节。与具有延迟性的传统对地观测网络相比,基于互联网的众包地理信息以其实时性在受灾情况评估与灾害应急处置中得到广泛重视。为获取互联网文本中隐含的海洋环境灾害信息,探究灾害对人群行为活动的影响,本文着重关注海洋环境灾害发展的时空过程特性,从灾害链的角度分析灾害发生发展过程中所涉及的诸多要素,在收集整理海洋环境灾害相关知识的基础之上,采用五元组(概念、关系、属性、规则和实例)进行本体的逻辑结构表达,构建了用于信息抽取的海洋环境灾害链本体,其包含描述海洋环境灾害知识体系的海洋环境灾害本体、受到海洋环境灾害作用的地理对象本体以及在灾害发生、发展、结束的时空过程中产生的相应的人类应急处置本体。最后,本文以台风灾害为例,通过台风灾害链知识建模,实现互联网灾害信息抽取与时空变化过程分析。结果表明:基于海洋环境灾害链的互联网文本信息抽取可以获取隐藏在互联网文本中的灾害描述信息,能够分析灾害的发展变化过程及其对人群行为活动的影响,为灾害防治与应急救援提供一定科学支持。  相似文献   

8.
自然语言和地图都具备表达地理实体空间关系的能力,自然语言使用方便、抽象化程度高,而地图更为直观,从自然语言转换到地图,有助于人们更深入地了解自然语言描述的地理实体空间关系。然而,如何让计算机具有从自然语言构建图形信息的能力,使计算机具有智能化空间认知思维是当前研究的难点。本文总结了自然语言空间关系描述的类型及特点,提出了基于自然语言描述的地理实体抽象表达方法以及空间关系近似转换方法,建立了一种基于自然语言空间关系描述的地图近似表达策略。实验结果表明,本文方法有效可行,能够实现定性描述的自然语言空间关系向定量(或近似定量)的图形空间关系的转换,为自然语言到地图的转换研究奠定了基础。  相似文献   

9.
日常生活中人们使用定性的自然语言描述地理实体,如何将定性描述的地理实体转换为定量的图形符号是空间认知、地图表达等领域面临的挑战。本文提出一种基于自然语言形态描述的地理实体表达方法,通过对自然语言中地理实体的语义信息进行分析,对自然语言描述的地理实体的形状、大小、分布状况等空间形态信息以地图形式进行近似表达。本文首先阐述了自然语言形态描述的定义与内涵,结合地图符号相关理论,研究了形态描述驱动的地理实体模拟表达策略,并对不同语义模糊度的地理实体图形表达进行了分析和实例设计,最后提出了一种计算空间实体相似性的方法对表达效果进行评估。结果表明,基于本文方法的地理实体模拟表达与手绘图中地理实体的平均相似度达到89.5%,与导览图的地理实体平均相似度达到86.86%,能够实现较好的表达效果,具有一定的科学性和可行性,为自然语言到地图语言的转换研究奠定了基础。  相似文献   

10.
蕴含地理事件微博客消息的自动识别方法   总被引:1,自引:0,他引:1  
微博客文本蕴含类型丰富的地理事件信息,能够弥补传统定点监测手段的不足,提高事件应急响应质量。然而,由于大规模标注语料的普遍匮乏,无法利用监督学习过程识别蕴含地理事件信息的微博客文本。为此,本文提出一种蕴含地理事件微博客消息的自动识别方法,通过快速获取的语料资源增强识别效果。该方法利用主题模型具有提取文档中主题集合的优势,通过主题过滤候选语料文本,实现地理事件语料的自动提取。同时,将分布式表达词向量模型引入事件相关性计算过程,借助词向量隐含的语义信息丰富微博客短文本的上下文内容,进一步增强事件消息的识别效果。通过以新浪微博为数据源开展的实验分析表明,本文提出的蕴含地理事件信息微博客消息识别方法,识别来自事件微博话题的消息文本的F-1值可达到71.41%,比经典的基于SVM模型的监督学习方法提高了10.79%。在模拟真实微博环境的500万微博客数据集上的识别准确率达到60%。  相似文献   

11.
从社交媒体中挖掘灾害应急信息,能够有效帮助传统灾害管理获取实时、主题丰富的灾害信息,从而成为灾害应急管理的新手段。得益于深度学习在自动特征提取上的成就,本文研究了一种利用卷积神经网络对社交媒体中的灾害应急信息进行自动实时提取与分类的方法。首先,利用社交媒体数据和Word2vec模型,构建与灾害类事件相关的语料库并获得相应的词向量;其次,将词嵌入文本和相应的灾情类别作为卷积神经网络的输入,经过多分类学习得到分类模型,用以提取近实时灾害信息。以2012年“7.21北京特大暴雨”事件为案例,通过分类模型获得常见灾情类别的暴雨灾害社交媒体信息。该模型在测试集上的精度达到了90%以上,并且将模型运用于新爬取的2016年暴雨数据集上也得到了较好的表现,说明该模型在近实时自动提取灾害信息方面具有可行性。在对2012年分类结果进行时空分析结果表明,通过社交媒体获得的暴雨灾害主题信息符合灾害发展的规律,说明了利用深度学习提取社交媒体数据中的灾害应急信息的有效性和可行性,能够为实时灾害应急管理提供新的思路。  相似文献   

12.
城市交通是经济社会发展的重要推动因素和枢纽,因此道路信息的提取与更新显得尤为重要。利用遥感图像来提取道路信息已经成为近年来道路提取的主要方法,但高分辨率遥感影像的快速发展与应用,在提供丰富信息的同时使道路提取变得更加困难。针对目前基于高分辨率遥感影像提取道路存在的问题,提出一种基于数学形态学和Hough变换的道路自动化提取方法。基于Hough变换确定道路的走向,在此基础上选定线性结构元素,利用数学形态学进行道路提取。分别选择IKONOS影像和Quickbird影像验证本文提出的模型。实验结果表明,本文提出的模型能有效地提取弯曲型道路与直线型道路,取得了较好的结果。  相似文献   

13.
网络文本蕴含地理实体关系抽取技术,需要高时效、强鲁棒的关键词提取方法。与监督学习方法相比,无监督学习方法能捕获文本的动态变化特征并发现新增的关系类型,因此备受关注。其中,基于频率的关键词提取方法获得广泛研究,然而,网络文本蕴含的地理实体关系分布稀疏,基于频率的方法难以直接应用于地理实体关系的关键词提取。为解决该问题,本文基于公开访问的网络资源,提出一种语境增强的关键词提取方法。首先,基于在线百科和开放的同义词词典,通过语境合并和语义融合创建增强的语境,以降低语境中词语的稀疏性。接着,Domain Frequency和Entropy频率统计方法从增强语境中自动构建一个大规模语料。然后,基于该语料选择词法特征并统计其权值,用于扩大语境中词语间的差异。最后,使用选择的词法特征度量增强语境中词语的重要性,将权值最大的词语作为描述地理实体关系的关键词,并基于大规模真实网络文本开展实验。实验结果表明:对于地理实体关系的关键词识别,本文方法的平均精度为85.5%,比Domain Frequency和Entropy方法分别提高41%和36%;对于新增关键词识别,本文方法的精度达到60.3%。语境增强的关键词提取方法能有效地处理地理实体关系分布的稀疏性,可服务于网络文本蕴含地理实体关系的抽取。  相似文献   

14.
失散人员时空信息数量多、失散信息地点的收集和查询较复杂,现有的网络寻亲平台虽具有信息采集快,应用普及范围广的特点,但对于失散人员的信息管理较分散,缺乏结合时间范畴和空间范畴的分析。本文在失散人员属性信息查询的基础上,针对失散信息的不准确性和模糊性,对不同失踪年龄段人员进行记忆模糊度分析,并结合汉语言分区以及模糊时空范围设置阈值和权重,建立失散人员时空信息模糊匹配模型。该模型根据失散孩子姓名、性别、血型、出生时间、失踪时间、失踪地点、方言口音及失踪年龄段的模糊特征等影响因子,综合计算出失散人员之间的信息匹配指数;并利用时间地理学方法设计了模型的时空修正方法,对匹配结果的时空可达范围是否存在交集进行了检验。案例数据验证结果表明,该模型能综合考虑已知的失散人员匹配指标项,可筛选出匹配程度较高的信息。  相似文献   

15.
高分辨率遥感影像中,道路光谱信息丰富,且空间几何结构更清晰。但是,基于高分遥感影像的道路提取面临道路尺寸变化大、容易受树木、建筑物及阴影遮挡等因素影响,导致提取结果不完整。此外,高分遥感影像中同物异谱和异物同谱现象较为严重,从而影响道路提取结果连续性及细小道路信息完整性,而且难以区分道路和非道路不透水层。因此,本文提出基于双注意力残差网络的道路提取模型DARNet,利用深度编码网络,获取细粒度高阶语义信息,增强网络对细小道路的提取能力,通过嵌入串联式通道-空间双重注意力模块,获取道路特征图逐通道的全局语义信息,实现道路特征的高效表达及多尺度道路信息的深层融合,增强阴影和遮挡环境下网络模型的鲁棒性,改善道路提取细节缺失现象,实现复杂环境下高效、准确的道路自动化提取。本文在3个实验数据集对DARNet和DLinkNet、DeepLabV3+等5个对比模型进行对比试验和定量评估,结果表明,本文DARNet模型的F1分别为77.92%、67.88%和80.37%,高于对比模型。此外,定性比较表明,本文提出模型可以有效克服由于物体阴影、遮挡和高分影像光谱变化导致道路提取不准确与不完整问题,改善细...  相似文献   

16.
本文提出了全息高精度导航地图的概念,它融合了多源数据,尤其是电磁传感器、声音传感器、热红外仪等传感器数据,从更多角度为导航提供信息。在此概念基础上,提出了一种融合多源数据的全息高精度导航地图理论模型框架,该框架包含4个步骤:① 全息道路数据采集,包含道路三维彩色激光点云、遥感影像、无人机航拍倾斜测量数据、摄像头图像、热红外图像、声场信号、电磁场信号;② 道路静态信息提取,从上述采集信息提取和标记得到,如车道线、路坎、栏杆、路牌、路灯、隧道等,作为无人驾驶车辆规划基础路线和车辆位置定位的数据基础;③ 道路动态信息提取,从上述采集信息提取和标记得到,如离前后车辆的距离、前方有无行人、道路施工护栏、泛在信息等,作为检测无人驾驶车辆周围的实时道路环境和规划无人驾驶车辆行驶路线的依据;④ 动、静态信息融合:融合道路静态信息和道路动态信息,丰富道路信息,提高道路线精度,提高全息高精度导航地图更新的效率,为导航和无人驾驶车辆提供地图服务。  相似文献   

17.
道路等级不仅反映在路网结构的静态骨架信息上,也蕴含在轨迹数据呈现的动态语义信息上。为解决(OpenStreetMap)OSM路网部分路段及路网生成产品等级缺失问题,本文提出一种顾及路网与轨迹多模特征的道路等级分类方法。首先通过轨迹数据的清洗、地图匹配和基于路名的路网合并实现轨迹点与命名道路的联结;然后以命名道路为分析单元,综合考虑路网及轨迹数据,在系统分析路网结构的道路几何特征、道路分布特征、道路拓扑特征及道路单双向信息基础上,进一步挖掘与融合轨迹数据蕴含的道路宽度、道路车流量、道路速度等静动态特征,形成关于道路等级的描述特征集,作为识别道路等级的基础与依据;最后以随机森林(RF)为基本分类器进行特征选择及模型训练实现道路等级识别。为验证本文方法,选取武汉市汉正街区域及二环区域,基于OSM路网数据及众源轨迹数据开展试验。该方法取得了较好的分类结果,小范围汉正街区域的验证集准确率为91.2%,大范围二环区域的验证集准确率达到80.8%。与单类特征相比,集成路网与轨迹特征极大提高了道路等级分类准确率;与原始路段形式进行道路等级分类相比,以路名重构道路形式进行道路等级分类效果更好。  相似文献   

18.
出租车GPS轨迹数据获取成本低、周期短,且覆盖面广,具有实时性及大规模性,同时其包含大量的行车记录信息,对提取数字道路信息具有巨大贡献,适用于大范围城市交通路网信息的获取和快速更新。基于GPS轨迹数据进行交叉口提取是目前的研究热点,但现有研究方法大多适用于高频GPS数据,不能很好地提取稀疏区域的交叉口,难以适应出租车轨迹点采样频率低、定位精度低、噪声点多、数据分布不均匀的特性。因此,本文聚焦于城市路网的交叉口识别,为尽可能准确、全面地提取道路交叉口信息,兼顾密集与稀疏区域,提出了一种集成识别策略,分别在矢量空间和栅格空间,采用密度峰值聚类和数学形态学处理方法提取交叉口,并设计了一种融合机制探测交叉口,最后结合主成分分析法判断交叉口的真伪性,识别真实交叉口,并去除伪交叉口,从而得到基于低频出租车轨迹的城市道路交叉口。与已有的研究方法相比,本方法提取了更多的交叉口,并与遥感图像显示一致。本文提取结果准确率为92.23%、召回率为77.26%、F值为84.08%,很好地保证了交叉口的完整性和准确性,在智能交通系统中具有一定的应用价值。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号