首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
基于深度信念网络的地质实体识别方法   总被引:1,自引:1,他引:1  
张雪英  叶鹏  王曙  杜咪 《岩石学报》2018,34(2):343-351
地质实体作为地质信息表达的核心要素,对其准确识别是地质文本数据挖掘和应用的重要基础。本文通过分析各种类型文本数据中地质实体信息的描述特点,构建了地质实体信息的标注规范和语料库,设计了基于深度信念网络(Deep Belief Networks)的地质实体识别模型,解决了文本数据中地质实体信息的结构化、规范化处理问题。以矿产资源地质调查报告为实验数据,对本文的地质实体识别方法性能进行了评估分析。结果表明,深度学习模型能够在较小规模语料库的基础上,达到较好的地质实体识别性能。  相似文献   

2.
地质领域实体关系抽取是构建地质知识图谱的基础,对地质领域文本信息抽取与知识库构建具有重要的作用。针对地质领域实体关系复杂、缺少人工标注语料库等特点,提出了面向地质领域实体关系联合抽取模型,着重对多地质文本中存在的复杂重叠关系进行识别,避免传统流水线模型中由于实体识别错误造成级联误差。文章构建了高质量地质领域实体关系语料库,提出了基于预训练语言模型BERT(Bidirectional Encoder Representations from Transformers)和双向门控循环单元BiGRU(Bidirectional Gated Recurrent Units)与条件随机场CRF(Conditional Random Field)的序列标注模型,实现对实体关系的联合抽取。在构建数据集上进行了实验,结果表明,本文提出的联合抽取模型在实体关系抽取上的F1值达到0.671,验证了本文模型在地质实体关系抽取的有效性。  相似文献   

3.
对来源不同的地质对象进行关联匹配,并通过模型对其结构、属性及语义关系进行表示是后期语义查询及聚类等任务的重要支撑。文章针对地质调查空间实体与外部文本描述语义异构、表达差异等问题,提出了一种基于注意力机制的孪生网络地质调查空间实体与文本描述信息关联匹配模型。首先,将地质调查空间实体的属性信息转换成为文本段落,以句向量基本粒度对地质空间实体进行文本语义编码;接着将两类文本对象映射到统一向量空间中,并输入到孪生网络中进行特征学习,最后在构建真实数据集上进行模型性能的实验测评。结果显示,该模型能够较好表示地质调查空间实体句子语义信息,其识别F1值相比基准实验提高了8.4个百分点,优于选取的对比方法。  相似文献   

4.
陈忠良  袁峰  李晓晖  张明明 《地质论评》2022,68(1):2022010001-2022010001
地质调查正在从“数字化”走向“智能化”,需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取。地学命名实体和关系联合提取是当前研究的难点和核心。本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取。首先,通过收集数字地质填图工作中的剖面测量和路线地质观测数据,建立岩石描述语料;然后,在岩石学理论指导下分析岩石知识组成,完成岩石知识图谱命名实体与关系的模式设计,标注岩石语料;最后,开展岩石描述语料知识提取的深度学习训练和消融试验对比。试验结果显示,大规模预训练中文语言模型(BERT)对岩石描述语料知识提取具有较高的适用性。推荐的BERT—BiLSTM—CRF模型方法对岩石命名实体与关系联合提取的准确率(F1值)为91.75%,对岩石命名实体识别的准确率(F1值)为97.38%。消融试验证明基于BERT的词嵌入层对岩石描述知识提取的性能提升影响显著,双向长短时记忆网络模型层(BiLSTM Layer)能提升实体关系联合提取性能。  相似文献   

5.
邱芹军  段雨希  田苗  吴麒瑞  马凯  陶留锋  谢忠 《地质论评》2024,70(2):2024020022-2024020022
地质图件及其附属资源(如描述文本)作为地质知识的重要存储媒介,蕴含着大量的地学知识及专家经验知识及隐式知识。快速精准地对多模态地质数据进行知识规范化定义、形式化表达、语义化关联和精准化推理是目前地学知识抽取及挖掘的前沿。当前,海量的地学数据中图件及附属描述信息知识分布零散,图件中的信息无法有效地与描述信息进行关联并提供知识服务。本文以多模态地质数据为数据源,建立了多源数据驱动下的地质图知识表达模型,通过地质基础知识、规则知识及决策知识来表达图件中蕴含的显隐式地质知识,从语义、空间、属性三个维度表示地质对象间的关系;并基于领域知识针对地质图件及描述信息开展了地质实体及关系的精准抽取及存储研究,最后以江西省于都县银坑幅G50E011007图幅150000矿产地质调查矢量数据为例进行了验证与分析,实验结果验证了本文所提出的知识表达模型及知识抽取方法, 能够较好地解决地质知识建模中图文关联弱、知识挖掘不充分等问题。  相似文献   

6.
时间信息贯穿于地质现象和事件产生、发展、消亡的整个过程中,反映了地质现象和事件的状态和演变过程.特别是,地质时间表达通常与成矿内在机制和时空演化规律有关.设计并实现了基于深度学习的通用时间和地质时间信息抽取方法.结合地质矿产文本中时间信息的描述特点,将时间信息划分为通用时间信息与地质时间信息两种类型,并对两种时间信息类型进行细分;基于自主研发的“交互式矿产信息标注软件”,采用交叉验证及意见反馈模式构建了地质时间信息语料库;实现了基于双向长短期记忆神经网络—条件随机场(BiLSTM-CRF)的时间信息抽取方法;并与主流的卷积神经网络(CNN)和条件随机场(CRF)模型的抽取结果进行了比较.实验结果表明,基于双向长短期记忆神经网络—条件随机场的时间信息抽取效果最好,对总体时间抽取的F1值达到95.49%,较好地解决了地质文本中时间信息的规范化表达和结构化抽取问题.  相似文献   

7.
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。笔者等在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

8.
邱芹军  田苗  马凯  谢忠  金相国  段雨希  陶留锋 《地质论评》2023,69(1):2023010005-2023010005
作为我国地质调查领域最重要的数据源之一,地质调查报告中蕴含着丰富的地学知识及地质体描述等关键信息,准确高质量地抽取地质命名实体为地学知识图谱构建、知识推理及知识演化提供基础。本文在阐述地质命名实体识别任务基础上,分析地质实体不仅包含大量专业术语,还存在实体嵌套、大量长实体等领域特性,进一步增加了地质命名实体识别难度。笔者等提出一种基于轻量级预训练模型(ALBERT)—双向长短时记忆网络(BiLSTM)—条件随机场(CRF)模型的地质命名实体识别方法。首先利用ALBERT对输入字符上下文特征进行建模,并采用BiLSTM对其进行进一步上下文特征表征,最后采用CRF实现标注序列预测。实验结果表明,在构建的地质命名实体识别数据集上,相比于主流的命名实体识别模型算法,本文所提出的方法具有更好的抽取性能,提出的命名实体识别模型能为领域实体识别提供借鉴,同时为地学领域实体关系抽取和地学知识图谱构建提供有力方法支撑。  相似文献   

9.
地质数据本体构建及其在数据检索中的应用   总被引:1,自引:1,他引:0  
针对传统以关键词、主题词等字符串匹配为核心的地质数据检索方法存在的查不全、查不准的问题,给出了基于地质数据本体的语义级检索解决方案。通过对地质数据的概念、属性、关系、规则及相应实例的详细表达,构建了地质数据本体(矿产资源预测部分),搭建数据检索系统并开展了应用实践。实验表明,引入地质数据本体后,检索结果在数据的查全率和查准率方面显著提高,并能智能推送相关联的数据信息。开发的地质大数据专题检索系统,实现了对局域网中多源异构地质数据的获取、半自动化标注和语义关联检索,满足地质大数据应用服务的需求,对于大数据时代背景下地质数据的精确发现、深层挖掘及共享有重要意义。  相似文献   

10.
地质调查正在从"数字化"走向"智能化",需要在大数据思维的指导下,面向非结构化数据开展机器阅读和地质知识的自动提取.地学命名实体和关系联合提取是当前研究的难点和核心.本文采用基于大规模预训练中文语言模型的BERT—BiLSTM—CRF方法开展岩石描述文本命名实体与关系联合提取.首先,通过收集数字地质填图工作中的剖面测量...  相似文献   

11.
储德平  万波  李红  方芳  王润 《地球科学》2021,46(8):3039-3048
地质实体是地质文本中的关键和核心信息,对其准确识别是地质信息提取和挖掘的重要前提.设计了ELMO-CNN-BiLSTM-CRF模型,基于预训练字向量构建深层BiLSTM-CRF神经网络模型,通过添加词语动态特征以及词语字符级别的特征,弥补字向量特异性缺失的问题,提高对于地质文本中复杂多词义的识别水平和对地质实体局部特征的提取能力.以《西藏自治区谢通门县雄村铜矿勘探地质报告》为例,对该模型的性能进行了评估,模型的准确率、召回率和F1值分别为95.15%、95.26%和95.21%.实验表明相比BiLSTM-CRF和CNN-BiLSTM-CRF模型,该模型在小规模语料地质实体识别方面效果更优,且能够有效识别长地质实体词汇和地质多义词.   相似文献   

12.
陈国良  吴佳明  钟宇  陈健  陈斌  王永东 《岩土力学》2020,41(8):2821-2828
岩土工程信息化迫切需要加强大数据集成共享和多专业协同合作,BIM技术在工程建设领域的成功经验给我们以启示,可将BIM技术应用于岩土工程信息化建设,但是当前存在的主要问题是地质模型与BIM模型数据标准不统一。为了解决这个问题,提出了地质模型采用BIM数据标准IFC的思路。采用IFC实体扩展及属性集扩展模式,建立了面向三维地质模型的扩展模型IFC-3DGeoMdl。利用已有的IFC对象类型,派生相应的地质物理实体以及地质空间结构实体,给出地质物理实体的空间表达形式;利用IFC中已有的关系类,定义地质物理实体与空间结构实体的关系;进而,基于IFC中的属性表达方式,实现了地质对象的地层信息与物理力学参数等属性的扩展;最后,给出了创建该模型的具体实现过程,并利用实例验证了该模型的实际应用效果。结果表明,采用该模型,可有效实现岩土工程地质模型与BIM结构模型的集成,从而为深化岩土工程的结构设计、施工等提供有效的地质模型信息。  相似文献   

13.
针对传统地质资料服务方式单一、数据共享困难等问题,提出了地质资料管理的转型方案.对面向知识服务的地质资料知识组织方式、知识检索以及知识管理理念如何指导地质资料服务等方面进行了探讨.以地质数据本体构建、基于关联数据技术的地质资料语义化组织以及基于地质大数据的知识检索模型搭建为转型手段,介绍了促进地质资料转型升级的语义化描述及数据关联技术,以期对地质资料管理转型起到参考作用.  相似文献   

14.
众源数据本质是指网络世界中存在大量、复杂、有潜力的“垃圾”数据,采用有效方法与技术将这类感兴趣数据进行收集并利用,是文章的研究中心。文章引入互联网前沿技术,运用知识图谱对众源数据的知识进行抽取。在知识图谱中,知识描述措施旨在利用一种低维稀疏的向量表示方法来高效地发现特殊实体、关系之间内在语义关系,这在知识问答、信息检索等应用场景有着重要实用意义。但是,现有为数不少的知识描述措施忽视了铀资源场景要素,如缺失随场景变更的铀矿知识。针对该领域的矛盾,文章创建了基于离散向量的众源数据建模方法。该方法将核电站场景信息以差异的水平融入到不同类型的实体向量中,而后挖掘每个实体相关的众源数据知识语义联系。文章描述了知识体现的原理知识,然后提出了利用传统的人工智能方法构建众源数据,接着采用了当前受到认可的语义网及开放知识建模方法来进一步论证众源数据的知识表达的可行性。最后利用全球铀矿地质知识建模案例测试显示,这种基于实体离散向量的表示措施可以显著满足知识图谱的铀资源场景补全和铀矿地质预测研究的需求。  相似文献   

15.
许亚峰  花卫华  李毅 《江苏地质》2020,44(4):337-344
地球科学数据依托于WebGIS进行数据共享与服务是全球地质行业发展的必然趋势,但是,由于地质数据存储格式不同、数据模型与数据结构差异及地质数据的敏感性等原因导致多源异构数据的产生,给数据共享与综合利用带来了困难。研究传统地质数据模型和GeoSciML模型,对比分析两者图层和要素属性方面的异同,从语义融合角度提出了采用传统模型的地质空间数据到GeoSciML模型的数据映射方法。结果表明,在数据格式转换和整合过程中保证了信息的完整准确,地质空间数据的互操作性强且符合数据映射要求,为我国地质数据面向国际深度共享与服务提供了科学方法。  相似文献   

16.
在分析地质资料文档内容与形式特征的基础上,提出Hadoop大数据环境下的地质资料一体化耦合数据模型与存储策略,分析确定HDFS下地质资料文本化目标格式,并对地质资料原始格式、转换后的文本格式及地质信息的存储方式与模式进行设计;研究常见地质资料格式的文本化实现方式,并构建文本转换技术流程。为大数据环境下地质资料的文本导入提供技术路径,以及大数据环境下文本化地质资料的信息抽取、融合等智能化处理提供统一数据基础,对地质资料大数据分析具有实际意义。  相似文献   

17.
左仁广  彭勇  李童  熊义辉 《地球科学》2021,46(1):350-358
基于深度学习的地质找矿信息挖掘与集成已经成为数学地球科学的前沿领域.深度学习作为一种具有多级非线性变换的层级机器学习算法,在地质找矿大数据挖掘与集成中仍处于探索阶段,还有一系列问题亟需解决.以卷积神经网络为例,探讨了基于深度学习的地质找矿大数据挖掘与集成过程中两大挑战:训练样本不足和深度学习网络模型构建困难,重点分析了基于复制和添加噪声的地质找矿数据增强技术并开展了多组对比实验,构建了适用于地质找矿大数据挖掘与集成的训练样本和卷积神经网络模型.该模型对闽西南铁多金属成矿区的地质、地球物理和地球化学等多源数据进行了特征提取与集成融合,圈定了找矿远景区,为该区进一步找矿提供了科学依据.   相似文献   

18.
大数据科学研究范式是大数据时代的必然结果。在大数据时代,地质学研究正面临着前所未有的挑战与机遇,亟需地质大数据分析的基础支撑。本文介绍若干种有价值的地质大数据分析工具及其应用。知识图谱以其强大的语义处理能力和开放组织能力,为大数据时代信息的知识化组织和智能应用提供了有效工具。它旨在描述真实世界中存在的各种实体或概念及其关系,构成一张巨大的语义网络图,以节点表示实体或概念,边则由属性或关系构成。机器学习与卷积神经网络模型仍然是当前地质大数据研究的热点。演化算法借鉴了自然界中生物进化与自适应过程的思想,是一种基于种群的元启发式最优化算法。它具有无需先验知识、能在全局范围内进行隐并行搜索的优点,可以用来精确地获取大数据中隐含的演化趋势与时空特征。图形社区发现技术将网络划分为若干个内部节点相似社区,为分析和理解网络提供有力的技术支持。随着空间分辨率、时间分辨率和辐射分辨率不断提高,遥感技术已广泛成为地质数据获得的主要技术手段。遥感大数据的数据存取和智能处理是最重要的发展方向。这些地质大数据分析方法已有成功的应用案例,并将广泛用于各种地质研究,如城市土壤污染智能监测、模拟、管控与预警研究,得益于地质大数据研究支撑系统的恰当选择以及地质大数据技术的强力支持,建立了可解释的多源多层城市土壤污染知识图谱,源于多源异构大数据有效融合的主要障碍正在去除。  相似文献   

19.
将具有多元异构性和复杂语义的矿床数据转化为结构化数据,是目前矿产资源勘查大数据领域面临的关键问题。传统的机器学习方法无法精确描述实体概念、属性及其属性值的语义信息,导致多源异构数据的可解释性较差。因此,可解释性的知识图谱已成为当前研究的热点。然而,当前矿床领域本体构建研究仍相对匮乏,这阻碍了矿床知识图谱的研究。本文聚焦于矿床领域的概念、关系、属性描述,结合知识工程、叙词表、复用前人本体及专家知识,采用基于知识工程和基于顶层本体相结合的本体构建方法,使用本体开发工具Protégé构建了以时空矿床文本为基础的矿床领域本体库,实现了矿床知识概念、关系的系统化、规范化、形式化表达。然后运用Neo4j构建本体库知识图谱,并以庞西垌多金属矿床为案例,将矿床本体与矿床数据进行了知识图谱连接,展示了矿床本体作为知识图谱骨架的重要性。本文研究对下一步矿床知识图谱推理分析具有一定的指导意义。  相似文献   

20.
近些年来,随着大数据、深度学习等技术的飞速发展,大数据的开发与利用为众多行业带来了显著经济与社会效益。借助大数据手段,开展地质文本、图像和序列数据挖掘与应用研究,具有极其重要的理论与社会意义。本文在归纳总结前人工作的基础上,重点针对地质大数据中的图像数据,基于深度学习理论,构建网络学习模型,通过基于网络搜索的数据采集、数据预处理、网络搭建、网络训练及结果/评价等步骤,实现基于地质图像的大数据岩性识别。结果表明,图像识别岩性的测试准确率约为90%;有限的图像数据数,可能是产生识别误差的一个原因;机器对岩石图片所呈现的某些特征相似性,如宏观的形状、颜色等,也会给出正相关评分,从而产生误判。理论上,采用BCNN(Bilinear Convolutional Neural Network)等能够捕捉更精细细节的网络模型,解决计算机视觉中的细粒度识别问题,从而从根本上提升图像识别效率,应该是今后一个研究方向。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号