首页 | 本学科首页   官方微博 | 高级检索  
     检索      

面向中文文本的地质语义信息标注与语料库构建
引用本文:张雪英,张春菊,汪陈,刘文聪,叶鹏,鲁艳旭.面向中文文本的地质语义信息标注与语料库构建[J].高校地质学报,2023(3):429-438.
作者姓名:张雪英  张春菊  汪陈  刘文聪  叶鹏  鲁艳旭
作者单位:1. 南京师范大学虚拟地理环境教育部重点实验室;3. 合肥工业大学土木与水利工程学院;4. 扬州大学城市规划与发展研究院
摘    要:实现文本中地质信息的结构化抽取、语义解析、可视化表达和知识图谱构建,将为地质大数据的深度挖掘与利用提供有力的数据基础和技术支撑。无论是采用传统统计模型还是深度学习模型,地质信息语义解析均需要已标注的语料库的支持。特别是,地质信息的文本描述具有领域性特征,无法通过通用自然语言语料迁移实现。因此,不同层次的地质信息标注语料库的构建成为地质语义信息解析的关键和基础。文章在分析中文文本中地质语义信息描述语言特点的基础上,从地质实体的时空和属性描述特征出发,清晰表达地质实体的各种语义关系,制定了中文文本的地质语义信息标注体系和标注规范,自主研发了“交互式地质语义信息标注工具”,解决了传统人工标注存在错误率高、重复工作量大等缺点,以矿产资源的中文研究文献和报告为数据源,构建了大规模地质语义信息标注语料库,较为有效地解决了当前相关标准和规模化标准数据匮乏的问题。

关 键 词:中文文本  地质实体  语义关系  标注体系  标注规范
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号