基于文本解析的栅格类图表知识抽取方法 |
| |
引用本文: | 黄梓航,陈令羽,蒋秉川.基于文本解析的栅格类图表知识抽取方法[J].地理空间信息,2023(10):23-27. |
| |
作者姓名: | 黄梓航 陈令羽 蒋秉川 |
| |
作者单位: | 1. 战略支援部队信息工程大学研究生院;2. 战略支援部队信息工程大学地理空间信息学院 |
| |
基金项目: | 国家重点研发计划资助项目(2017YFB0503500);;国家自然科学基金重点资助项目(4213000495); |
| |
摘 要: | 栅格类图表包含了丰富的时空含义,文本信息是其知识特征的主要体现。提出一种基于文本解析的栅格类图表知识抽取方法。首先,通过CRAFT+CRNN的方法,进行图表文本信息的定位与矢量化;其次,在分析大规模样本数据的基础上,解析了常见图表数据的结构特征,并提出采用模板和机器学习2种方法进行文本块的结构类别判断;最后,利用自然语言处理方法,构建栅格类图表的知识标签体系。实验表明,该方法在栅格类图表的文本定位矢量化、文本块的结构判断等方面具有较高的准确率,能够进行栅格图表的知识标签体系构建,抽取图表中包含的知识,为海量数据的快速检索和理解提供支撑。
|
关 键 词: | 栅格图表 文本解析 知识抽取 矢量化 结构判断 自然语言处理 |
|