基于条件随机场的非规范化中文地址解析方法 |
| |
引用本文: | 许也,申柏希,徐翔,李军.基于条件随机场的非规范化中文地址解析方法[J].地理与地理信息科学,2019(2). |
| |
作者姓名: | 许也 申柏希 徐翔 李军 |
| |
作者单位: | 中山大学地理科学与规划学院广东省城市化与地理环境空间模拟重点实验室;电子科技大学中山学院 |
| |
摘 要: | 地址解析是地理编码的核心任务之一,而混乱的地址标准、随意的中文地址表达给地址解析带来了极大困难。该文提出一种基于条件随机场的非规范化中文地址解析方法。一方面,综合分析各种非规范化地址要素的类型特征,在现有标注体系基础上设计出一套优化的地址要素分类标注体系,并制定特征模板,然后采用自训练半监督学习与人工标注互补融合的策略,获取大量高质量的已标注语料供模型训练;另一方面,挑选已标注语料训练条件随机场模型,实现对地址要素的自动解析。选取广东省博罗县30 000条地址进行算法验证和解析性能评测。实验表明,与其他语料标注方法相比,该方法在获取有效地址解析的同时,显著降低了标注成本。结果表明,该方法适用于地理编码领域中大规模非规范化中文地址的自动解析。
|
本文献已被 CNKI 等数据库收录! |
|