首页 | 本学科首页   官方微博 | 高级检索  
     检索      

行业动态信息采集系统关键问题解决方案
引用本文:黎柯,蔡永香,干佳林,王居远,杨鼎,胡森勇.行业动态信息采集系统关键问题解决方案[J].测绘科学,2016,41(3):161-166.
作者姓名:黎柯  蔡永香  干佳林  王居远  杨鼎  胡森勇
作者单位:长江大学地球科学学院,武汉,430100;长江大学地球科学学院,武汉,430100;长江大学地球科学学院,武汉,430100;长江大学地球科学学院,武汉,430100;长江大学地球科学学院,武汉,430100;长江大学地球科学学院,武汉,430100
基金项目:国土资源部项目(2014Z1317)
摘    要:为了解决行业动态信息采集系统中网页定向爬取、网页清洗、信息检索等关键问题,文章提出一套基于Heritrix、Jsoup和Lucene的解决方案,并以测绘地理动态信息系统为例进行验证,结果证明该方法能够较好完成测绘地理信息的定向爬取,实现对不同风格网站网页的清洗,并建立索引提供信息检索机制,给测绘行业人士提供准确可靠的信息服务,为相关研究提供参考。

关 键 词:Heritrix和Lucene  信息爬取  网页清洗  全文检索

Key problems and their solutions for industrial dynamic information collection system
LI Ke,CAI Yongxiang,GAN Jialin,WANG Juyuan,YANG Ding,HU Senyong.Key problems and their solutions for industrial dynamic information collection system[J].Science of Surveying and Mapping,2016,41(3):161-166.
Authors:LI Ke  CAI Yongxiang  GAN Jialin  WANG Juyuan  YANG Ding  HU Senyong
Abstract:
Keywords:Heritrix and Lucene  information capturing  Web filtering  full-text retrieval
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号