首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 171 毫秒
1.
Web环境下地学数据共享用户行为模式分析   总被引:1,自引:0,他引:1  
了解科学数据共享用户行为特征对实现高效、精准的数据共享服务具有重要的参考意义。本文基于国家地球系统科学数据共享平台网站服务器日志及服务记录数据,利用空间数据挖掘及Web使用挖掘技术,探索地球系统科学数据共享用户行为模式。在数据预处理阶段,完成用户识别、会话识别、位置识别,并对数据进行空间建模、空间数据库建库。在数据挖掘阶段,分别对用户产生的网页浏览数、会话数、数据集浏览数为对象进行空间“热点”分析,识别用户行为的地域差异。针对用户数据浏览和下载行为,采用FP-growth算法对用户——数据之间进行关联规则挖掘,发现用户对数据关注和使用的高频规律。分析结果表明:(1)该共享平台用户地在国内各省市均有分布,用户最多的3个省(市)分别为北京市、山东省、江苏省,该分布与国内高校学生分布相关程度不高,但与“211工程”高校学生的空间分布相关度较高;(2)空间“热点”分析表明,北京、天津及河北北部无论在网页浏览、数据浏览还是会话量上都是“热点”区域,但识别的“冷点”区域有较大不同,尤其是数据访问“冷点”分布较广,如南方沿海省份、河南省、山东省、四川省等;(3)关联规则挖掘发现多个数据浏览高频项目集以及关联规则。数据下载高频项与数据浏览高频模式较好吻合,但下载行为未表现出明显关联规则。本文提供了一种结合Web使用挖掘和空间数据挖掘的用户行为模式挖掘方法,该方法也可用于其他类型网站的数据挖掘。  相似文献   

2.
研究网络地理信息服务用户的访问行为,有利于了解用户地理信息兴趣、实现按需服务。本文基于全空间信息系统建模的理论,构建用户-访问城市关系网络,研究用户访问的空间聚集性。顾及到关系网络中行为关系强度的表达需要同时考虑用户访问行为、城市关联关系和城市结构,仅用单一的用户访问行为数据会存在偏差,本文提出了基于矩阵分解的数据融合方法,对网络地理信息服务中用户访问数据、城市关联数据以及城市的POI(兴趣点)数据进行融合,表达用户-城市访问关联强度。在此基础上,基于关系网络聚类方法实现用户的聚集模式挖掘。考虑到只以空间距离实现聚类的方法无法兼顾关系网络中用户对不同城市的访问偏好特征,本文在FCM(模糊C均值聚类算法)的基础上以用户对城市的访问概率定义访问偏好提出PFCM算法,同时兼顾关系网络中城市间的空间距离和访问行为关系强度,减小聚类结果的偏差。本研究通过用户访问的空间聚类表达用户访问的空间兴趣偏好,有助于理解用户访问行为与城市之间的相互关系,为网络地理信息服务在数据缓存和提前推送等方面的性能提升提供指引,从而更好的服务于用户访问。  相似文献   

3.
建立适用于专题地图产品检索的用户偏好推荐模型是提高专题地图质量的有效方式之一,在专题地图产品推荐场景中,存在严重的内容冷启动和评论数据稀疏问题,现有的推荐算法无法为特定类用户推荐不同特征的专题地图产品,导致用户从专题地图中获取偏好信息受到限制。因此,本文构建基于负采样的连续词袋模型和基于Word2Vec的Item2Vec相结合的用户偏好推荐方法,用于专题地图产品推荐。① 计算用户行为日志文件中交互行为数据的隐性评分,以代替专题地图推荐信息流场景中稀疏的用户评论数据;② 基于负采样的连续词袋模型提取目标专题地图的前后地图序列感知特征信息,通过控制正负样本比例为1:2,提升目标专题地图潜在评分的预测精度;③ 通过Item2Vec将带有用户行为特征信息的专题地图映射到向量空间,计算用户对专题地图的相似度矩阵,根据用户偏好程度完成推荐。在构建的专题地图评分实验数据集Thematic CMaps和4个公开验证数据集MovieLens上的测试结果表明:与LFM、Personal Rank、Content Based和SVD 4种传统推荐算法相比,本文所提方法可有效提高潜在评分的预测精度,推荐性能最高达到27.85%;与以霍夫曼采样方式的Item2Vec基础方法和YouTubeNet 2种神经网络推荐算法相比,评分预测精度有一定提高,且推荐性能不断提升,最高达到2.97%和5.78%。以经典算法奇异值分解(SVD)为例,将MovieLens-20M数据集切分后,在数据量不断增大的数据子集中,本文所用方法的评分预测精度和性能均优于SVD方法。  相似文献   

4.
船舶行为特征挖掘与预测是水上智能交通系统的重要研究内容,也是交通运输工程领域的关键科学问题。为系统研究基于船舶自动识别系统(Automatic Identification System, AIS)数据的船舶行为特征挖掘与预测的研究现状与发展趋势,本文首先针对Web of Science(WOS)和中国知网(China National Knowledge Infrastructure, CNKI)收录的文献,用知识图谱分析软件VOSviewer对文献关键词进行处理,从文献计量学的角度生成高频关键词的聚类图谱和趋势演化。然后对基于AIS数据的水上交通要素挖掘、船舶行为聚类和船舶行为预测3个主题的研究内容、方法、存在问题进行了系统分析和展望,研究结果表明:① 在基于AIS的水上交通要素挖掘方面,主要集中在对AIS数据中表征船舶行为空间特征和交通流的时间特征单独挖掘分析,缺乏对AIS数据的时间、空间以及环境因素特征的关联挖掘,对于如何进行交通要素的关联融合挖掘研究还有待深入探索;② 在船舶行为聚类方面,研究主要是运用无监督聚类方法研究船舶航迹点和航迹段聚类,得到船舶航行行为模式的时空分布和船舶操纵意图辨识模型,然而融合多维特征的船舶轨迹的相似性计算方法、聚类参数的自适应选取以及船舶行为的语义特征建模有待进一步研究;③ 在船舶行为预测方面,主要集中在基于动力学方程、传统智能算法和深度循环神经网络的船舶行为预测研究,考虑船舶行为的随机性、多样性和耦合性的特点,运用混合神经网络模型以及神经网络与向量机、注意力机制相结合的模型实现多维的船舶航行行为特征的实时预测将是新的研究方向。最后提出了基于语义模型的船舶行为特征挖掘、基于深度卷积神经网络的船舶行为的预测和基于知识图谱的船舶行为特征挖掘和预测结果可视化等有待进一步研究的方向。  相似文献   

5.
基于云计算的地球系统科学数据共享研究与实践   总被引:1,自引:0,他引:1  
数据密集型的地学研究离不开数据资源和信息平台的支撑,因此,实施地球系统科学数据共享具有重大意义。早期地球系统科学数据共享服务主要以政府行为为主,集中数据汇交,存在数据服务负载不均衡、数据整合模式单一、数据服务效果不明显等突出问题。随着Web 2.0理念的提出,以及云计算等技术的出现,数据共享模式发生了巨大的变化。本文提出基于云计算的地球系统科学数据共享概念模型。通过提供基础设施即服务(IaaS)、数据资源即服务(DaaS),以及数据功能即服务(SaaS)实现共享服务模式的转变,将死板的数据转为灵活的服务。在“数据云”中,用户既是数据的使用者也是数据资源的提供者,通过提供数据发布、数据需求发布、数据发现与共享、需求发现与反馈等功能,解决数据共享中“用户-数据”之间的矛盾,并激励普通科研工作者贡献自己的数据,保障数据资源有效、可持续整合。最后,构建了原型系统用于验证该框架,形成了一个“人人都是数据的提供者,人人都是数据的使用者”的数据共享服务环境。  相似文献   

6.
高效、准确地获取目标数据及其关联数据,是决定大数据共享与挖掘分析能否实现的关键因素。传统的数据检索方法无法利用地学数据间的显性或隐含关系,已不能满足日益增长的对检索结果质和量的需求,而本体理论和技术的语义检索成为当前的研究热点。本文针对时间这一地学数据的本质属性,在系统研究地学数据时间概念与特征的基础上,建立了地学数据时间本体模型,并深入论述了模型中的时间关系、时间坐标系等内容,提出了时间位置和时间距离的描述函数,同时研究了二者的本体表达方式。构建了包括地质年代等在内的地学数据时间本体库,并以语义网开发框架Jena为基础,经本体解析、元数据时间信息抽取与标注等过程,将时间本体应用于地球系统科学数据共享平台的元数据检索之中。结果表明,以时间本体的地学数据语义检索查全率约为关键字方法的1倍,检索结果排序,以及关联数据推荐方面也有更好的效果,为促进地学数据共享与关联发现提供了一种有效的方法。  相似文献   

7.
针对现有微地图(WeMaps)推荐算法未充分挖掘用户与微地图特征,推荐结果准确率较低的问题,提出融合特征交叉与用户历史行为序列的微地图推荐算法。首先,在用户与地图特征交叉过程中通过引入跳跃连接和多头自注意力机制,让不同特征组合能够自动获得权重,并通过在多个子空间下进行特征交叉获得了更丰富的特征组合信息。其次,在用户历史行为序列中引入了交叉注意力机制,捕捉与候选地图相关的兴趣点。最后,融合特征交叉和用户行为序列模块的输出,获得了综合多个维度的推荐结果。在公开数据集Criteo和自制微地图(WeMaps)数据集上的对数损失值分别为0.446 1、0.379 7,受试者操作特征曲线下面积值(Area Under the ROC Curve,AUC)分别为0.805 2、0.788 3。相较于本文对比实验中的二阶特征交叉模型,损失值分别降低了1.7%、14.2%,AUC值提高了0.8%、0.4%。相较于本文对比实验中的高阶特征交叉模型,损失值平均降低了1.3%、2.6%,AUC值平均提高了0.6%,0.2%。较低的损失值和较高的AUC值说明模型进行预测时具有较高的准确性和较好的分类能力。实验结...  相似文献   

8.
在基于位置的应用领域中,如自然灾害监测、流感趋势预测、定向广告推广等,用户地理位置的推测起到重要的作用。现有方法主要利用文本内容和社交网络进行位置推测,一方面未能充分挖掘和融合2种信息,另一方面推测社交网络中孤立用户的位置比较困难。因此,本文提出一种融合文本主题和社交关系图神经网络的社交网络用户住所位置推测方法(Social Relationship Graph Convolutional Network, SRGCN)。主要方法包括:首先,从文本内容中获取混合特征,利用TF-IDF获得文本特征向量,根据用户之间的提及信息建立初始社交关系图;其次,针对用户社交关系图中存在孤立用户并难以估计其位置的问题,建立主题模型,根据主题向量相似度为孤立用户建立联系,补充社交关系图;最后,基于图卷积神经网络处理社交关系图数据,对文本特征和网络结构进行联合建模,以有效推测用户的地理位置。在真实世界基准数据集GeoText上探究了主题相似度阈值对推测性能和图规模的影响,实验结果表明本文方法能够增加可定位用户的比例并将大部分属于同一类的用户节点聚集;SRGCN在平均距离误差、距离误差中位数、推测准确度方面...  相似文献   

9.
地球系统科学数据共享研究与实践   总被引:4,自引:2,他引:2  
分布式、异构科学数据的整合集成与"一站式"共享服务是科学数据共享的关键和难点。首先,提出"创建地球系统科学数据共享联盟,共建、共享"的分散数据资源整合理念和按"总中心-分中心-数据资源点"三个层次的整合架构,然后,在组织模式上保障分布式数据资源的有效整合。即通过"元数据集中管理,数据体分散存储"的策略,从技术上保障分布式数据资源的快速整合。针对地球系统科学不同学科数据资源的特性,设计了地球系统科学数据核心元数据标准及扩展方案,利用MVC(元数据标准模型-显示视图-操作函数)模式实现多标准地学元数据的统一管理和自适应显示。最终,研究面向SOA的分布式地球系统科学数据共享平台,通过"一个总中心,认证中心和若干个分中心",形成物理上分布、逻辑上统一的分布式服务网络,从而为用户提供"一站式"的数据共享服务。  相似文献   

10.
一种适合于科学数据的聚类算法   总被引:2,自引:0,他引:2  
聚类是科学数据挖掘中的核心问题.在已提出的聚类算法中大都是基于"距离"的概念,这类算法的缺点在于处理数据量大和维数高的科学数据时不够有效,因此提出迭代网格算法.这个算法与基于距离的损法有根本不同,它抛弃了距离的概念,而采取一种新的思路.它不仅能够自动发现包含有趣知识的子空间,并将里面存在的所有聚类挖掘出来;而且它能很好的处理维数高和数据量大的科学数据.  相似文献   

11.
面向地学计算的资源环境科学数据共享平台的设计   总被引:1,自引:0,他引:1  
目前,在我国的资源环境科学领域中,数据、计算和服务等各种资源存在着共享少、冗余大、标准杂等问题。而信息技术的飞速发展给资源环境科学领域的信息技术基础--地理信息系统带来强大的技术支持。鉴于此,本文以中国科学院资源环境科学数据共享平台建设为例,系统地介绍面向地学科学计算的资源环境科学数据共享平台的设计以及所采用的关键技术--元数据标准/元数据数据库技术、XML/GML技术以及网络会议/多媒体技术等。  相似文献   

12.
基于开源的数据挖掘系统Weka,使用Java语言及面向对象的思想,设计并实现了地震数据挖掘系统。根据地震数据资料的特点,将数据挖掘的核心技术(聚类分析、关联规则分析等)引入到该系统中,其中聚类分析选用DBSCAN作为核心算法,关联规则分析选用Apriori作为核心算法。用户使用该系统只需在交互界面选择相关参数,即可实现调用数据挖掘算法来分析地震数据,发现探索其隐含规律。  相似文献   

13.
为了充分挖掘浮动车轨迹数据的潜在特性,本文在OPTICS空间密度聚类算法基础上,提出了一种有向密度的快速聚类方法(D-OPTICS)。该方法通过扇形空间邻域计算其有向密度信息,并基于方向信息约束其密度可连通性,通过有向可达距离曲线生成数据基本簇,最后,通过空间网格及类簇聚合等优化方法,实现其大规模浮动车轨迹数据的快速聚类处理。通过有向时空数据的聚类分析,发现浮动车轨迹的时空分布特性,以提取复杂路网的结构信息。本文以福州市大规模浮动车轨迹数据,对D-OPTICS进行了系统实验,分析表明,该算法可实现浮动车轨迹数据的快速有向密度聚类分析,有助于挖掘发现时空轨迹数据的分布规律,且基于聚类结果提取了福州市区复杂路网的有向拓扑结构图。同时,与DBSCAN及OPTICS等传统的密度聚类算法进行性能对比,实验表明,D-OPTICS算法能更好地支持大规模浮动车轨迹数据的处理要求。  相似文献   

14.
地理数据空间本体构建及其在数据检索中的应用   总被引:1,自引:0,他引:1  
随着新地理信息时代的来临,地理数据已经呈现出爆炸式增长的趋势。如何在海量的地理数据中准确、及时地找到人们所需要的数据,并把相关联的数据智能地推荐给用户,成为亟待解决的一大难题。针对传统以关键词、主题词等字符串匹配为核心的数据发现方法存在的查不全、查不准的问题,本文通过对地理空间中的概念、属性、关系、规则,以及相应实例的详细表达,初步提出了地理空间本体构建框架,并在此基础上构建了较为完整的地理数据空间本体,以实现地理数据的智能关联,最后在地球系统科学数据共享平台中进行应用实践。结果表明,引入地理数据空间本体后,检索的结果在数据的查全和查准方面显著提高,而且还能智能推荐相关联的数据信息。本文构建的地理数据空间本体对于大数据时代背景下地理数据的精确发现和共享有重要意义。  相似文献   

15.
手机的普及使手机定位数据成为分析个体时空行为特征的新兴重要数据源之一,并被逐渐应用到人口管理、城市规划、交通分析和流行病防控等众多领域的研究中。从手机定位数据中识别个体的停留区域是众多基于手机定位数据研究的重要基础环节。然而,当前常用的手机定位数据定位精度相对较低,且往往存在定位震荡和定位漂移导致的数据噪声,这些因素增加了从手机定位数据中识别停留区域的难度。为了提高从手机定位数据中识别个体停留区域的准确性,本研究结合个体行为的时空连续性,提出了一种基于滑动窗口的增长聚类算法。实验结果显示,相较常用的ST-DBSCAN算法和SMoT算法,对于采样时间间隔稀疏的手机定位数据,本研究提出的滑动窗口聚类算法在准确率方面的提升幅度最大可以达到35%。由于隐私问题,当前研究和应用中使用的大规模手机定位数据集中的时间分辨率往往较低,因此,本研究提出的滑动窗口聚类算法具有较为广泛的应用场景,可增强基于手机用户停留区域的众多研究结果的可靠性,为手机定位数据的广泛合理应用提供关键技术支撑。  相似文献   

16.
时空聚类是数据挖掘研究的主要内容之一,在环境保护、疾病预防与控制、犯罪预防与打击等领域具有重要的应用价值。已有的时空聚类方法中,时间“距离”都认为是真实的间隔,而对于具有社会属性的案事件而言,其在不同时间尺度下具有明显的周期性特征,忽略这些特征将很难反映出案事件真实的时空规律。本文综合考虑多时间尺度下的时间属性,构建等效时空邻近域,并借鉴经典的密度聚类算法,提出了多时间尺度等效时空邻近域密度聚类算法(MTS-ESTN DBSCAN)。通过对福州市区2013年案事件数据的聚类分析表明,该方法在案事件时空聚类方面具有可行性,对于进一步深入研究城市犯罪地理具有一定的理论意义和实际价值。  相似文献   

17.
地理空间数据语义异构是实现数据关联、数据智能推荐和精确发现的主要瓶颈。地理空间数据本体被认为是解决地理空间数据语义异构的有效方法。形态特征是地理空间数据(除时空、要素内容外)的重要特征,是地理空间数据本体的重要研究内容。本文首先在系统分析地理空间数据形态特征的基础上,提出地理空间数据形态特征的概念体系。然后,建立地理空间数据形态本体模型,提出形态信息的本体表示方法,并构建地理空间数据形态本体。最后,基于形态本体的本体库,利用Jena本体推理技术,开发地理空间数据语义检索原型系统,并将形态本体应用于国家地球系统科学数据共享平台的元数据检索中。实验结果表明,地理空间数据形态本体可以有效地解决数据形态特征的语义异构,提高数据发现的查全率和查准率。本文的研究方法和成果对解决其他领域数据的语义异构,有重要的参考意义。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号