虫子郭郭
从原始 GPS (全球定位系统) 数据中提取 汽车停靠意图数据 是大多数位置感知应用程序中的关键任务,且随着从移动设备收集 GPS 数据的不断增长,这项任务变得越来越有趣。近期很多研究都集中在行人 (手机) 数据上 (可理解为红海市场),而商用车领域几乎没有探索 (蓝海市场)。 在本论文中,针对车辆 GPS 数据的汽车停靠意图的 识别 和 分类 问题 (利用来自不同行业的商业车队的大型异构数据集),按照意图分类,旨在把汽车停靠点分类为: 工作相关 和 非工作相关 ,以挖掘相关商业价值。 还对每个汽车停靠点计算一组含 100 个不同特征的集合,特征可分为四个主要类别: 汽车停靠点特征 , 兴趣点特征 , 汽车停靠点集群特征 和 序列特征 。并组合四组特征,加入训练,通过随机森林分类模型,我们得以评估四组特征中每个特征的相对重要性。 实验结果表明,本论文的方法显着地超越了现有商业车辆背景下用于汽车停靠意图的分类模型。 在过去的十年中,GPS 设备的巨大推广,使得人们越发关注 数据挖掘算法 在 时空数据 (GPS 产生的数据) 中的应用。而许多实际应用需要使用关于 用户行为 和 地理位置的语义信息 。例如,下述的两个实例: 语义标记 GPS 数据,目标旨在 识别 和 归类 GPS 沿途轨迹上的位置信息,即具体工作有 语义位置的侦察 和 汽车停靠或出游的意图归类 。尽管上述问题不是同一类型的问题,但却是强相关的。例如,对多个用户而言具有相同意图的共同定位点,可能是语义上相关联的地方,因为知道某个地方的语义对分类每个汽车停靠点意图有很大的帮助。 通常,对于上述 识别 和 归类 问题的解决方法分两个阶段执行: 最后,本论文解决了与参考文献 [7] 的同样问题,即利用四个不同的特征集,使用一个随机森林分类器,对商业车队的汽车停靠意图数据进行分类建模。且本文的主要贡献如下: 正如上述所描述的,关于瞬时车辆位置的原始数据是由 GPS Ping 组成的,将它们汇集起来以描述车辆的活动。为此本论文开发了一个 时空聚类程序 。 在 车辆停靠侦查技术 章节中描述的,从一系列的 GPS Pings 提取汽车停靠点,并从中提取 100 个不同的特征用于训练随机森林模型,随之将这些特征划分为 4 个不同的组: [1] Horozov T, Narasimhan N, Vasudevan V. Using location for personalized POI recommendations in mobile environments [C]//Applications and the internet, 2006. SAINT 2006. International symposium on. IEEE, 2006: 6 . [2] Jiang K, Yin H, Wang P, et al. Learning from contextual information of geo-tagged web photos to rank personalized tourism attractions [J]. Neurocomputing, 2013, 119: 17-25. [3] Palma A T, Bogorny V, Kuijpers B, et al. A clustering-based approach for discovering interesting places in trajectories [C]//Proceedings of the 2008 ACM symposium on Applied computing. ACM, 2008: 863-868. [4] Gong L, Sato H, Yamamoto T, et al. Identification of activity stop locations in GPS trajectories by density-based clustering method combined with support vector machines [J]. Journal of Modern Transportation, 2015, 23(3): 202-213. [5] Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise [C]//Kdd. 1996, 96(34): 226-231. [6] Lv M, Chen L, Xu Z, et al. The discovery of personally semantic places based on trajectory data mining [J]. Neurocomputing, 2016, 173: 1142-1153. [7] Gingerich K, Maoh H, Anderson W. Classifying the purpose of stopped truck events: An application of entropy to GPS data [J]. Transportation Research Part C: Emerging Technologies, 2016, 64: 17-27. [8] Sambo F, Salti S, Bravi L, et al. Integration of GPS and satellite images for detection and classification of fleet hotspots [C]//Intelligent Transportation Systems (ITSC), 2017 IEEE 20th International Conference on. IEEE, 2017: 1-6. [9] Wolf J, Guensler R, Bachman W. Elimination of the travel diary: Experiment to derive trip purpose from global positioning system travel data [J]. Transportation Research Record: Journal of the Transportation Research Board, 2001 (1768): 125-134. [10] Bohte W, Maat K. Deriving and validating trip purposes and travel modes for multi-day GPS-based travel surveys: A large-scale application in the Netherlands [J]. Transportation Research Part C: Emerging Technologies, 2009, 17(3): 285-297.
天可莲见
随机森林能够度量每个特征的重要性,我们可以依据这个重要性指标进而选择最重要的特征。sklearn中已经实现了用随机森林评估特征重要性,在训练好随机森林模型后,直接调用feature_importan ces 属性就能得到每个特征的重要性。
一般情况下,数据集的特征成百上千,因此有必要从中选取对结果影响较大的特征来进行进一步建模,相关的方法有:主成分分析、lasso等,这里我们介绍的是通过随机森林来进行筛选。
用随机森林进行特征重要性评估的思想比较简单,主要是看每个特征在随机森林中的每棵树上做了多大的贡献,然后取平均值,最后比较不同特征之间的贡献大小。
贡献度的衡量指标包括:基尼指数(gini)、袋外数据(OOB)错误率作为评价指标来衡量。
衍生知识点:权重随机森林的应用(用于增加小样本的识别概率,从而提高总体的分类准确率)
随机森林/CART树在使用时一般通过gini值作为切分节点的标准,而在加权随机森林(WRF)中,权重的本质是赋给小类较大的权重,给大类较小的权重。也就是给小类更大的惩罚。权重的作用有2个,第1点是用于切分点选择中加权计算gini值,表达式如下:
其中,N表示未分离的节点,N L 和N R 分别表示分离后的左侧节点和右侧节点,W i 为c类样本的类权重,n i 表示节点内各类样本的数量,Δi是不纯度减少量,该值越大表明分离点的分离效果越好。
第2点是在终节点,类权重用来决定其类标签,表达式如下:
参考文献:随机森林针对小样本数据类权重设置
这里介绍通过gini值来进行评价,我们将变量的重要性评分用VIM来表示,gini值用GI表示,假设有m个特征X 1 ,X 2 ,...X c ,现在要计算出每个特征X j 的gini指数评分VIM j ,即第j个特征在随机森林所有决策树中节点分裂不纯度的平均改变量,gini指数的计算公式如下表示:
其中,k表示有k个类别,p mk 表示节点m(将特征m逐个对节点计算gini值变化量)中类别k所占的比例。
特征X j 在节点m的重要性,即节点m分枝前后的gini指数变化量为:
其中GI l 和GI r 分别表示分枝后两个新节点的gini指数。
如果特征X j 在决策树i中出现的节点在集合M中,那么X j 在第i棵树的重要性为:
假设随机森林共有n棵树,那么:
最后把所有求得的重要性评分进行归一化处理就得到重要性的评分:
通过sklearn中的随机森林返回特征的重要性:
值得庆幸的是,sklearnsklearn已经帮我们封装好了一切,我们只需要调用其中的函数即可。 我们以UCI上葡萄酒的例子为例,首先导入数据集。
然后,我们来大致看下这时一个怎么样的数据集
输出为
可见共有3个类别。然后再来看下数据的信息:
输出为
可见除去class label之外共有13个特征,数据集的大小为178。 按照常规做法,将数据集分为训练集和测试集。
好了,这样一来随机森林就训练好了,其中已经把特征的重要性评估也做好了,我们拿出来看下。
输出的结果为
对的就是这么方便。 如果要筛选出重要性比较高的变量的话,这么做就可以
输出为
瞧,这不,帮我们选好了3个重要性大于的特征了吗~
[1] Raschka S. Python Machine Learning[M]. Packt Publishing, 2015. [2] 杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015.
可以,但是不要太多,否则影响你的论文的查重率。
论文发表的方法是:选定想要发表的论文期刊,找到该期刊的投稿方式并投稿,部分期刊要求书面形式投稿,大部分是采用电子稿件形式。在审稿通过以后即可将论文发表在期刊上。
村上春树49年生人,京都府人 毕业与早稻田大学文学部。1979年以处女作《且听风吟》或群像新人文学奖。主要作品有《挪威的森林》《天黑以后》等长片作品。简单说下村
不能。 论文中的参考文献不能随便写,毕业论文的撰写应本着严谨、求实的科学态度,凡有引用他人成果之处,均应按论文中所出现的先后次序列于参考文献中,并且只列出正文中
生态文明的论文参考文献 从小学、初中、高中到大学乃至工作,大家都不可避免地会接触到论文吧,论文是一种综合性的文体,通过论文可直接看出一个人的综合能力和专业基础。