• 回答数

    4

  • 浏览数

    258

招财KItty.
首页 > 论文发表 > 发表了可视化工具的论文

4个回答 默认排序
  • 默认排序
  • 按时间排序

真理在朕

已采纳

需要帮忙吗?

142 评论

秋末夏初

1.绪 论1.1选题背景从穴居人到现代社会,人类经历的不仅仅是时代的变迁,文化的进步,就连建筑行业也是发生了翻天覆地的变化,由洞穴(公元前25000年前)——泥砖房(公元前8000年)——多姆斯(公元前500年)——城堡(公元3世纪)——町屋(公元9世纪)——土楼(宋元时期)——公共住房(现代社会),随着材料和造型的改变,人们对建筑物的要求也越来越高,既要求经济、又要求适用、还要求美观。近年来的建筑行业发展尤为迅猛,随着科学的进步,建筑行业由传统模式变为了现在的开放管理,也变得越来越科技化,比如装配式建筑、BIM技术等。BIM(Building Information Modeling)即建筑信息模型,它是通过数字化技完整一致的、具有逻辑性的建筑信息库[4]。BIM技术最初是由Autodesk公司在2002年提出的,主要是为了帮助实现建筑信息的集成,从建筑的规划设计、招投标、施工、竣工验收、后期的保修期直至项目终结,所有的数据都可以转化为一个三维模型。BIM应用技术的发展如此快速,还有一个很重要的原因,它可以有效的提高工作效率,减少生产成本,缩短建筑周期,可以将利益最大化。因此BIM应用技术在未来必将会是每个建筑人必须拥有的一个技能。毕业设计是展示和提升高校建筑工程专业学生BIM应用技能水平和综合素质的新途径和新方法,是培养高素质复合型、应用型建筑工程人才的重要途径。本项目的任务是使学生在准备阶段、招投标阶段和施工阶段掌握建筑工程中的BIM技术,针对BIM技术在实际工程项目各个阶段的应用,使学生具备应用BIM工程建模和BIM的能力深化设计,以巩固自己的专业知识,丰富自己的视野,拓展自己的思维,提高问题分析和解决问题的协调能力,为今后的工作做好必要的准备。1.2 BIM技术在国外的发展美国的BIM研究与应用都位居世界前列。目前美国大部分建筑项目已经开始应用BIM技术了。此后,各种BIM协会都陆续出现,各种BIM标准也出台了。BIM技术在西方国家发展得很好,尤其是英国。到目前为止,英国的BIM技术应用正在以全世界最快的速度增加。到2013年3月出台了PAS1192-2标准。这一标准是英国政府建设战略的一部分,以加强工程交付管理和财务管理为目标,其主要目的是整体上把公共部门建设费用的支出减少近20%-30%。据2015年NBS(Nationalbuilding Specification)调查报告显示,英国政府到2025年为止将白天释放33%的培养产业指标。缩短建设初期费用和人寿周维护费用,建设更新工程50%工期,温室气体排放量50%,建筑材料进出口贸易50%。英国国家广播公司(NBS)从2010年开始进行“国家BIM调查(NationalbiMSurvey)”,以约1000名建设、工程和测定领域的建设产业从事者为对象进行在线调查。这份关于B.I.M的调查到现在已经是第5年了。调查结果显示,英国政府2011年发表BIM推进政策白皮书后,经过4年左右的努力,效果显著。图1.1 美国BIM倡议1.3 工程项目概况及设计要求笔者的毕业设计题目为“乌审旗沙尔利格小学综合教学楼及周转宿舍的建模表现”。本项目建筑面积5238.28平方米,基地面积2242.22平方米,地上4层(局部3层),建筑总高19.00米(从室外地坪至坡屋顶二分之一处),框架结构(局部钢框架),屋面防水等级1级,耐火等级二级,抗震设防烈度为7度。该设计采用BIMMAKE或Revit结合图纸进行土建模型的创建,模型创建过程中可以将BIMMAKE模型无缝导入到Revit中,不建议反向导入。通过BIMMAKE能够简单快速的进行土建模型创建,一键处理模型重面,快速绘制跨度间的梁板,能够做深化设计进行快速砌体排砖。采用广联达专业机电BIM软件MagiCAD2020 for Revit2019(以下简称MC) ,结合图纸完成案例工程机电模型建立,模型中包含但不限于机电各专业管线、管件、附件、设备、支吊架(不少于两个专业)。 根据机电管线配色方案(配色为常规配色或自定义)为机电管线、附件、设备进行配色; 根据综合管线排布原则对所建机电管线进行管线综合排布调整; 利用MC机电管线交叉快速处理功能对交叉碰撞管线优化处理; 利用MC碰撞检查对优化调整完成的机电管线进行碰撞检查,对存在碰撞位置再次进行优化调整,直至管线间不存在碰撞;利用MC孔洞预留和开洞功能对机电管线穿土建墙体进行孔洞预留开洞;利用MC碰撞检查对所建模型进行整体碰撞检查,包含机电各专业之间,机电与土建之间的检查,对存在碰撞位置进行调整优化,直至不存在碰撞。通过导入土建与机电模型,在虚拟现实设计平台VDP进行效果和交互处理,同时对项目概况、实施过程等进行适当介绍,最后通过BIMVR进行展示;在VDP中对机电专业某个系统的局部进行动画运行模拟,对土建结构局部进行施工动画模拟,对重要节点的施工工艺模拟。也可采用LUMION软件对模型进行漫游渲染。本次设计主要采用了实际操作的方式,通过对乌审旗沙尔利格小学综合教学楼及周转宿舍的建模表现这一课题的研究让笔者对于BIM应用技术具有初步的认识,清楚BIM建模的每一个过程,将书本上的概念转化为实际中的应用。图1.2 建筑立面图2.Revit模型的创建2.1 模型创建的前期准备 毕业设计本身就是一个难度大、工程量大的作业,而且此次笔者的设计还是关于BIM的建模与表现,难度更是不小。笔者在此之前从来没有接触过BIM这一方面,这方面的软件更是不清楚,而且专业相关的软件,只有CAD有一点点的基础,这次设计甚至连要用哪个软件都不清楚,所以这个课题对笔者来说真的是很困难的。所以在做这个毕业设计之前,做了很多的准备。先是对任务书进行了初步研究分析,同时又跟着老师学习了一段时间的机电建模,还从图书馆借阅相关的资料,以及上网搜素相关的视频资料等。在觉得自己对任务书有了一定的了解之后才开始做建模。建模之初需要先进行安装软件于BIM技术的建模与表现配套软件,主要软件有以下几个:1)广联达BIMMAKE;2)广联达MagiCAD 2020 for Revit 2019、3) 虚拟现实设计平台VDP、BIMVR;4)Revit 2019;5)Microsoft Office Word、PowerPoint、Project;6)其它 BIM 相关软件 图2.1 软件安装示意图在软件安装的同时,笔者先进行资料的处理,一个是图纸的处理,另一个是关于族的处理。笔者的这套图纸中主要包括建筑图纸、结构图纸、暖通图纸、水施图纸、电气图纸。笔者需要把每个专业的图纸都分割好,顺便将图纸中多余的内容去掉,这样方便后期建模时图纸的导入和建模。族用汉语意思来讲就是聚集,而Revit里的族也是如此,Revit里的族有很多种,包含了建筑物的每一个构配件,这些构配件的族都聚集在一起就形成了一个完整的建筑物。而族的创建也是十分复杂的,在此次设计中就不过多描述关于族的创建,故直接使用系统中自带的族。在软件安装完成后就可以开始建模,笔者打开Autodesk Revit 2019软件,并且新建一个项目样板(项目样板是建立项目的基础设置,它就像一个模子,由多种族构成,在项目样板的基础之上,才可以建立一个完整的项目),进入到正式的绘图页面。进入界面之后,我们需要进行一个很简单的操作,那就是将项目浏览器和楼层平面图例分开(笔者习惯将楼层平面图例放在左边,项目浏览器放在右边)。用鼠标将项目浏览器拖至Revit 右边界面边缘处,这样方便我们在后期的模型建立。 图2.2 Revit界面图图纸比例设置完成后,可以在我右侧项目浏览器中,看到四个方向,"东,西,南,北"可以随意选择其中一个。然后打开立面图绘制页面,进入立面图绘制页面以后,点击“确定”按钮,系统将自动切换图像页面。进入立面绘制页面后,需要根据建筑物的楼层数、层高,绘制多条标高线条,在菜单栏的“建筑”的选项中,选择“标高”工具,绘制标高。绘制标高时,笔者是从左向右绘制。标高的说明就会出现标高线条的右方,由右向左画标高时,标高的说明就会出现标高线条的左侧,绘制完标高后,我们需要选中标高线,这时就可以看到在没有显示标注的一侧会出现一个小方框,此时可以点击这个小方框,点击过后这一侧也会出现标注。注意绘制的时候,Autodesk Revit会自动显示提示线条,使标线长度保持恒定。按照设计楼层,绘制完成标高后,我们点击标高的名称。以及标高的数据,需要将标高命名为F1,F2...。这样我们就完成了标高的建立,完成标高后,我们就可以开始绘制轴网。由于笔者的图纸在进行轴网绘制时采用“拾取”的方式时,轴网比较混乱,不容易拾取,也为了减少失误,提高效率,故采用手动绘制轴网的方式。因为该套图纸的轴网左右不对称,故在绘制之前需要先将轴线间的距离分别计算出来。在Revit窗口右侧的项目浏览器中,选择楼层平面中的“F1”点击进行确定。我们会进入到一楼平面的绘图页面。我们可以在上方的选项卡菜单中,选择“建筑-轴网”,大家可以在四个方向范围里的空白处开始绘制轴网。在绘制轴线时,单击空白区域,之后进行水平拖动或垂直拖动,这样我们就绘制成功了第一条轴网,在绘制轴网时,我们一定要注意要垂直或者水平进行拖动,而且在绘制轴网时从左向右,从下向上绘制,这样我们就可以保证轴网的标注是正确的,以免发生不必要的错误。接下来我们可以重复做上述工作,绘制余下的轴网。绘制余下轴网是一定要注意轴线与轴线之间的距离。我们也可以在绘制成第一条的时候选择复制或者阵列,随便设定一个距离,等画完所有的轴网后,再进行修改距离,注意修改距离的时候,先选中一个轴线,修改左侧的距离,再选择下一根轴线,同样修改左侧的距离,直到全部修改完。我们完成一个方向的轴网绘制后,可以对轴网的长度进行统一的调整,任意点击选中一个轴线。会发现在轴网的数字标注下方会出现一个小的空心圆圈,鼠标指向空心圆圈并出现一条虚线可以连接到所有的轴线时,我们可以拖动空心圆圈直到到达自己需要的长度后,停止拖动,这时所有的轴线都已经被拉长了。完成一个方向的轴网绘制后,我们重复以上操作完成其他方向的轴网绘制,但是我们需要在绘制完第一条的轴网后将名称需要修改为A,确定第一条轴线的名称之后,其后的所有轴线就会自动根据第一条的规则进行依次标注,逐步绘制多条轴线后,即可完成轴网的绘制。绘制轴网完成后,我们需要调整一下轴网的位置,一定要将轴网放置于四个立面标志的方向里,如果不在四个方向里会影响我们三维图的视角,我们需要将其移动至轴网之外(注意,这四个方向都是有两部分,一定要将其都选中后再进行移动)。轴网和标高一旦完成,我们就开始绘制基础,柱子或其他结构。 图2.3 Revit方向截图2.2 模型创建阶段我们建立模型时可以按照以下顺序:基础——结构柱——结构梁——结构板——墙——楼梯——门窗——坡屋顶——给排水——消防——电气——暖通。2.3结构模型和建筑模型建立阶段在建立基础之前我们一定要反复阅读图纸,做到充分理解图纸,理解业主的意思,再确定基础的材料、形状、埋深,然后开始建立基础模型。建立基础模型,需要先导入CAD 图纸,再按照基础形状载入族(笔者的图纸中大部分为坡型柱下独立基础,还有少数的筏板基础),然后复制创建新类型,进行编辑。最后将编辑好的基础放置在图纸的相应位置即可,放置好之后可以再去三维图里测量下基础底的标高是否为3.4米,标高快捷键为EL。基础模型相比较其他的模型是比较简单的。图2.4 基础模型接下来我们就可以进行结构柱的建立,各专业模型建立的过程都是类似的,第一步导入CAD图纸(或者选择链接CAD),将图纸与轴网对齐,快捷键AL。第二步,观察图纸中柱子的类型,主要包括截面尺寸,高度,配筋,箍筋间距等。确定好各类柱子之后就可以开始载入柱子的族,为现浇混凝土矩形柱且混凝土强度等级为C30。第三步就可以创建新的类型,将47种框架柱的信息全部编辑完成。第四步就可以开始绘制柱子,为了减少工作量,笔者采用了简便的方法,先在楼层平面F1中导入了基础顶至4.450柱平面图,在绘制柱子时修改了柱顶的偏移量,比如KZ22,标高为8.350——16.150,可以在图纸8.350至屋顶柱平面图中找到KZ22的位置,在F1中找到KZ25的对应位置,绘制时分别将柱底偏移量和顶部标高修改为8350和16150就可以了,这样在绘制时能少导入几次图纸,提高工作效率。 图2.5 柱表和柱子图例绘制完柱子时一定要注意底部偏移量,如果不修改柱子底部的偏移量,基础会跑到柱子下边,或者基础与柱子不在一个平面,偏离原来基础的位置,所以一定要特别注意。绘制完柱子之后也要在三维图里测量一下基础底标高,柱底标高和柱顶标高。以防止柱子或基础发生偏移。柱子绘制完之后我们可以开始建立结构梁的模型。我们先导入结构梁的平法施工图,然后使用快捷键AL分别对齐轴网,对齐后我们可以看到柱子的截面图,可能会影响我们的绘制,所以我们调整一下视图可见性,将结构柱取消选中就可以将柱子隐藏。 图2.6 视图可见性从图纸中我们可以知道,这里的梁为现浇钢筋混凝土梁,混凝土强度等级为C30。我们可以先在插入/载入族中找到现浇混凝土梁—矩形,载入之后,我们在右边的项目浏览器中选中其并单击右键,选择新建类型。按照图纸中的编号将所有的梁都进行创建,创建完成后再进行数据的编辑,梁的数据编辑比较简单,只需要编辑梁高和梁宽。然后按照位置将其绘制上去即可。 图2.7 结构框架展示在绘制门窗时使用 了“HiBIM土建3.1.0”,这个软件可以直接将门窗转化出来,不需要一个一个的建立模型再放置在合适的位置,而且可以很好的协调墙门窗之间的连接性。首先需要我们把CAD图纸链接进来,再提取门窗的一些数据。最后转化即可生成。 图2.8 墙门窗转化最后再绘制其他建筑构配件即可,此时土建模型就建立完成。2.4机电模型的建立 机电模型我们可以从给排水开始,首先还是要熟读图纸,理解图纸中的每一个细节,要做到充分理解图纸。然后开始建立模型。 导入CAD图纸,快捷键AL对齐,然后在右侧的项目浏览器中,我们将找到族--管道--给水,选择“复制”,将出现一个给水系统2,然后双击将其选中,并将其命名为“供水系统”,然后打开“材质”选项,添加新材质,并将其命名为供水系统1(由于供水管干管的设计,垂直管采用钢塑复合压力管,支管采用pp-r管。为了区分支管、主管和立管,所以我们将其命名为给水系统1),并修改颜色为绿色或修改编号为“0、255、0”。修改过之后就可以选择在一个空白的地方画一段管道,由于视图可见性和视图范围,可能会导致作者看不到绘制出来的管道,此时可以先将左边的楼层平面选项卡中规程修改为协调,如果不显示,则可以观察视图可见性中“管道、管件”是否为选中状态,将其选中,最后一个视图范围,视图范围共有四项,分别是顶部、剖切面、底部、标高。这里一定要注意:上下剖切面必须在两限制范围内,且上剖切一定要高于下剖切!这几项都改之后我们绘制的管道就可以显示出来了。这时我们选中我们刚才绘制的管道,点击管道属性栏下方选择系统类型为“给水系统1”,然后点击编辑类型--管段和尺寸--新建一个材质为PSP钢塑复合压力管,压力2.0MPa。点击确定后我们还需要载入管件的族,包括弯头、三通、四通等水管管件。其他管道的创建也是如此。创建完成之后就可以开始管道的绘制。绘制过程中我们一定要注意管道的标高和管径。水平管道的绘制修改过标高和管径之后沿着图纸中的管线绘制即可。立管的绘制需要先修改管径,然后选择管道的标高,确定一下立管的高度,偏移量再次修改,修改完成后双击应用,立管就绘制完成了,我们也可以在三维图里确定一下。如管道JL—1,该管道的最低处标高为-1.700,DN65。管道最高处标高在12.300—16.200之间,我们结合各种因素将其确定为14.500(如果后期绘制其他管件附件有影响时,可以再修改),在绘制时我们选择立管的位置,并将其第一个偏移量修改为-1700,从-1700绘制后再将其偏移量修改为14500-(-1700)=16200,再双击应用,立管就绘制成功了。然后我们再安装管道附件,舆洗池,大便池,小便池等卫生器具。暖通专业和电气专业的绘制皆和给排水专业类似。按照此法绘制即可。 图2.9 机电模型展示 图2.10 机电模型展示

168 评论

糖果屋de芒果

论文可视化分析的意思是用海量数据关联分析,辅助人工操作将数据进行关联分析,并做出完整的分析图表。

论文可视化分析是在论文查重系统在查重后呈现出的查重报告单,不同的报告单反馈着论文不同方面的数据信息,包括查重率、重合字数、疑似抄袭段落等等;把文中所有的重复部分都进行了标注和相似论文的内容和出处;对文中重复的部分进行标红,并且有引用文献列表。

论文可视化分析数据解读:

总文字复制比:即查重率,查重能不能通过的关键数据。

去除引用文献复制比:即去除文中引用文献后的查重率。

去除本人已发表文献:即去除本人已经发表收录的论文后的查重率。

单篇最大文字复制比:即与本论文相似度最高的论文的查重率。

83 评论

艾薇喵跑

将高维数据点以可视化的方式呈现出来是探索式数据分析的一个重要研究课题,例如对于多张64*64的像素图,将每张图转化为行向量后可以表示为4096维空间中的数据点,如果能将这些数据点可视化到平面视图中, 并在某种程度上保留数据点间的分布规律,就能以人类可感知的方式探索原始图像集背后隐藏的规律。各个学科领域采集的数据如全球气候数据、人类基因分布、金融统计等经常呈现出高维的特征,所以研究高维数据的可视化方法具有极大的现实意义。   由于人类肉眼仅限于感知二/三维空间中的几何图形,所以高维数据点只有以二/三维的视觉元素表达后才能使人直观的观测数据分布的规律。在二维平面上可视化超过两个维度的方法有很多,比如散点图矩阵,平行坐标,Andrew曲线,星形图等,这些方法面对高维数据时也会产生视觉混淆的问题。降维算法是利用线性或者非线性变换将高维观测空间中的数据投影到一个有意义的低维空间中,同时尽量保持数据的内在结构不被改变 ,进而获取数据集内在特征的低维表示。   针对不同目的所使用的降维方法有所不同,比如特征工程是利用专家的知识和经验进行特征抽取和组合以达到降低运算复杂度的目的,而针对可视化呈现效果我们对不同的降维技术又有不同的评估标准。   通常针对可视化的降维问题的形式化表述如下:   该映射要使在高维空间中相距较近的点在低维空间中也应较近,在高维空间中相距较远的点在低维空间中也应较远。使高维数据点集嵌入到低维空间后尽量还原其整体和局部的拓扑结构。根据映射 的性质,降维可分为线性的和非线性的。   线性降维方法将高维数据集通过线性映射到低维空间,最常见的线性降维算法有 PCA ( Principal Component Analysis ), MDS ( Classical Multidimensional Scaling ),等。   以 PCA 为例,通过寻找一组线性向量基,将数据映射到其均方误差失真最小的低维线性空间中并尽量保持高维数据集对方差贡献最大的特征。具地地,对于高维数据集 , PCA 通过将 (数据集 的方差矩阵)进行特征值分解,取前几个较大的特征值对应的特征向量组成的线性映射矩阵 ,也就是最大化 的线性映射矩阵 , 的行数就是最终低维空间的维度,通过这种映射方法,低维空间中的数据集将尽量保留最大的信息量(方差),从而达到压缩原始数据的维度的目的。   与 PCA 相似, MDS(Classical) 方法求取的映射也是线性的,不同的是 MDS(Classical) 算法是从数据点对之间的相似性矩阵出发来构造合适的低维空间中的点集,使得数据的内在线性结构在低维空间中得以保持,相似度一般用欧氏距离来衡量。   上述方法,由于映射方法是线性的,将高维空间中局部存在的线性结构可视化后还能还原其结构,但对相距较远的点之间非线性的关系映射到低维空间后则会失真。比如我们将 PCA 方法应用到两类不同的三维数据集。   图2.1(c)和2.1(d)揭示了对于高维空间中的低维流形,更重要的是将那些高维空间中紧密靠近的点集在低维空间中形成聚类效果,比如图c三维空间中所有蓝色的点,而对于蓝色和黄色的点在二维平面中则应该更加的分散。 PCA 方法显然将蓝色点与黄色点混淆在一起了,所有基于线性映射的方法都存在这样的缺陷。   为了克服线性降维算法的缺陷,涌现了一批非线性降维算法。在探讨这些算法之前,有必要引入讨论下流形学习的背景知识。   三维空间中的地球,我们只用两个维度(经度和纬度)就可以维一的定位地面上任意一点。如图3.1c所示三维空间中的面包卷结构上,我们将它锤平后可以近似看作几个二维平面拼接在一起,我们可以确认它的本征维度为2。现实生活中的高维数据其实大量存在低维流形结构。2000年,Seung等人在《Science》上发表的论文【8】首次从流形的角度解释了人类的视觉认知形式,提出了流形是人类认知的基础的观点,这种认知形式可以抽象成维数与神经元数目相当的抽象空间中的点。例如,虽然人脸的图像是由 像素点组成的高维数据点,但是图2.2中只有头像的角度变化,理论上可以只用一个自由度去描述这几个头像图的变化,也就是 高维空间中的一维流形,而人类认知这个复杂人脸的变化可能只需要一个感知角度的神经元。现实中,一个图像中的人脸可能还加入明暗度,大小,表情变化等自由度,但其本征维度远低于 像素点的维度。更重要的是,随着分辨率的提高,维度急剧增加,流形的本征维度却没有变化。  图2.3(a)中的红色虚线表示两点间的欧氏距离,蓝线表示实际距离。图2.3(c)中的红色实线表示knn路径对实际距离的近似。   有了计算流形中两点相似度的方法后,在这之上就有了将高维空间中的低维流形嵌入低维空间中以表征其结构的降维方法,这被称为流形学习。 ISOMAP和LLE降维算法是流形学习的奠基之作,它们从算法层面印证了高维非线性数据确实存在低维流形结果,分别从全局特征构造和局部特征构造两个角度对高维非线性数据进行低维流形结构的还原。   ISOMAP算法是一种基于全局特征保持的流形学习算法。其算法的思路基本与MDS方法一致,也是根据点对相似度距阵不断迭代寻找各数据点在低维空间中放置的位置。不同的是ISOMAP通过knn计算点对相似度距阵,用测地距离替代MDS中的欧氏距离。最终代价函数为高维空间点距离与低维空间点距离差之和,这里可以看出优化目标是全局特征,然后对这个目标函数用梯度下降迭代求最优。   ISOMAP算法在可视化流形时主要存在两个问题:(1) “短路边”的存在会严重破坏低维空间中的可视化效果,在构建knn图时如果为每个数据点选择的领域过大或者输入样本中存在异常点,可能会导致流形上不相关的两个点间产生过近的距离。(2)对于非凸的高维数据集(有孔洞),如图2.4(b), ISOMAP不能很好的处理。(3)邻域选取过小会导致图非连通   ISOMAP试图在低维空间从全局上还原所有点对间测地距离,而LLE则试图在低维空间还原点与邻近点的局部线性关系。具体来说,LLE根据相似度矩阵构造每个点与周围几个邻近点人线性关系,然后对这个线性系数矩阵做特征分解,求出在低位空间中的坐标。LLE算法在可视化流形时主要存在两个问题:(1)邻域选取过大有时会导致很大一部分非近邻点映射为近邻点。(2)不能处理首尾相接的闭环流形。(3)邻域选取过小又可能导致找不到点的局部线性关系。   前面提到过高维空间中的流形具有远低于所在空间的本征维度,而如何估计低维流形的本征维度也是流形学习中的一个重要问题。而且这也是可视化的重要问题。如果低维流形的本征维度远大于2度,那利用降维算法将这些数据点可视化到二维散点图中就会比较困难。一个比较明显的问题就是拥挤问题【11】, 对于10维空间中的一个点A,其以R为半径的邻域为 空间中的球形, 我们假设这个邻域中均匀分布着一系列点,现在我们将点A和所有邻域中的点映射到二维平面中,将会近似一个圆。在10维空间中邻域内离A较远的点远多于A附近的点, 而这些较远点的象在二维平面上将集中在圆周附近,随着原始维度的上升,这些圆周附近的点将会变得更加拥挤,从而导致原始拓扑结构的失真。在10维空间中我们至少能同时找到10个彼此距离相等的点,而在2维空间中我们只能找到3个。如果不能解决拥挤问题,那么以低于流形本征维度的方式可视化就有很大可能失真。   本征维度被定义为在不损失信息的前提下,用来描述数据的自由变量的最小数量。局部本征维度估计方法可以分为全局本征维度估计法和局部本征维度估计法【6】。    t-SNE 算法是 SNE 算法的改进, SNE 将点对间的相似度用条件概率表述,这样任一点周围的点分布可以用高斯分布表示,然后用KL散度衡量低维空间中的分布于高维空间分布间的近视度,SNE的最终目标就是对所有点最小化这个 KL散度 。    t-SNE 作出的改进就是用在低维空间中用t分布替代高斯分布,如图1所示,高斯分布对应高维空间, t -分布对应低维空间。对于高维空间中相距较近的点,为了满足 ,低维空间中的距离需要稍小一点;而对于高维空间中相距较远的点,为了满足 ,低维空间中的距离需要更远。这就使最终的可视化效果有更好的聚类表现。 t -分布的长尾效应某种程度上缓解了拥挤问题。 t-SNE 作者还在论文【11】中提到, t -分布只适合二维可视化,其他维度的可视化需要其他分布。   t-SNE相较于ISOMAP和LLE来说有更好的可视化效果,因为它同时兼顾了全局特征和局部特征。   图4.1是t-SNE,ISOMAP,LLE在MINIST数据(手写体数字)上的可视化效果,可以看出t-SNE在不同的类簇间形成清晰的间隔,而ISOMAP和LLE不同类间存在重叠。   本文简述了从线性降维到非线性降维的发展历史,列举了几种经典的流行学习的算法在可视化方面的效果,包括当前最流行的t-SNE算法。当前的大量降维算法均是对这几种算法的改进或是基于类似的思想。本文所有讨论都只涉及了可视化效果这一角度,而没有分析各算法的时间空间复杂度。实际上,由于“维数灾难“问题和高维数据通常伴随大尺度的特征,降维算法的运算复杂度也是一个不容忽视的问题。   最后指出一点,这些可视化的方法只能用于理论的探索和猜测,而不能做为验证理论正确性的工具,t-SNE的作者曾指出,相当一部分学术论文使用t-SNE方法时犯了这样的错误。   [1]陈为,沈则潜,陶煜波.数据可视化[M].北京:电子工业出版社,2013   [2]詹宇斌.流形学习理论与方法及其应用研究[D].长沙:国防科学技术大学,2011   [3]石浩.基于等距特征映射的非线性降维及其应用研究[D].合服:中国科学技术大学,2017.   [4]Jolliffe I T.Principal Component Analysis[M].New York:Springer-Verlag,1986   [5] 从SNE到t-SNE再到LargeVis   [6]Camastra F.Data dimensionality estimation methods:a survey[J].Pattern recognition,2003,36(12):2945-2954.   [7]Pettis K W,Bailey T A,Jain A K, et al.An intrinsic dimensionality estimator from near-neighbor information[J].IEEE Transactions on pattern analysis and machine intelligence,1979,PAMI-1(1):25-37   [8]Seung,HS,Lee D D.The manifold ways of perception[J].science,2000,290(5500):2268-2269.   [9]Tenenbaum J B,De Silva V,Langford J C. A global geometric framework for nonlinear dimensionality reduction[J].science, 2000,290(5500):2319-2323.   [10]Roweis S T,Saul L K. Nonlinear dimensionality reduction by locally linear embedding[J].science,2000,290(5500):2323-2326.   [11]Laurens V D,Geoffrey Hinton. Visualizing Data using t-SNE[J].Machine Learning Research 9(2008):2579-2605.

140 评论

相关问答

  • 期刊投稿工具怎么用啊视频

    选择合适的期刊,根据写的内容进行选择,可以看看参考的文献中是否有类似的,并且应该根据文章的水平选择学术水平相符的期刊,选择好后根据期刊的投稿要求对论文进行排版,

    大萌的饰界 3人参与回答 2023-12-06
  • 发表可视化编程论文

    摘 要本文详细介绍了多变量预测控制算法及其在环境试验设备控制中的应用。由于环境试验设备的温度和湿度控制系统具有较大的时间滞后,而且系统间存在比较严重的耦合现象

    天地为凭 5人参与回答 2023-12-08
  • 发表论文可以用的工具

    1.中国国家数字图书馆(mylib.nlc.cn) 中国国家数字图书馆是中国国家图书馆的在线网站。它内置了文津搜索,可以搜索知网,馆藏书,对你没有看错,只需要注

    贪嘴森淼 6人参与回答 2023-12-06
  • 可发表论文的化工杂志

    你文章具体是什么方向呢?这个选择很多的啊。化学论文的话,像壹品优刊化学进展、分析化学进展等等都可以啊

    夏至迎熙 4人参与回答 2023-12-07
  • 论文发表量可视化分析

    【导读】现如今已然是大数据时代,许多企业的发展离不开数据分析。大数据可视化分为不同的类型:探索型和解释型。勘探类型帮助人们发现数据背后的故事,而解析数据方便给人

    似曾相识SaMa 6人参与回答 2023-12-09