超爱吃的丫头
大学英语四级考试时间:通常情况下为每年6月份、12月份的第三个星期六。
注意事项:
一、考生必须按规定时间参加考试,在考试前打预备铃(上午8:45、下午2:45)后,凭准考证、身份证、考试证进入考场。迟到15分钟以上的,即上午9:00、下午3:00以后不得入场。
二、考生进入考场,只准携带考试必需的文具用品,如黑色字迹签字笔、2B铅笔、橡皮、卷笔刀、直尺,不准携带任何书籍、笔记、报纸、草稿纸、计算尺、计数器和录音器材等,禁止携带录放音机、电子记事本以及各种无线通信工具等进入考场。
三、进入考场前监考老师应仔细核查考生的准考证、身份证等能证明身份的证件与考生本人是否相符,防止冒名代考。考试时,发现考场有异常情况或考生作弊时,应及时向主考报告,并作好考场记录。
四、考生进入考场,即按准考证号码或座位号入座,并将自己的准考证和身份证等证明身份的证件放在课桌左上角,以便监考人员查对。
五、考生在试卷分发后,须核对试卷的应试等级是否相符,如有不符,应立即向监考人员报告,要求更换。考生还须将本人的准考证号码及姓名清楚、正确地填写在答卷纸密封线内规定的位置上,切勿遗漏。
六、考试时,考生不得随意离开自己的座位,不准喧哗吵闹,不准吸烟,不得有交谈等作弊行为。如发现有舞弊行为,该考生的考试成绩作零分处理。
考试技巧:
一、注意直接信息
在拿到题目通读全文的时候,要留意收集文章中直接表达出来的信息。比如文章在描述一种现象的时候,作者直接表达出来自己对这种现象是持支持态度还是反对态度,这些信息我们可以直接拿来回答态度题。除此之外,大家要注意文章中出现的一些连词,比如说because、reason表示原因的词出现的时候意味着因果关系即将出现我们可以直接划下来回答原因类的题目;but、however等转折性词出现的时候,要留意转折性词汇后面所表达的意思。
二、有的放矢
考试的时间非常紧张,我们在做题的时候也要合理的安排我们的答题时间,有的放矢才能保证成功。所以我们在做阅读的时候,能够快速地在文章中找到答案才是重要的。在通读全文之前,要先浏览一遍题目,抓住每道题目的“题眼”,然后在通读全文的时候对应文章的相应部分,可能出现答案的部分重点阅读,其他部分一带而过即可。
三、选择范围小的选项
在做题的时候能够百分百的确定正确选项的时候很少,更多的时候我们会在两个选项中犹豫不决,不知道到底哪一个才是正确选项。在这种情况下,要选择涉及范围更小的那一个。大家要注意的是,题目所涉及的范围不能大于文章涉及的范围,同理,选项涉及的范围一样不能大于文章所涉及的范围。
哒Q小巧
|声明:遵循CC 4.0 BY-SA版权协议 建立在YOLOv1的基础上,经过Joseph Redmon等的改进,YOLOv2和YOLO9000算法在2017年CVPR上被提出,并获得最佳论文提名,重点解决YOLOv1召回率和定位精度方面的误差。在提出时,YOLOv2在多种监测数据集中都要快过其他检测系统,并可以在速度与精确度上进行权衡。 YOLOv2采用Darknet-19作为特征提取网络,增加了批量标准化(Batch Normalization)的预处理,并使用224×224和448×448两阶段训练ImageNet,得到预训练模型后fine-tuning。 相比于YOLOv1是利用FC层直接预测Bounding Box的坐标,YOLOv2借鉴了FSR-CNN的思想,引入Anchor机制,利用K-Means聚类的方式在训练集中聚类计算出更好的Anchor模板,在卷积层使用Anchor Boxes操作,增加Region Proposal的预测,同时采用较强约束的定位方法,大大提高算法召回率。同时结合图像细粒度特征,将浅层特征与深层特征相连,有助于对小尺寸目标的检测。 下图所示是YOLOv2采取的各项改进带了的检测性能上的提升: YOLO9000 的主要检测网络也是YOLO v2,同时使用WordTree来混合来自不同的资源的训练数据,并使用联合优化技术同时在ImageNet和COCO数据集上进行训练,目的是利用数量较大的分类数据集来帮助训练检测模型,因此,YOLO 9000的网络结构允许实时地检测超过9000种物体分类,进一步缩小了检测数据集与分类数据集之间的大小代沟。 下面将具体分析YOLOv2的各个创新点: BN概述: 对数据进行预处理(统一格式、均衡化、去噪等)能够大大提高训练速度,提升训练效果。BN正是基于这个假设的实践,对每一层输入的数据进行加工。 BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中提出的,同时也将BN应用到了2014年的GoogLeNet上,也就是Inception-v2。 BN层简单讲就是对网络的每一层的输入都做了归一化,这样网络就不需要每层都去学数据的分布,收敛会更快。YOLOv1算法(采用的是GoogleNet网络提取特征)是没有BN层的,而在YOLOv2中作者为每个卷积层都添加了BN层。 使用BN对网络进行优化,让网络提高了收敛性,同时还消除了对其他形式的正则化(regularization)的依赖,因此使用BN后可以从模型中去掉Dropout,而不会产生过拟合。 BN优点: 神经网络每层输入的分布总是发生变化,加入BN,通过标准化上层输出,均衡输入数据分布,加快训练速度,因此可以设置较大的学习率(Learning Rate)和衰减(Decay); 通过标准化输入,降低激活函数(Activation Function)在特定输入区间达到饱和状态的概率,避免梯度弥散(Gradient Vanishing)问题; 输入标准化对应样本正则化,BN在一定程度上可以替代 Dropout解决过拟合问题。 BN算法: 在卷积或池化之后,激活函数之前,对每个数据输出进行标准化,方式如下图所示: 公式很简单,前三行是 Batch内数据归一化(假设一个Batch中有每个数据),同一Batch内数据近似代表了整体训练数据。第四行引入了附加参数 γ 和 β,此二者的取值算法可以参考BN论文,在此不再赘述。 fine-tuning:用已经训练好的模型,加上自己的数据集,来训练新的模型。即使用别人的模型的前几层,来提取浅层特征,而非完全重新训练模型,从而提高效率。一般新训练模型准确率都会从很低的值开始慢慢上升,但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。 YOLO模型分为两部分,分类模型和检测模型,前者使用在ImageNet上预训练好的模型,后者在检测数据集上fine-tuning。 YOLOv1在预训练时采用的是224*224的输入(在ImageNet数据集上进行),然后在检测的时候采用448*448的输入,这会导致从分类模型切换到检测模型的时候,模型还要适应图像分辨率的改变。 YOLOv2则将预训练分成两步:先用224*224的输入在ImageNet数据集训练分类网络,大概160个epoch(将所有训练数据循环跑160次)后将输入调整到448*448,再训练10个epoch(这两步都是在ImageNet数据集上操作)。然后利用预训练得到的模型在检测数据集上fine-tuning。这样训练得到的模型,在检测时用448*448的图像作为输入可以顺利检测。 YOLOv1将输入图像分成7*7的网格,每个网格预测2个Bounding Box,因此一共有98个Box,同时YOLOv1包含有全连接层,从而能直接预测Bounding Boxes的坐标值,但也导致丢失较多的空间信息,定位不准。 YOLOv2首先将YOLOv1网络的FC层和最后一个Pooling层去掉,使得最后的卷积层可以有更高分辨率的特征,然后缩减网络,用416*416大小的输入代替原来的448*448,使得网络输出的特征图有奇数大小的宽和高,进而使得每个特征图在划分单元格(Cell)的时候只有一个中心单元格(Center Cell)。 为什么希望只有一个中心单元格呢?由于图片中的物体都倾向于出现在图片的中心位置,特别是比较大的物体,所以有一个单元格单独位于物体中心的位置用于预测这些物体。 YOLOv2通过引入Anchor Boxes,通过预测Anchor Box的偏移值与置信度,而不是直接预测坐标值。YOLOv2的卷积层采用32这个值来下采样图片,所以通过选择416*416用作输入尺寸最终能输出一个13*13的特征图。若采用FSRCNN中的方式,每个Cell可预测出9个Anchor Box,共13*13*9=1521个(YOLOv2确定Anchor Boxes的方法见是维度聚类,每个Cell选择5个Anchor Box)。 在FSRCNN中,以一个51*39大小的特征图为例,其可以看做一个尺度为51*39的图像,对于该图像的每一个位置,考虑9个可能的候选窗口:3种面积3种比例。这些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心,以及9种Anchor Box示例。 YOLOv1和YOLOv2特征图数据结构: YOLOv1:S*S* (B*5 + C) => 7*7(2*5+20) 其中B对应Box数量,5对应边界框的定位信息(w,y,w,h)和边界框置信度(Confidience)。分辨率是7*7,每个Cell预测2个Box,这2个Box共用1套条件类别概率(1*20)。 YOLOv2:S*S*K* (5 + C) => 13*13*9(5+20) 分辨率提升至13*13,对小目标适应性更好,借鉴了FSRCNN的思想,每个Cell对应K个Anchor box(YOLOv2中K=5),每个Anchor box对应1组条件类别概率(1*20)。 聚类:聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。即在没有划分类别的情况下,根据数据相似度进行样本分组。 在FSR-CNN中Anchor Box的大小和比例是按经验设定的,然后网络会在训练过程中调整Anchor Box的尺寸,最终得到准确的Anchor Boxes。若一开始就选择了更好的、更有代表性的先验Anchor Boxes,那么网络就更容易学到准确的预测位置。 YOLOv2使用K-means聚类方法类训练Bounding Boxes,可以自动找到更好的宽高维度的值用于一开始的初始化。传统的K-means聚类方法使用的是欧氏距离函数,意味着较大的Anchor Boxes会比较小的Anchor Boxes产生更多的错误,聚类结果可能会偏离。由于聚类目的是确定更精准的初始Anchor Box参数,即提高IOU值,这应与Box大小无关,因此YOLOv2采用IOU值为评判标准,即K-means 采用的距离函数(度量标准) 为: d(box,centroid) = 1 - IOU(box,centroid) 如下图,左边是聚类的簇个数和IOU的关系,两条曲线分别代表两个不同的数据集。分析聚类结果并权衡模型复杂度与IOU值后,YOLOv2选择K=5,即选择了5种大小的Box 维度来进行定位预测。 其中紫色和灰色也是分别表示两个不同的数据集,可以看出其基本形状是类似的。更重要的是,可以看出聚类的结果和手动设置的Anchor Box位置和大小差别显著——结果中扁长的框较少,而瘦高的框更多(更符合行人的特征)。 YOLOv2采用的5种Anchor的Avg IOU是61,而采用9种Anchor Boxes的Faster RCNN的Avg IOU是60.9,也就是说本文仅选取5种box就能达到Faster RCNN的9中box的效果。选择值为9的时候,AVG IOU更有显著提高。说明K-means方法的生成的boxes更具有代表性。 直接对Bounding Boxes求回归会导致模型不稳定,其中心点可能会出现在图像任何位置,有可能导致回归过程震荡,甚至无法收敛,尤其是在最开始的几次迭代的时候。大多数不稳定因素产生自预测Bounding Box的中心坐标(x,y)位置的时候。 YOLOv2的网络在特征图(13*13)的每一个单元格中预测出5个Bounding Boxes(对应5个Anchor Boxes),每个Bounding Box预测出5个值(tx,ty,tw,th,t0),其中前4个是坐标偏移值,t0是置信度结果(类似YOLOv1中的边界框置信度Confidence)。YOLOv2借鉴了如下的预测方式,即当Anchor Box的中心坐标和宽高分别是(xa,ya)和(wa,wh)时,Bounding Box坐标的预测偏移值(tx,ty,tw,th)与其坐标宽高(x,y,w,h)的关系如下: tx = (x-xa)/wa ty= (y-ya)/ha tw = log(w/wa) th = log(h/ha) 基于这种思想,YOLOv2在预测Bounding Box的位置参数时采用了如下强约束方法: 上图中,黑色虚线框是Anchor Box,蓝色矩形框就是预测的Bounding Box结果,预测出的Bounding Box的坐标和宽高为(bx,by)和(bw,bh),计算方式如图中所示,其中:对每个Bounding Box预测出5个值(tx,ty,tw,th,t0),Cell与图像左上角的横纵坐标距离为(cx,cy),σ定义为sigmoid激活函数(将函数值约束到[0,1]),该Cell对应的Anchor Box对应的宽高为(pw,ph)。 简而言之,(bx,by)就是(cx,cy)这个Cell附近的Anchor Box针对预测值(tx,ty)得到的Bounding Box的坐标预测结果,同时可以发现这种方式对于较远距离的Bounding Box预测值(tx,ty)能够得到很大的限制。 YOLOv2通过添加一个转移层,把高分辨率的浅层特征连接到低分辨率的深层特征(把特征堆积在不同Channel中)而后进行融合和检测。具体操作是先获取前层的26*26的特征图,将其同最后输出的13*13的特征图进行连接,而后输入检测器进行检测(检测器的FC层起到了全局特征融合的作用),以此来提高对小目标的检测能力。 为了适应不同尺度下的检测任务,YOLOv2在训练网络时,其在检测数据集上fine-tuning时候采用的输入图像的size是动态变化的。具体来讲,每训练10个Batch,网络就会随机选择另一种size的输入图像。因为YOLOv2用到了参数是32的下采样,因此也采用32的倍数作为输入的size,即采用{320,352,…,608}的输入尺寸(网络会自动改变尺寸,并继续训练的过程)。 这一策略让网络在不同的输入尺寸上都能达到较好的预测效果,使同一网络能在不同分辨率上进行检测。输入图片较大时,检测速度较慢,输入图片较小时,检测速度较快,总体上提高了准确率,因此多尺度训练算是在准确率和速度上达到一个平衡。 上表反映的是在检测时,不同大小的输入图片情况下的YOLOv2和其他目标检测算法的对比。可以看出通过多尺度训练的检测模型,在测试的时候,输入图像在尺寸变化范围较大的情况下也能取得mAP和FPS的平衡。 YOLOv1采用的训练网络是GoogleNet,YOLOv2采用了新的分类网络Darknet-19作为基础网络,它使用了较多的3*3卷积核,并把1*1的卷积核置于3*3的卷积核之间,用来压缩特征,同时在每一次池化操作后把通道(Channels)数翻倍(借鉴VGG网络)。 YOLOv1采用的GooleNet包含24个卷积层和2个全连接层,而Darknet-19包含19个卷积层和5个最大池化层(Max Pooling Layers),后面添加Average Pooling层(代替v1中FC层),而Softmax分类器作为激活被用在网络最后一层,用来进行分类和归一化。 在ImageNet数据集上进行预训练,主要分两步(采用随机梯度下降法): 输入图像大小是224*224,初始学习率(Learning Rate)为0.1,训练160个epoch,权值衰减(Weight Decay)为0.0005,动量(Momentum)为0.9,同时在训练时采用标准的数据增强(Data Augmentation)方式如随机裁剪、旋转以及色度、亮度的调整。 fine-tuning:第1步结束后,改用448*448输入(高分辨率模型),学习率改为0.001,训练10个epoch,其他参数不变。结果表明:fine-tuning后的top-1准确率为76.5%,top-5准确率为93.3%,若按照原来的训练方式,Darknet-19的top-1准确率是72.9%,top-5准确率为91.2%。可以看出,两步分别从网络结构和训练方式方面入手提高了网络分类准确率。 预训练之后,开始基于检测的数据集再进行fine-tuning。 首先,先把最后一个卷积层去掉,然后添加3个3*3的卷积层,每个卷积层有1024个卷积核,并且后面都连接一个1*1的卷积层,卷积核个数(特征维度)根据需要检测的类数量决定。(比如对VOC数据,每个Cell需要预测5个Boungding Box,每个Bounding Box有4个坐标值、1个置信度值和20个条件类别概率值,所以每个单元格对应125个数据,此时卷积核个数应该取125。) 然后,将最后一个3*3*512的卷积层和倒数第2个卷积层相连(提取细粒度特征),最后在检测数据集上fine-tuning预训练模型160个epoch,学习率采用0.001,并且在第60和90个epoch的时候将学习率除以10,权值衰减、动量和数据增强方法与预训练相同。 YOLO9000通过结合分类和检测数据集,使得训练得到的模型可以检测约9000类物体,利用带标注的分类数据集量比较大的特点,解决了带标注的检测数据集量比较少的问题。具体方法是:一方面采用WordTree融合数据集,另一方面联合训练分类数据集和检测数据集。 分类数据集和检测数据集存在较大差别:检测数据集只有粗粒度的标记信息,如“猫”、“狗”,而分类数据集的标签信息则更细粒度,更丰富。比如“狗”就包括“哈士奇”、“金毛狗”等等。所以如果想同时在检测数据集与分类数据集上进行训练,那么就要用一种一致性的方法融合这些标签信息。 用于分类的方法,常用Softmax(比如v2),Softmax意味着分类的类别之间要互相独立的,而ImageNet和COCO这两种数据集之间的分类信息不相互独立(ImageNet对应分类有9000种,而COCO仅提供80种目标检测),所以使用一种多标签模型来混合数据集,即假定一张图片可以有多个标签,并且不要求标签之间独立,而后进行Softmax分类。 由于ImageNet的类别是从WordNet选取的,作者采用以下策略重建了一个树形结构(称为WordTree): 遍历ImageNet的标签,然后在WordNet中寻找该标签到根节点(所有的根节点为实体对象)的路径; 如果路径只有一条,将该路径直接加入到WordTree结构中; 否则,从可选路径中选择一条最短路径,加入到WordTree结构中。 WordTree的作用就在于将两种数据集按照层级进行结合。 如此,在WordTree的某个节点上就可以计算该节点的一些条件概率值,比如在terrier这个节点,可以得到如下条件概率值: 进而,如果要预测此节点的概率(即图片中目标是Norfolk terrier的概率),可以根据WordTree将该节点到根节点的条件概率依次相乘得到,如下式: 其中: YOLO9000在WordTree1k(用有1000类别的ImageNet1k创建)上训练了Darknet-19模型。为了创建WordTree1k作者添加了很多中间节点(中间词汇),把标签由1000扩展到1369。 训练过程中GroundTruth标签要顺着向根节点的路径传播:为了计算条件概率,模型预测了一个包含1369个元素的向量,而且基于所有“同义词集”计算Softmax,其中“同义词集”是同一概念下的所属词。 现在一张图片是多标记的,标记之间不需要相互独立。在训练过程中,如果有一个图片的标签是“Norfolk terrier”,那么这个图片还会获得“狗”以及“哺乳动物”等标签。 如上图所示,之前的ImageNet分类是使用一个大Softmax进行分类,而现在WordTree只需要对同一概念下的同义词进行Softmax分类。然后作者分别两个数据集上用相同训练方法训练Darknet-19模型,最后在ImageNet数据集上的top-1准确率为72.9%,top-5准确率为91.2%;在WordTree数据集上的top-1准确率为71.9%,top-5准确率为90.4%。 这种方法的好处是有“退而求其次”的余地:在对未知或者新的物体进行分类时,性能损失更低,比如看到一个狗的照片,但不知道是哪种种类的狗,那么就预测其为“狗”。 以上是构造WordTree的原理,下图是融合COCO数据集和ImageNet数据集以及生成它们的WordTree的示意图(用颜色区分了COCO数据集和ImageNet数据集的标签节点), 混合后的数据集对应的WordTree有9418个类。另一方面,由于ImageNet数据集太大,YOLO9000为了平衡两个数据集之间的数据量,通过过采样(Oversampling)COCO数据集中的数据,使COCO数据集与ImageNet数据集之间的数据量比例达到1:4。 对YOLO9000进行评估,发现其mAP比DPM高,而且YOLO有更多先进的特征,YOLO9000是用部分监督的方式在不同训练集上进行训练,同时还能检测9000个物体类别,并保证实时运行。虽然YOLO9000对动物的识别性能很好,但是对衣服或者装备的识别性能不是很好(这跟数据集的数据组成有关)。 YOLO9000的网络结构和YOLOv2类似,区别是每个单元格只采用3个Anchor Boxes。 YOLO9000提出了一种在分类数据集和检测数据集上联合训练的机制,即使用检测数据集(COCO)的图片去学习检测相关的信息即查找对象(例如预测边界框坐标、边界框是否包含目标及目标属于各个类别的概率),使用仅有类别标签的分类数据集(ImageNet)中的图片去扩展检测到的对象的可识别种类。 具体方法是:当网络遇到一个来自检测数据集的图片与标记信息,就把这些数据用完整的损失函数(v2和9000均沿用了v1网络的损失函数)反向传播,而当网络遇到一个来自分类数据集的图片和分类标记信息,只用代表分类误差部分的损失函数反向传播这个图片。 YOLO v2 在大尺寸图片上能够实现高精度,在小尺寸图片上运行更快,可以说在速度和精度上达到了平衡,具体性能表现如下所示。 coco数据集 voc2012数据集
wangqixiaqi
目标框由左上角点和右下角点确定,所以要预测一个目标框的位置大小,可转换为生成两个角点的热力图。对于多个目标,会有多个角点对,如何区分?添加一个embedding预测项!如果一个左上角点和一个右下角点的embedding相近,表示两个点“对上眼了”,可以组成一个目标框。为了使得预测的框的坐标更为准确,添加一个offset预测项,对于预测的角点进行坐标修正。 角点有什么特征呢?人呢,自然知道——矩形框的一横一竖相交处就是角点嘛,然而网络不容易知道啊,教教它吧!引入corner pooling。 2、取出top-100个左上,右下点,通过offset调整角点位置。 3、计算左上,右下角点embedding的L1距离,距离小的,类别一样的构成目标框。角点得分的平均作为置信度。 一个目标框可以用左上右下角点组成,还可以用 左下右上角点 极左、极右,极上,极下四个点组成,比如一个菱形,过左右极点做竖线,过上下极点做横线,这样一个外接矩形框就出来了。首先“diss”一下cornerNet——你固然是好,然而不够好。为何不再加个中心点热力图预测呢? 前向推理: 1、由CornerNet提出的方法选择top-k的目标框 2、选择分数为top-k的中心关键点,结合offset,remap到输入图像大小 3、对于每个目标框,定义一块中心区域,检查一下中心点是不是在中心区域内,且类别是否一致。(中心区域选择:根据目标尺度来,对于小目标,选大点,对于大目标,选小点。比如目标框大于150像素,5 * 5划分,目标小于150像素,3 * 3划分,选中间1 * 1的格子。) 4、如果中心点和中心区域匹配上了,置信度值是左上角,右下角,中心点三者平均;没有匹配,则删除 既然cornerNet搞了个corner pooling,顺势而为,center pooling水到渠成。顺便帮corner pooling再改进下——cascade corner pooling。 大家用(x,y,w,h)训练darknet是那么的熟练,然而现在,角点,极点,一堆“花里胡哨”的,回归初心吧——中心点热力图预测+中心点offset回归+框的宽高回归。 既然不用anchor,那么可以对于特征图上的每个点都产生一个预测嘛。咦,yolov1不就是这么做的,当然分成7 * 7的区域有点粗糙。。。 在Retinanet基础上,fpn的每层输出加两个分支用于anchor-free预测。 真值生成:原图目标框b投影到特征图 中,大小为 ,定义effective box为 (正样本),定义 ignoring box为 (梯度不回传),宽高分别为 的0.2和0.5倍。 对分类输出,白色区域表示目标所在区域,灰色区域为忽略区域,黑色为负样本区域。计算focal loss。 对于坐标输出,对于 里面所有的pixel(i,j),预测四个坐标,分别是(i,j)与 的上下左右边的偏移。effective box外面不计算loss。在线特征选择:FSAF module对于每个实例,根据其特征,选择该在哪个特征层进行预测,而不是像anchor-based方法只用目标的大小。 对于特征图 上的一个像素点 (x, y),反投影到输入图像上,坐标为(xs+s/2,ys+s/2)(s为当前特征图的stride)。如果落在gt框中,那么该点为正样本。 但是如果用所有的这些“正样本点”进行loss计算,会带来2个问题:第一个,如果这个点是两个目标框相交区域内的点,那么这个点该预测哪一个目标呢?第二个,如果这个点在目标角落处,其需要预测的(t,b,l,r)值相差很大,预测的框不靠谱。
论文查重报告参数怎么看?学会查看论文查重报告有利于帮助我们修改论文和了解论文情况。paperfree小编给大家重点讲解。 一、论文检测报告有哪些类型? 1.简单
对于目标检测方向并不是特别熟悉,本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得
论文名称:Rich feature hierarchies for accurate object detection and semantic segment
论文名称:Rich feature hierarchies for accurate object detection and semantic segment
基本研究内容一般包括:1、对论文名称的界说。应尽可能明确三点:研究的对象、研究的问题、研究的方法。2、本论文写作有关的理论、名词、术语、概念的界说。目标特色:1