个人网上搜集

八股文-计算机视觉(一)

R-CNN系列的比较

  • R-CNN

步骤一:在imagenet分类比赛上寻找一个cnn模型,使用它用于分类的预训练权重参数;对于这个模型修改最后的分类层,分为21类,去掉最后一个全连接层,因为所用的测试集为20类,且还有一类背景类。

步骤二:根据选择性搜索来对输入的图像进行选取2000个候选区域框;然后修改候选区域框的大小,以适应cnn的输入,然后用cnn来提取出每个候选区域的feature map。

步骤三:训练svm分类器,这个svm分类器是对于特定的某一类进行区分,是专门用来对特定敏感区域进行分类,每一个类别对应于一个SVM分类器

步骤四:使用回归器精细修正每个候选框的位置,对于每一个类,需要训练一个回归模型去判定这个框框的是否完美。

  • Fast-rcnn

步骤一:同样是寻找一个在imagenet上训练过的预训练cnn模型

步骤二:与rcnn一样,通过selective search在图片中提取2000个候选区域

步骤三:将一整个图片都输入cnn模型中,提取到图片的整体特征(这是相对于rcnn最大的改进的地方)

步骤四:把候选区域映射到上一步cnn模型提取到的feature map里

步骤五:采用rol pooling层对每个候选区域的特征进行上采样,从而得到固定大小的feature map,以便输入模型中

步骤六:根据softmax loss和smooth l1 loss对候选区域的特征进行分类和回归调整的过程,回归操作是对于框调整所使用的bou b reg来训练。

  • Faster-rcnn

最大的亮点之处是faster-rcnn把获取feature map,候选区域选取,回归和分类等操作全部融合在一个深层网络当中,效率较前两种提升了很多。

Faster-rcnn在结构上主要由一下几部分构成:

  1. 卷积层,这部分卷积层就是普通的由imagenet比赛上用于分类的预训练模型所用的卷积层,它的主要功能是用来提取整张图片的feature map,卷积层结构也是卷积+激活函数+池化操作组成的。

  2. RPN网络,这是整个faster-rcnn的核心部分,改善了前两种方法用选择搜索来获取候选区域的方法,这种方法不仅快速而且更加高效地利用了cnn网络。在生成候选区域的时候会生成anchors,然后内部通过判别函数判断anchors属于前景还是后景,然后通过边框回归来进行第一次调整anchors获取准确的候选区域。

  3. Roi pooling,这一层的添加主要是为了解决最后输入全连接层的feature map的尺寸大小不同的问题,通过上采样来获取固定大小。

  4. 分类和回归,最后通过两个分类层和回归层来分别判断物体属于哪个类别以及精细调整候选区域的位置,以获取最终目标检测的结果。

yolo系列和ssd对比

检测方式

  • YOLO:YOLO将输入图像划分为SxS个网格,并为每个网格预测B个边界框,以及每个边界框的物体类别和置信度。它使用一个单一的卷积神经网络(CNN)同时预测所有网格的边界框和分类置信度。
  • SSD:SSD使用一种多尺度特征图的方法来检测物体。它在不同层次的特征图上执行预测,这样可以检测到不同大小的物体。与YOLO一样,SSD也使用一个单一的CNN来预测边界框和分类置信度。

默认框(Default/Prior boxes):

  • YOLO:YOLO不使用默认框。它直接在每个网格单元中预测边界框的坐标、尺寸和置信度。
  • SSD:SSD使用默认框或先验框来预测物体边界框。在每个特征图单元上,SSD预测边界框的相对偏移量和尺寸,并结合先验框的坐标和尺寸计算真实的边界框。

尺度敏感性

  • YOLO:YOLO对小物体的检测性能较差,因为使用单一尺度的特征图限制了其捕捉不同大小物体的能力。
  • SSD:SSD可以更好地检测各种大小的物体,因为它利用多尺度特征图来预测边界框。这使得SSD在处理小物体时具有更好的性能。

速度和准确性

  • YOLO:YOLO的速度非常快,但其准确性略低于SSD。YOLO的速度优势在于其简单的预测方法和较小的特征图。
  • SSD:SSD的准确性通常高于YOLO,尤其是在处理小物体时。然而,由于其使用多尺度特征图和较多的默认框,SSD在计算上可能比YOLO更昂贵。

常见图像增强的方式

Mixup, Cutmix只用于分类任务,分类分数按比例分配, Cutout适合分类、检测、识别任务,分类结果不变 。

  • mixup:将随机的两张样本按比例混合,分类的结果按比例分配。只适合分类任务。
  • cutout:随机的将样本中的部分区域cut掉,并且填充0像素值,分类的结果不变。
  • cutmix:就是将一部分区域cut掉但不填充0像素而是随机填充训练集中的其他数据的区域像素值,分类结果按一定的比例分配。