YOLO算法详解+完整代码详解

时间：2023-01-29 11:55:00

YOLO算法详解+完整代码详解

YOLOv2

特点：darknet网路；使用先验框；多尺度训练

针对YOLOv1的缺点进行改进，下图是YOLOv2做的一些改进，大部分的改进都能提升mAP

图片来自：/wfei101/article/details/79398563

Batch normalization（每个卷积之后进行批归一化）

批归一化可以提升模型的收敛速度，而且起到正则化的效果，降低模型的的过拟合，YOLOv2中，每个卷积层后面都添加了batch normalization, 不再使用dropout, mAP提高了2.4%

High-resolution classifier（使用448*448大小的图片训练darknet-19）

YOLOv1中GoogleNet训练的图片大小是224*224，YOLOv2在ImageNet数据上使用448*448来finetune分类网络这一中间过程（10epochs）,使得模型在监测数据集之前已经适用高分别率输入

Convolutional with anchor boxes（采用先验框）

YOLOv1最后直接使用全连接层对边界框进行预测，其中边界框的高度是相对整张照片大小的，而由于各个图片中存在不同尺寸和长宽比的物体，YOLOv1在训练过程中学习适应不同物体的形状是比较困难的，这也导致YOLOv1在精确定位方面的表现较差。

YOLOv2借鉴Faster-CNN的RPN网络的先验框，PRN对CNN特征提取器得到的特征图进行卷积来预测每个位置的边界框以及置信度（是否有目标），并且各个位置设置不同尺寸和比例的先验框，所有RPN预测的是边界框相对于先验框的偏移值，使用先验框使得更容易学习

为了使检测框的分辨率更高，移除其中的一个pool层，在检测模型中输入是416*416大小的，YOLOv2模型下采样总步长是32，因此得到的特征图大小为13*13，只有一个中心位置。对于一些大的物体，他们的中心点落在图片中心位置，此时使用特征图的一个中心点去预测物体的边界框相对容易一些。所以YOLOv2中包保证最终的特征图有奇数个位置

YOLOv1中每个gird cell值预测一套分类概率值（其实是置信度下的条件概率值）供两个boxes分享。

YOLOv2使用了anchor boxes之后，每个位置的各个anchor box都单独预测一套分类概率值

使用了anchor box之后mAP稍微下降（原因是什么？）但是召回率有81%提升到88%。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。