目标检测

文档摘要

目标检测到目前为止，我们处理的图像分类模型都是输入一张图片并产生一个类别结果，比如在MNIST问题中的数字类别。然而，在许多情况下，我们不仅希望知道图片中是否包含物体，还希望能够确定它们的确切位置。这就是目标检测的核心。课前测验目标检测图片来自YOLO v2 网站目标检测的朴素方法假设我们要在图片中找到一只猫，一个非常朴素的目标检测方法可以是这样的：将图片分解成若干个格子（或称为“瓷砖”）。对每个格子运行图像分类。那些产生足够高激活值的格子可以被认为包含所寻找的对象。朴素的目标检测图片来自练习笔记本然而，这种方法远非理想，因为它只允许算法粗略地定位对象的边界框。为了更精确的定位，我们需要运行某种形式的回归来预测边界框的坐标——为此，我们需要特定的数据集。