YOLO

xiaoxiao2021-02-28 68

YOLO:统一的实时对象检测摘要：我们提出YOLO，一种新的对象检测方法。先前的对象检测工作重新分配了执行检测的分类器。相反，我们将对象检测作为回归问题，以空间分离的边界框和相关的类概率进行框架化。单个神经网络在一次评估中直接从完整图像预测边界框和类概率。由于整个检测流水线是单个网络，因此可以直接在检测性能上进行端对端优化。我们的统一架构非常快。我们的基础YOLO模型以45帧/秒的速度实时处理图像。一个较小版本的网络，快速YOLO，处理每秒惊人的155帧，同时仍然实现其他实时检测器的mAP的两倍。与最先进的检测系统相比，YOLO产生更多的本地化错误，但不太可能预测背景中的假阳性。最后，YOLO学习对象的非常一般的表示。当从自然图像推广到其他领域（如艺术作品）时，它优于其他检测方法，包括DPM和R-CNN。 1. 介绍人类看着一个图像，立即知道图像中的对象，它们在哪里，以及它们如何相互作用。人的视觉系统是快速准确的，让我们执行复杂的任务，如驾驶，没有意识的思想。用于对象检测的快速，准确的算法将允许计算机无需专门的传感器来驱动汽车，使辅助设备能够将实时场景信息传达给人类用户，并为通用的响应机器人系统解锁潜力。为了检测，当前检测系统重新分类。为了检测对象，这些系统对该对象进行分类，并在测试图像中的各种位置和比例下进行评估。像可变形部件模型（DPM）这样的系统使用滑动窗口方法，其中分类器在整个图像上以均匀间隔的位置运行[10]。最近的R-CNN方法使用区域提案方法首先在图像中生成潜在的边界框，然后在这些提出的框上运行分类器。分类后，后处理用于细化边界框，消除重复检测，并根据场景中的其他对象重新确定框[13]。这些复杂的管道很慢，难以优化，因为每个单独的组件必须分开训练。我们将对象检测重新定义为单个回归问题，直接从图像像素到边界框坐标和类概率。使用我们的系统，您只能在图像上看一次（YOLO）来预测什么对象存在和它们在哪里。 YOLO非常简单：见图1.单个卷积网络同时预测了这些框的多个边界框和类概率。 YOLO在完整的图像上训练，直接优化检测性能。这种统一模型比传统的对象检测方法有好几个好处。

图1：YOLO检测系统。用YOLO处理图像是简单直接的。我们的系统（1）将输入图像的大小调整为448*448，（2）在图像上运行单个卷积网络，（3）根据模型的置信度对结果进行检测。首先，YOLO非常快。由于我们将帧检测作为回归问题，我们不需要复杂的管道。我们简单地在测试时间运行我们的神经网络的新图像来预测检测。我们的基准网络以每秒45帧的速度运行，在Titan X GPU上没有批处理，快速版本的运行速度高于150 fps。这意味着我们可以以不到25毫秒的延迟实时处理流视频。此外，YOLO实现了其他实时系统平均精度的两倍以上。有关我们的系统在网络摄像头上实时运行的演示，请参阅我们的项目网页：http://pjreddie.com/yolo/。第二，YOLO在做出预测时，对全局图像有所了解。与滑动窗口和基于区域提案的技术不同，YOLO在训练和测试时间期间看到整个图像，所以它隐含地编码关于类的上下文信息以及它们的外观。快速R-CNN是一种顶级检测方法[14]，因为它不能看到更大的上下文，所以错误的图像中的背景补丁对象。与快速R-CNN相比，YOLO不到背景错误的一半。第三，YOLO学习对象的广义表示。当对自然图像进行了培训并在艺术品上进行测试时，YOLO大幅优于DPM和R-CNN等顶级检测方法。由于YOLO具有高度的泛化性，因此在应用于新域或意外投入时不太可能分解。 YOLO的准确性仍然落后于最先进的检测系统。虽然它可以快速识别图像中的对象，但它正在努力精确地定位一些对象，特别是小对象。我们在实验中进一步研究这些权衡。我们所有的培训和测试代码都是开源的。各种预训模型也可以下载。 2. 统一检测我们将对象检测的单独组件统一为单个神经网络。我们的网络使用整个图像的特征来预测每个边界框。它还可以同时预测所有类的所有边界框。这意味着我们的网络在全局范围内有关图像中的完整图像和所有对象。 YOLO设计可实现端到端培训和实时速度，同时保持高平均精度。我们的系统将输入图像分为S * S格。如果对象的中心落入网格单元格中，则该网格单元负责检测该对象。每个网格单元预测这些框的B边界框和置信度分数。这些置信度分数反映了模型对于边框包含对象的信心，以及它认为边框预测的准确程度。正式地，我们将置信度定义为。如果该单元格中没有对象，则置信度分数应为零。否则，我们希望置信度分数等于预测框和地面实况之间的交叉点（IOU）。每个边界框包括5个预测：x，y，w，h和置信度。（x，y）坐标表示相对于网格单元边界的框的中心。相对于整个图像预测宽度和高度。最后，置信度预测表示预测边框和任何地面真相边框之间的IOU。每个网格单元还预测了C条件类概率Pr（Classi | Object）。这些概率适用于包含对象的网格单元格。我们只预测每个网格单元的一组类概率，而不考虑框B的数量。在测试时间，我们乘以条件类概率和个体框信心预测，

图2：模型。我们的系统模型检测作为回归问题。它将图像划分为S*S网格，每个网格单元预测B边界框，这些框的置信度和C类概率。这些预测编码为S*S*(B*5 + C)张量。这给了我们每个盒子的类特定的信心得分。这些分数对该类出现在框中的概率进行了编码，并且预测框适合该对象。为了评估PASCAL VOC上的YOLO，我们使用S = 7，B = 2.PASCAL VOC有20个标记的类，所以C = 20。我们的最终预测是一个7 * 7 * 30张量。 2.1. 网络设计我们将该模型实现为卷积神经网络，并对PASCAL VOC检测数据集进行评估[9]。来自图像的网络提取的初始卷积层特征，而完全连接的层预测输出概率和坐标。我们的网络架构受到图像分类的GoogLeNet模型的启发[34]。我们的网络有24个卷积层，其次是2个完全连接的层。除了GoogLeNet使用的初始模块，我们简单地使用1 * 1的还原层，然后是3 * 3卷积层，类似于Lin等人[22]。完整网络如图3所示。

图3：架构。我们的检测网络有24个卷积层，其次是2个完全连接的层。交替的1 * 1卷积层减少了以前层的特征空间。我们以分辨率（224 * 224输入图像）的一半预先在ImageNet分类任务上预先卷积卷积层，然后将分辨率加倍以进行检测。我们还训练一个快速版本的YOLO，旨在推动快速物体检测的边界。快速YOLO使用具有较少卷积层（9个而不是24个）的神经网络以及那些层中的较少过滤器。除了网络规模以外，YOLO和Fast YOLO的所有培训和测试参数都是一样的。我们网络的最终输出是7 * 7 * 30张预测。 2.2. 训练我们在ImageNet 1000类竞赛数据集[30]上预先编制卷积图层。对于预训练，我们使用图3中的前20个卷积层，之后是平均池层和完全连接的层。我们对这个网络进行了大约一个星期的训练，在ImageNet 2012验证集上实现了88％的单一作物的前5位准确度，与Caffe模型动物园[24]中的GoogLeNet模型相当。我们使用Darknet框架进行所有的训练和推理[26]。然后我们转换模型进行检测。 Ren等人表明将卷积和连接层添加到预训练网络可以提高性能[29]。按照他们的例子，我们添加四个卷积层和两个完全连接的层与随机初始化的权重。检测通常需要细粒度的视觉信息，所以我们将网络的输入分辨率从224 * 224提高到448 * 448。我们的最后一层预测了类概率和边界框坐标。我们将边框的宽度和高度归一化为图像宽度和高度，使它们在0和1之间。我们将边界框x和y坐标参数化为特定网格单元格位置的偏移量，因此它们也在0和1之间。我们对最终层使用线性激活函数，所有其他层使用以下泄漏校正线性激活：

我们优化了模型输出中的和平误差。我们使用平方误差，因为它很容易优化，但是它并不完全符合最大化平均精度的目标。它可以通过分类误差来平衡本地化误差，这可能不是理想的。此外，在每个图像中，许多网格单元不包含任何对象。这将这些细胞的“信心”分数推向零，通常会使包含对象的细胞的渐变强度偏高。这可能导致模型不稳定，导致培训早日分歧。为了弥补这一点，我们增加了边界框坐标预测的损失，并减少了对不包含对象的框的置信预测的损失。我们使用两个参数和来完成这个。我们设置 = 5和 =5。大盒子和小盒子中的平方误差也同样重大。我们的误差度量应该反映出，大盒子中的小偏差比小盒子小。为了部分解决这个问题，我们直接预测边界框宽度和高度的平方根，而不是宽度和高度。 YOLO预测每个网格单元格的多个边界框。在训练时，我们只需要一个边界框预测器来对每个对象负责。我们将一个预测因子根据哪个预测具有最高电流IOU与地面实况来预测物体是“负责任的”。这导致了边界框预测器之间的专业化。每个预测变量在预测某些大小，长宽比或对象类时都会更好，从而改善整体回忆。在培训期间，我们优化以下多部分损失功能：

其中表示对象出现在单元i中，表示单元i中的第j个边界框预测器对于该预测“负责”。请注意，如果某个对象存在于该网格单元中（因此前面讨论的条件类概率），损失函数仅会惩罚分类错误。如果该预测因子对于地面真值框是“负责的”（即具有该网格单元中的任何预测变量的最高IOU），则它也仅惩罚边界框坐标误差。我们在PASCAL VOC 2007和2012年培训和验证数据集上培训大约135个时代的网络。在2012年的测试中，我们还包括VOC 2007测试数据进行培训。在整个训练过程中，我们使用的批量大小为64，动量为0：9，衰减为0：0005。我们的学习时间表如下：对于第一个时期，我们将学习速度从缓慢提高到。如果我们以高学习率开始，我们的模型常常由于不稳定的梯度而分歧。我们继续训练有为75个epochs，为30个epochs，最后个为30个epochs。为了避免过度配合，我们使用辍学和广泛的数据扩充。在第一连接层之后，速率= 0.5的压差层防止层之间的共同适配[18]。对于数据增加，我们引入了原始图像大小的20％的随机缩放和平移。我们还可以在HSV色彩空间中随机调整图像的曝光和饱和度高达1：5。 2.3．推理就像在训练中，预测测试图像的检测只需要一个网络评估。在PASCAL VOC上，网络预测每个图像的98个边界框和每个框的类概率。 YOLO在测试时间非常快，因为它只需要单个网络评估，与基于分类器的方法不同。网格设计在边界框预测中实施空间多样性。通常很清楚一个对象落入哪个网格单元，网络只能预测每个对象的一个框。然而，多个单元格边界附近的一些大对象或物体可以被多个单元格很好地定位。可以使用非最大抑制来修复这些多个检测。虽然对R-CNN或DPM的性能不是关键，非最大抑制在mAP中增加了2- 3％。 2.4．YOLO的限制 YOLO对边界框预测施加强大的空间约束，因为每个网格单元格只预测两个框，只能有一个类。这个空间约束限制了我们的模型可以预测的附近对象的数量。我们的模型与群体中的小物体（如鸟群）斗争。由于我们的模型学习从数据中预测边界框，所以它努力将新概念或不寻常的长宽比或配置推广到对象。我们的模型还使用相对粗糙的特征来预测边界框，因为我们的架构具有来自输入图像的多个下采样层。最后，当我们训练近似检测性能的损失函数时，我们的损失函数将小边界框与大边界框中的错误相同。一个大盒子的小错误通常是良性的，但小盒子中的小错误对IOU有更大的影响。我们的主要错误来源是不正确的本地化。 3. 与其他检测系统的比较对象检测是计算机视觉中的核心问题。检测流水线通常从输入图像（Haar [25]，SIFT [23]，HOG [4]，卷积特征[6]）提取一组鲁棒特征开始。然后，分类器[36,21,13,10]或定位器[1，32]用于识别特征空间中的对象。这些分类器或定位器在整个图像或图像中的某些子集上以滑动窗口方式运行[35,15,39]。我们将YOLO检测系统与几个顶级检测框架进行比较，突出显示关键的相似点和差异。可变形零件模型。可变形零件模型（DPM）使用滑动窗口方法进行物体检测[10]。 DPM使用不相交的管道来提取静态特征，对区域进行分类，预测高分数区域的边界框等。我们的系统用单个卷积神经网络替代所有这些不同的部分。网络同时执行特征提取，边界框预测，非最大抑制和语境推理。代替静态功能，网络将线性化功能列入并优化其检测任务。我们的统一架构导致比DPM更快，更准确的模型。 R-CNN。 R-CNN及其变体使用区域提案而不是滑动窗口来查找图像中的对象。选择性搜索[35]生成潜在的边界框，卷积网络提取特征，SVM对框进行评分，线性模型调整边界框，非最大抑制消除了重复检测。这个复杂流水线的每个阶段都必须独立精确地调整，所得到的系统非常慢，每个图像在测试时间需要40秒以上[14]。 YOLO与R-CNN有一些相似之处。每个网格单元提出潜在的边界框，并使用卷积特征对这些框进行评分。然而，我们的系统对网格单元格提出了空间限制，这有助于减轻同一对象的多次检测。我们的系统还提供了更少的边界盒，每个图像只有98个，而从选择搜索约为2000个。最后，我们的系统将这些单独的组件组合成一个单独的，共同优化的模型。其他快速检测器快速，快速R-CNN专注于通过共享计算和使用神经网络来提出区域而不是选择性搜索来加速R-CNN框架[14] [28]。虽然它们比R-CNN提供了更高的速度和准确性，但仍然不及实时性能。许多研究工作侧重于加速DPM管道[31] [38] [5]。它们加速HOG计算，使用级联，并将计算推送到GPU。然而，实际上只有30Hz DPM [31]。 YOLO不是试图优化大型检测管道的各个组件，而是完全抛出管道，并且设计得很快。检测器可以高度优化单眼类面孔或人群，因为它们必须处理更少的变化[37]。 YOLO是一种通用检测器，可以同时检测各种物体。深层MultiBox 与R-CNN不同，Szegedy等训练卷积神经网络来预测感兴趣区域[8]，而不是使用选择性搜索。 MultiBox还可以通过用单个类预测替换置信度预测来执行单个对象检测。然而，MultiBox不能执行一般的对象检测，并且仍然只是一个较大的检测流水线，需要进一步的图像补丁分类。 YOLO和MultiBox都使用卷积网络来预测图像中的边界框，但YOLO是一个完整的检测系统。 OverFeat。 Sermanet等人训练卷积神经网络进行定位并使定位器进行检测[32]。 OverFeat有效执行滑动窗口检测，但它仍然是一个不相交的系统。 Over-Feat优化了本地化，而不是检测性能。像DPM一样，定位器在进行预测时只能看到本地信息。 OverFeat不能对全球背景产生影响，因此需要大量的后期处理才能产生连贯的检测。 MultiGrasp。我们的工作设计类似于Redmon等[27]的掌握检测工作。我们的边界框预测的网格方法是基于MultiGrasp系统进行回归掌握。但是，掌握检测比对象检测要简单得多。 MultiGrasp只需要为包含一个对象的图像预测单个可掌握区域。它不必估计对象的大小，位置或边界或预测它的类，只能找到适合抓取的区域。 YOLO预测图像中多个类的多个对象的边界框和类概率。 4. 实验首先，我们将YOLO与PASCAL VOC 2007上的其他实时检测系统进行比较。为了理解YOLO和R-CNN变体之间的差异，我们探讨了YOLO和Fast R-CNN（R-CNN[14]性能最高的版本之一）的VOC 2007所产生的误差。基于不同的错误信息，我们显示YOLO可用于重新定位快速R-CNN检测，并减少背景误报的错误，从而提高显着的性能。我们还提供VOC 2012结果，并将mAP与当前最先进的方法进行比较。最后，我们展示了YOLO在两个艺术品数据集上比其他检测器更广泛地推广到新领域。 4.1．与其他实时系统的比较对象检测方面的许多研究工作重点在于使标准检测流水线快速。 [5] [38] [31] [14] [17] [28]但是，只有Sadeghi et al。实际上产生了实时运行的检测系统（30帧/秒或更好）[31]。我们将YOLO与其在30Hz或100Hz运行的DPM的GPU实现进行比较。虽然其他努力没有达到实时里程碑，但我们还将比较其相对的mAP和速度来检查对象检测系统中可用的准确度与性能之间的折衷。快速YOLO是PASCAL中最快的物体检测方法; 据我们所知，它是最快的现存对象检测器。具有52：7％的mAP，它比以前的实时检测工作准确多了两倍。 YOLO将MAP推送到63：4％，同时保持实时性能。我们还使用VGG-16训练YOLO。这种模式比YOLO更准确，但也要慢得多。与使用VGG-16的其他检测系统进行比较是非常有用的，但由于它比实时性慢，本文的其余部分则侧重于我们更快的型号。最快的DPM有效地加速了DPM，而不会牺牲大量的mAP，但仍然失去了2倍的实时性能[38]。与神经网络方法相比，DPM的检测精度相对较低也受到限制。 R-CNN减R替代选择性搜索与静态边框提案[20]。虽然它比R-CNN快得多，但仍然没有实时性，并且由于没有很好的建议而获得了很大的准确性。快速R-CNN加速了R-CNN的分类阶段，但仍然依赖于选择性搜索，每个图像可能需要大约2秒钟才能生成边框提案。因此，它具有高mAP，但是在0：5 fps它仍然远离实时。最近更快的R-CNN用神经网络替代选择性搜索以提出边界框，类似于Szegedy等人。 [8]在我们的测试中，他们最准确的模型实现了7 fps，而一个更小，更不准确的一个运行在18 fps。更快的R-CNN的VGG-16版本是10 mAP，但也比YOLO慢了6倍。 Zeiler-Fergus更快的R-CNN比YOLO慢2.5倍，但也不太准确。

表1：PASCAL VOC 2007上的实时系统。比较快速检测器的性能和速度。快速YOLO是PASCAL VOC检测记录中最快的检测器，仍然是任何其他实时检测器的两倍准确度。 YOLO比快速版更准确10 mAP，同时远远高于实时速度。 4.2．VOC 2007 误差分析为了进一步研究YOLO与最先进的检测器之间的差异，我们将对VOC 2007的结果进行详细的分析。我们将YOLO与Fast RCNN相比较，因为快速R-CNN是PASCAL中性能最好的检测器之一，它的检测是公开的。我们使用Hoiem等人[19]的方法和工具对于测试时的每个类别，我们来看这个类别的前N个预测。每个预测是正确的，或者根据误差类型进行分类：

图4显示了所有20个类别中平均的每个错误类型的细分。

图4：错误分析：Fast R-CNN与YOLO这些图表显示了各种类别（N =＃个对象类别）的前N个检测中的本地化和背景错误的百分比。 YOLO努力使对象正确定位。本地化错误占所有其他来源组合的更多YOLO错误。快速R-CNN使本地化错误减少得多，背景错误更多。 13.6％的最高检测是不包含任何物体的假阳性。快速R-CNN比YOLO预测背景检测的可能性要高出3倍。 4.3．组合Fast RCNN和YOLO YOLO的背景错误远远低于Fast R-CNN。通过使用YOLO消除来自Fast R-CNN的背景检测，我们可以显着提高性能。对于R-CNN预测的每个边界框，我们检查YOLO是否预测类似的框。如果是这样，我们根据YOLO预测的概率和两个框之间的重叠来给出预测。最好的快速R-CNN模型在VOC 2007测试集上实现了71.8％的mAP。与YOLO合并后，其mAP增长了3.2％，达到75.0％。我们还尝试将顶级的快速R-CNN模型与其他几种版本的Fast R-CNN相结合。这些集合在mAP之间产生了小幅度的增长.3％和.6％之间，详见表2。 YOLO的提升不仅仅是模型合奏的副产品，因为组合不同版本的Fast R-CNN几乎没有什么好处。相反，正是因为YOLO在测试时间出现了不同种类的错误，因为它对提升快速R-CNN的性能是非常有效的。不幸的是，这种组合不受YOLO的速度的影响，因为我们分别运行每个模型，然后结合结果。然而，由于YOLO的速度非常快，因此与Fast R-CNN相比，不会增加任何显着的计算时间。

表2：VOC 2007的模型组合实验。我们研究了将各种模型与最佳版本的Fast R-CNN相结合的效果。其他版本的Fast R-CNN只提供了一个小小的好处，而YOLO提供了显着的性能提升。 4.4．VOC 2012 结果在VOC 2012测试集中，YOLO获得57.9％的mAP。这比目前的技术水平低，更接近于使用VGG-16的原始R-CNN，参见表3.与其最接近的竞争对手相比，我们的系统与小物体相比较。在诸如瓶，羊，电视/监视器的类别中，YOLO得分比R-CNN或Feature Edit低8-10％。然而，在其他类别，如猫和火车上，YOLO实现了更高的性能。我们组合的快速R-CNN + YOLO模型是性能最高的检测方法之一。快速R-CNN与YOLO的结合度提高了2.3％，在公开排行榜上增加了5个点。

表3：PASCAL VOC 2012排行榜。 YOLO与2015年11月6日的全面comp4（允许外部数据）公开排行榜相比较，显示了各种检测方法的平均精度和每级平均精度。 YOLO是唯一的实时检测器。快速R-CNN + YOLO是第二高得分的方法，比快速R-CNN提升了2.3％。 4.5．概括性：在艺术品的人物检测用于对象检测的学术数据集从相同的分布中抽取培训和测试数据。在现实世界的应用程序中，很难预测所有可能的用例，测试数据可能与系统在[3]之前看到的不同。我们将YOLO与毕加索数据集[12]和人物艺术数据集[3]中的其他检测系统进行比较，这两个数据集用于测试人物检测图像。图5显示了YOLO与其他检测方法的比较性能。作为参考，我们在所有型号仅针对VOC 2007数据进行培训的人员上给予VOC 2007检测AP。毕加索模特在VOC 2012上接受过培训，而在人民艺术方面，他们接受过VOC 2010的培训。

（a）毕加索数据集精确回忆曲线。（b）VOC 2007，毕加索和人物艺术数据集的定量结果。毕加索数据集评估AP和最佳F1分数。图5：毕加索和人物艺术数据集的泛化结果。

图6：定性结果。 YOLO运行在互联网上的样品和自然图像上。这是很准确的，虽然它认为一个人是一架飞机。 R-CNN在VOC 2007上拥有较高的AP。然而，R-CNN应用于艺术品时大幅下降。 R-CNN使用选择性搜索对自然图像进行调整的边界框提案。 R-CNN中的分类器步骤只能看到小区域，需要很好的建议。 DPM在应用于艺术品时保持其AP良好。先前的工作理论认为DPM表现良好，因为它具有强大的物体形状和布局的空间模型。虽然DPM并不像R-CNN那样降级，但是它从较低的AP开始。 YOLO在VOC 2007上表现良好，应用于艺术品时，其AP降低了其他方法。像DPM一样，YOLO模拟对象的大小和形状，以及对象之间的关系以及对象通常出现的位置。图像和自然图像在像素级别上是非常不同的，但它们在对象的大小和形状方面是相似的，因此YOLO仍然可以预测良好的边界框和检测。 5. 野外实时检测 YOLO是一种快速，准确的物体检测器，非常适合计算机视觉应用。我们将YOLO连接到网络摄像头，并验证其是否保持实时性能，包括从相机获取图像并显示检测的时间。所产生的系统是互动和优胜的。虽然YOLO单独处理图像，但是当连接到网络摄像头时，它的功能就像跟踪系统，检测对象在移动时会发生变化。系统和源代码的演示可以在我们的项目网站上找到：http://pjreddie.com/yolo/。 6. 总结我们介绍一个统一的对象检测模型YOLO。我们的模型很简单，可以直接在完整图像上进行训练。与基于分类器的方法不同，YOLO对与检测性能直接相关的损失函数进行了培训，整个模型被联合训练。快速YOLO是文学中最快的通用对象检测器，YOLO推动了实时对象检测的最新技术。 YOLO还将其推广到新的领域，使其成为依赖于快速，强大的对象检测的应用程序的理想选择。致谢：这项工作得到ONR N00014-13-1-0720，NSF IIS-1338054和Allen杰出研究者奖的部分支持。参考文献： [1] M. B. Blaschko and C. H. Lampert. Learning to localize objects with structured output regression. In Computer Vision– ECCV 2008, pages 2–15. Springer, 2008. 4 [2] L. Bourdev and J. Malik. Poselets: Body part detectors trained using 3d human pose annotations. In International Conference on Computer Vision (ICCV), 2009. 8 [3] H. Cai, Q. Wu, T. Corradi, and P. Hall. The crossdepiction problem: Computer vision algorithms for recognising objects in artwork and in photographs. arXiv preprint arXiv:1505.00110, 2015. 7 [4] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005. 4, 8 [5] T. Dean, M. Ruzon, M. Segal, J. Shlens, S. Vijayanarasimhan, J. Yagnik, et al. Fast, accurate detection of 100,000 object classes on a single machine. In Computer Vision and Pattern Recognition (CVPR), 2013 IEEE Conference on, pages 1814–1821. IEEE, 2013. 5 [6] J. Donahue, Y. Jia, O. Vinyals, J. Hoffman, N. Zhang, E. Tzeng, and T. Darrell. Decaf: A deep convolutional activation feature for generic visual recognition. arXiv preprint arXiv:1310.1531, 2013. 4 [7] J. Dong, Q. Chen, S. Yan, and A. Yuille. Towards unified object detection and semantic segmentation. In Computer Vision–ECCV 2014, pages 299–314. Springer, 2014. 7 [8] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2155–2162. IEEE, 2014. 5, 6 [9] M. Everingham, S. M. A. Eslami, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The pascal visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1):98–136, Jan. 2015. 2 [10] P. F. Felzenszwalb, R. B. Girshick, D. McAllester, and D. Ramanan. Object detection with discriminatively trained part based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9):1627–1645, 2010. 1, 4 [11] S. Gidaris and N. Komodakis. Object detection via a multiregion & semantic segmentation-aware CNN model. CoRR, abs/1505.01749, 2015. 7 [12] S. Ginosar, D. Haas, T. Brown, and J. Malik. Detecting people in cubist art. In Computer Vision-ECCV 2014Workshops, pages 101–116. Springer, 2014. 7 [13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 580–587. IEEE, 2014. 1, 4, 7 [14] R. B. Girshick. Fast R-CNN. CoRR, abs/1504.08083, 2015. 2, 5, 6, 7 [15] S. Gould, T. Gao, and D. Koller. Region-based segmentation and object detection. In Advances in neural information processing systems, pages 655–663, 2009. 4 [16] B. Hariharan, P. Arbel´aez, R. Girshick, and J. Malik. Simultaneous detection and segmentation. In Computer Vision– ECCV 2014, pages 297–312. Springer, 2014. 7 [17] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling in deep convolutional networks for visual recognition. arXiv preprint arXiv:1406.4729, 2014. 5 [18] G. E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R. R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012. 4 [19] D. Hoiem, Y. Chodpathumwan, and Q. Dai. Diagnosing error in object detectors. In Computer Vision–ECCV 2012, pages 340–353. Springer, 2012. 6 [20] K. Lenc and A. Vedaldi. R-cnn minus r. arXiv preprint arXiv:1506.06981, 2015. 5, 6 [21] R. Lienhart and J. Maydt. An extended set of haar-like features for rapid object detection. In Image Processing. 2002. Proceedings. 2002 International Conference on, volume 1, pages I–900. IEEE, 2002. 4 [22] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs/1312.4400, 2013. 2 [23] D. G. Lowe. Object recognition from local scale-invariant features. In Computer vision, 1999. The proceedings of the seventh IEEE international conference on, volume 2, pages 1150–1157. Ieee, 1999. 4 [24] D. Mishkin. Models accuracy on imagenet 2012 val. https://github.com/BVLC/caffe/wiki/ Models-accuracy-on-ImageNet-2012-val. Accessed: 2015-10-2. 3 [25] C. P. Papageorgiou, M. Oren, and T. Poggio. A general framework for object detection. In Computer vision, 1998. sixth international conference on, pages 555–562. IEEE, 1998. 4 [26] J. Redmon. Darknet: Open source neural networks in c. http://pjreddie.com/darknet/, 2013–2016. 3 [27] J. Redmon and A. Angelova. Real-time grasp detection using convolutional neural networks. CoRR, abs/1412.3128, 2014. 5 [28] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. arXiv preprint arXiv:1506.01497, 2015. 5, 6, 7 [29] S. Ren, K. He, R. B. Girshick, X. Zhang, and J. Sun. Object detection networks on convolutional feature maps. CoRR, abs/1504.06066, 2015. 3, 7 [30] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 2015. 3 [31] M. A. Sadeghi and D. Forsyth. 30hz object detection with dpm v5. In Computer Vision–ECCV 2014, pages 65–79. Springer, 2014. 5, 6 [32] P. Sermanet, D. Eigen, X. Zhang, M. Mathieu, R. Fergus, and Y. LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/1312.6229, 2013. 4, 5 [33] Z. Shen and X. Xue. Do more dropouts in pool5 feature maps for better object detection. arXiv preprint arXiv:1409.6911, 2014. 7 [34] C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich. Going deeper with convolutions. CoRR, abs/1409.4842, 2014. 2 [35] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W. Smeulders. Selective search for object recognition. International journal of computer vision, 104(2):154–171, 2013. 4 [36] P. Viola and M. Jones. Robust real-time object detection. International Journal of Computer Vision, 4:34–47, 2001. 4 [37] P. Viola and M. J. Jones. Robust real-time face detection. International journal of computer vision, 57(2):137–154, 2004. 5 [38] J. Yan, Z. Lei, L. Wen, and S. Z. Li. The fastest deformable part model for object detection. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, pages 2497–2504. IEEE, 2014. 5, 6 [39] C. L. Zitnick and P. Doll´ar. Edge boxes: Locating object proposals from edges. In Computer Vision–ECCV 2014, pages

转载请注明原文地址: https://www.6miu.com/read-200035.html

技术

最新回复(0)