窝牛号

Facebook开源 Detectron2 一种Mask R-CNN的计算机视觉对象检测模型

自 Facebook AI 发布以来 Mask R-CNN,Facebook 最先进的实例分割模型,在 2018 年,它已成为计算机视觉研究和应用广泛使用的核心工具。Facebook 现在正在分享新的、显着改进的基线,这些基线基于该领域其他专家最近发表的最新成果。Facebook 还提供了有关如何实现这些改进的新分析,并将新的基准配方添加到Facebook 的开源检测库,Detectron2

如果无法衡量结果并将其与他人的工作进行比较,就很难取得快速的科学进步。AI 研究人员使用基线来做到这一点,因为它们可以作为一个易于重现的衡量标准。但由于该领域发展迅速,Facebook 必须经常更新它们以反映该领域的进展。

如果不能彻底了解基线中的这种差距以及重现这些结果的能力,研究界就很难推进自己的工作或了解是什么推动了其他人的绩效提升。在这种情况下,AP 地显着改进似乎可归因于两个简单的因素:更长的训练时间和更强的随机图像大小调整增强。

此图显示了使用新的 Mask R-CNN 进行的框预测。

复制研究是推进科学知识的核心机制,但在实践中往往很困难。特定实验的细节可能不清楚或不可用,并且不同的实验室可能使用不同的硬件(例如,张量处理单元而不是 GPU)和软件平台(例如,TensorFlow 与 PyTorch),这可能会在其输出中引入细微的差异

为了重现上述论文中实现的 ResNet-50-FPN ,Facebook 从 TensorFlow

实现 Mask R-CNN 以使用 COCO 数据集训练。

在 Detectron2 中。尽管 TensorFlow 和基于 PyTorch 的 Detectron2 实现之间存在许多低级差异,但Facebook 想测试更长的训练时间和更强的数据增强的基本原则是否对这些低级细节具有鲁棒性。

将 Mask R-CNN ResNet-50-FPN Box AP 指标从 41(使用 ImageNet 初始化)增加到 46.7(使用 ImageNet 初始化)和 47.4(使用随机初始化)。

Facebook 进行了一系列消融实验,以了解哪些超参数变化推动了这些改进。为了看看Facebook 是否可以进一步提高准确率,Facebook 还尝试了具有更大图像的更深层次的模型。Facebook 的实验证明:

更长的训练计划、更大的输入图像尺寸和更大的抖动范围对 AP 有积极的影响。Box AP 和 Mask AP 继续随着训练计划的增加而扩展。当使用 144 个 epoch 计划训练时,Box AP 和 Mask AP 尺度抖动稳定在 0.5-1.6

Sync Batch Norm、Weight Decay 和更深的 Region Proposal Network (RPN) 和 Region of Interest (ROI) 也对 Box AP 和 Mask AP 产生积极影响

启用 PyTorch 的自动混合精度 (AMP) 和 FP16 将训练速度提高了 30%,并且不会降低 Box AP 和 Mask AP。这些性能提升是在八节点集群上实现的,其中每个节点有八个 Nvidia V100 32GB GPU。

Box AP 和 Mask AP 在使用 144 个 epoch 计划训练时的尺度抖动稳定在 0.5-1.6。

对于从 AR 效果到检测有害内容的计算机视觉任务,性能在很大程度上取决于所使用的图像检测模型的准确性。改进 AP 可以直接提升用户体验,比如 Portal 等产品。

通过在这里分享Facebook 的工作并使用 Detectron2 实现它,Facebook 希望不仅可以帮助其他人构建更好的计算机视觉工具,而且还希望研究社区可以轻松地将它们用作新检测研究的基础。最终,Facebook 希望这将有助于在构建能够应对具有挑战性的计算机视觉任务的机器方面取得新的突破。

https://github.com/facebookresearch/detectron2 detectron2源码可以实现一下具体的对象检测

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1