窝牛号

计算机机器学习——无需手动分割训练数据即可对图像进行图片分割

机器学习方法依赖于粗略的“边界框”图像标签,才能实现图片的分割

对于注释者而言,在对象周围绘制边界框比完全分割同一图像要容易得多。

基于机器学习的语义分割系统通常是在图像上进行训练的,在该图像中,已经仔细地手动跟踪了对象边界,这是一项耗时的操作。另一方面,可以在图像上训练对象检测系统,在这些图像中,对象由称为边界框的矩形框起来。对于人类注释者,对图像进行手工分割平均需要的时间是标记边界框的35倍。

今天介绍一个新系统,称为Box2Seg,该系统仅使用边界框训练数据(弱监督学习的一个示例)来学习对图像进行分割。

在实验中,此的系统在称为均值交集(mIoU)的度量标准上比以前的弱监督系统提高了2%,该度量标准衡量了系统对图像的分割与手动分割之间的一致性。此系统的性能也可以媲美在一般图像数据上进行预训练,然后在完全分割的数据上进行训练的系统。

此外,当使用弱监督方法训练系统,然后在完全分割的数据上对其进行微调时,对一般图像数据进行预训练的系统的性能提高了16%。这表明,即使有分段的训练数据可用,使用此弱监督方法进行的预训练仍然具有优势。

嘈杂的标签

此方法是将边界框视为嘈杂的标签。将框内的每个像素都视为已标记为试图寻找其边界的对象的一部分;但是,其中一些像素的标签不正确。框外的所有像素均视为正确标记的背景像素。

在训练过程中,此系统的输入通过三个卷积神经网络:一个对象分割网络和两个辅助网络。在运行期间,我们丢弃了辅助网络,因此它们不会增加已部署系统的复杂性。

辅助网络之一在图像中的像素之间执行成对比较,以尝试学习区分背景和前景的一般方法。直观地,它正在寻找边界框内的像素,这些像素与该框外正确标记的背景像素相似,并且在该框内寻找彼此不同的像素簇。我们将此网络称为嵌入网络,因为它学习的是像素的矢量表示(嵌入),该像素仅捕获可用于区分背景和前景的那些属性。

使用称为GrabCut的标准分段算法提供的相对粗略的分段对嵌入网络进行预训练。在训练过程中,嵌入网络的输出向对象分割网络提供监控信号。也就是说,我们用来评估嵌入网络性能的标准之一是其输出与嵌入网络的输出是否一致。

另一个辅助网络是标签特定的关注网络。它学会识别视觉属性,这些视觉属性经常在具有相同标签的边界框内的像素之间重复出现。可以将其视为对象检测器,其输出不是对象标签,而是突出显示特定对象类特征的像素簇的图像图。

使用边界框手动分割图像

从左到右:图像的手动分割;边界框与GrabCut算法提供的粗略分割相结合;以及边界框与研究人员特定标签关注网络的输出相结合。在第三对图像中,朝向光谱红色端的颜色表示图像特征,这些特征经常出现在带有特定标签的边界框内。在训练过程中,对象分割网络应特别注意哪些功能。

标签特定的关注网络仅对训练中看到的对象类别有用。它的输出可能会与未经训练的对象类别适得其反。但是在训练过程中,它像嵌入网络一样,提供了有用的监督信号,可以帮助对象分割网络学习执行更常规的分割。

在使用标准基准数据集进行的实验中,发现仅使用边界框训练数据,Box2Seg的性能就优于在完全分割的训练数据上训练的其他12个系统。当使用Box2Seg训练的网络在完全分段的数据上进行了微调时,性能提高甚至更加明显。这表明,在没有完全分割的训练数据时,即使是在没有监督训练的情况下,对对象分割进行弱监督训练也可能会很有用。

本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除

窝牛号 wwww.93ysy.com   沪ICP备2021036305号-1