自然图像合成是一类广泛的机器学习 (ML) 任务,具有广泛的应用,带来了许多设计挑战。一个例子是图像超分辨率,其中训练模型将低分辨率图像转换为详细的高分辨率图像(例如,RAISR)。超分辨率有许多应用,从恢复旧的全家福到改进医学成像系统。另一个这样的图像合成任务是类条件图像生成,其中训练模型以从输入类标签生成样本图像。生成的样本图像可用于提高下游模型的图像分类、分割等性能。
通常,这些图像合成任务由深度生成模型执行,例如GAN、VAE和自回归模型。然而,当经过训练以在困难的高分辨率数据集上合成高质量样本时,这些生成模型中的每一个都有其缺点。例如,GAN 经常受到训练不稳定和模式崩溃的影响,而自回归模型通常会受到合成速度缓慢的影响。
或者,最初于 2015 年提出的扩散模型由于其训练稳定性以及在图像 和 音频 生成方面的有希望的样本质量结果,最近引起了人们的兴趣。因此,与其他类型的深度生成模型相比,它们提供了潜在的有利权衡。扩散模型通过逐渐添加高斯噪声来破坏训练数据,慢慢消除数据中的细节直到它变成纯噪声,然后训练神经网络来扭转这种破坏过程。运行这个反向损坏过程通过逐渐去噪直到产生干净的样本来合成来自纯噪声的数据。这个合成过程可以解释作为遵循数据密度梯度以生成可能样本的优化算法。
今天,Google提出了两种连接方法,它们突破了扩散模型的图像合成质量的界限——通过重复细化(SR3) 的超分辨率和一种称为级联扩散模型(CDM) 的类条件合成模型。Google表明,通过扩大扩散模型和精心挑选的数据增强技术,Google可以胜过现有的方法。具体来说,SR3 在人类评估中获得了超过 GAN 的强大图像超分辨率结果。CDM 生成的高保真 ImageNet 样本在FID 分数和分类准确度分数上均大大超过BigGAN-deep和VQ-VAE2。
SR3:Image Super-ResolutionSR3是一种超分辨率扩散模型,它以低分辨率图像作为输入,并从纯噪声中构建相应的高分辨率图像。该模型在图像损坏过程中进行训练,其中噪声逐渐添加到高分辨率图像中,直到只剩下纯噪声为止。然后它学习逆转这个过程,从纯噪声开始,并通过输入低分辨率图像的引导逐步去除噪声以达到目标分布。
通过大规模训练,当缩放到输入低分辨率图像的 4 倍到 8 倍的分辨率时,SR3 在人脸和自然图像的超分辨率任务上取得了强大的基准测试结果。这些超分辨率模型可以进一步级联在一起以增加有效的超分辨率比例因子,例如,将 64x64 → 256x256 和 256x256 → 1024x1024 的超分辨率模型堆叠在一起,以执行 64x64 → 1024x1024 的超分辨率任务.
Google使用人类评估研究将 SR3 与现有方法进行比较。Google进行了一项两种可选的强制选择实验,其中要求受试者在参考高分辨率图像和模型输出之间进行选择,当被问及“你猜哪个图像来自相机?“Google通过混淆率来衡量模型的性能(评估者选择模型输出而不是参考图像的时间百分比,其中完美的算法将实现 50% 的混淆率)。这项研究的结果如下图所示。
上图:Google在 16x16 → 128x128 人脸的任务上实现了接近 50% 的混淆率,优于最先进的人脸超分辨率方法 PULSE 和 FSRGAN。下图:Google还在 64x64 → 256x256 自然图像这一更困难的任务上实现了 40% 的混淆率,大大优于回归基线。
CDM: Class-Conditional ImageNet Generation在展示了 SR3 在执行自然图像超分辨率方面的有效性之后,Google更进一步,使用这些 SR3 模型来生成类条件图像。清洁发展机制是在 ImageNet 数据上训练以生成高分辨率自然图像的类条件扩散模型。由于 ImageNet 是一个困难的高熵数据集,Google将 CDM 构建为多个扩散模型的级联。这种级联方法涉及将多个空间分辨率的多个生成模型链接在一起:一个以低分辨率生成数据的扩散模型,然后是一系列 SR3 超分辨率扩散模型,逐渐将生成的图像的分辨率提高到最高分辨率。众所周知,级联提高了高分辨率数据的质量和训练速度,如先前的研究(例如在自回归模型和VQ-VAE-2 中)和并发 工作所示对于扩散模型。正如Google下面的定量结果所证明的那样,CDM 进一步突出了扩散模型中级联对样本质量和下游任务(例如图像分类)有用性的有效性。
包含一系列扩散模型的级联管道示例:第一个生成低分辨率图像,其余执行上采样到最终高分辨率图像。这里的管道用于类条件 ImageNet 生成,它从 32x32 分辨率的类条件扩散模型开始,然后是使用 SR3 的 2x 和 4x 类条件超分辨率。
从Google的 256x256 级联类条件 ImageNet 模型中选择生成的图像。
除了在级联管道中包含 SR3 模型外,Google还引入了一种新的数据增强技术,Google称之为条件增强,这进一步提高了 CDM 的样本质量结果。虽然 CDM 中的超分辨率模型是在数据集的原始图像上训练的,但在生成过程中,它们需要对由低分辨率基础模型生成的图像执行超分辨率,与原始图像。这导致超分辨率模型的训练测试不匹配。条件增强是指将数据增强应用于级联管道中每个超分辨率模型的低分辨率输入图像。这些增强(在Google的案例中包括高斯噪声和高斯模糊)可防止每个超分辨率模型过度拟合其较低分辨率的调节输入,最终为 CDM 带来更好的高分辨率样本质量。
总之,CDM 生成的高保真样本在类条件 ImageNet 生成的FID 分数和分类准确度分数方面均优于 BigGAN-deep 和 VQ-VAE-2 。CDM 是一种纯生成模型,与ADM和 VQ-VAE-2等其他模型不同,它不使用分类器来提高样本质量。有关样品质量的定量结果,请参见下文。
对于不使用额外分类器来提高样本质量的方法,类条件 ImageNet FID 在 256x256 分辨率下得分。
ImageNet 在 256x256 分辨率下的分类准确度得分,衡量在生成的数据上训练的分类器的验证集准确度。CDM 生成的数据比现有方法获得了显着的收益,缩小了真实数据和生成数据之间在分类精度上的差距。(越高越好。)
使用 SR3 和 CDM,Google已经将扩散模型的性能推到了超分辨率和类条件 ImageNet 生成基准的最先进水平。Google很高兴能够进一步测试扩散模型对各种生成建模问题的限制。有关Google工作的更多信息,请访问通过迭代细化和级联扩散模型生成高保真图像的图像超分辨率。
本站所发布的文字与图片素材为非商业目的改编或整理,版权归原作者所有,如侵权或涉及违法,请联系我们删除
热门信息
阅读 ()
1 注册微信号怎么注册第二个阅读 ()
2 怎么把照片变成卡通头像阅读 ()
3 手机越充越少电怎么解决