轻松进行自监督学习

发布时间：2021-05-22 21:19:33 所属栏目：大数据来源：互联网

导读：在深度学习中，经常遇到的问题是没有足够的标记数据，而手工标记数据耗费大量时间且人工成本高昂。基于此，自我监督学习成为深度学习的研究热点，旨在从未标记样本中进行学习，以缓解数据标注困难的问题。子监督学习的目标很简单，即训练一个模型使得相似的

在深度学习中，经常遇到的问题是没有足够的标记数据，而手工标记数据耗费大量时间且人工成本高昂。基于此，自我监督学习成为深度学习的研究热点，旨在从未标记样本中进行学习，以缓解数据标注困难的问题。子监督学习的目标很简单，即训练一个模型使得相似的样本具有相似的表示，然而具体实现却困难重重。经过谷歌这样的诸多先驱者若干年的研究，子监督学习如今已取得一系列的进步与发展。

在BYOL之前，多数自我监督学习都可分为对比学习或生成学习，其中，生成学习一般GAN建模完整的数据分布，计算成本较高，相比之下，对比学习方法就很少面临这样的问题。对此，BYOL的作者这样说道：

通过对比方法，同一图像不同视图的表示更接近(正例)，不同图像视图的表示相距较远(负例)，通过这样的方式减少表示的生成成本。

为了实现对比方法，我们必须将每个样本与其他许多负例样本进行比较。然而这样会使训练很不稳定，同时会增大数据集的系统偏差。BYOL的作者显然明白这点：

对比方法对图像增强的方式非常敏感。例如，当消除图像增强中的颜色失真时，SimCLR表现不佳。可能的原因是，同一图像的不同裁切一般会共享颜色直方图，而不同图像的颜色直方图是不同的。因此，在对比任务中，可以通过关注颜色直方图，使用随机裁切方式实现图像增强，其结果表示几乎无法保留颜色直方图之外的信息。

不仅仅是颜色失真，其他类型的数据转换也是如此。一般来说，对比训练对数据的系统偏差较为敏感。在机器学习中，数据偏差是一个广泛存在的问题（见facial recognition for women and minorities），这对对比方法来说影响更大。不过好在BYOL不依赖负采样，从而很好的避免了该问题。

BYOL：Bootstrap Your Own Latent(发掘自身潜能)

BYOL的目标与对比学习相似，但一个很大的区别是，BYOL不关心不同样本是否具有不同的表征（即对比学习中的对比部分），仅仅使相似的样品表征类似。看上去似乎无关紧要，但这样的设定会显著改善模型训练效率和泛化能力：

由于不需要负采样，BLOY有更高的训练效率。在训练中，每次遍历只需对每个样本采样一次，而无需关注负样本。

BLOY模型对训练数据的系统偏差不敏感，这意味着模型可以对未见样本也有较好的适用性。

BYOL最小化样本表征和该样本变换之后的表征间的距离。其中，不同变换类型包括0：平移、旋转、模糊、颜色反转、颜色抖动、高斯噪声等（我在此以图像操作来举例说明，但BYOL也可以处理其他数据类型）。至于是单一变换还是几种不同类型的联合变换，这取决于你自己，不过我一般会采用联合变换。但有一点需要注意，如果你希望训练的模型能够应对某种变换，那么用该变换处理训练数据时必要的。

（编辑：菏泽站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

架构迭代无法一蹴而就	云数据仓库中的数据安
区块链为大数据分析提	如何使用Google Cloud