2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > 机器学习:弱监督学习简介

机器学习:弱监督学习简介

时间:2020-06-23 04:39:19

相关推荐

机器学习:弱监督学习简介

在机器学习领域,我们遇见最多的是有监督学习,学习 x 到 y 的一种映射,X 可以看成是特征向量,维度可以从几十到几百,上千,甚至百万,y 可以看成是标签,(x, y) 构成了一个训练样本,有输入,输出。这种形式的学习,都称之为有监督学习。

虽然我们都已步入了大数据时代,每时每刻,我们都会产生很多的数据,图像,视频,这些数据就类似我们说的 x,为了构造一个识别模型,我们有足够多的 x,可是我们却缺乏相对应的 y,为了给图像进行标注,还是要耗费很多的人力以及时间。

所以就有人提出了无监督的学习方式,能不能不用 y 的指引,直接去学习 x 之间的内在联系呢,虽然这个学习方式非常诱人,可是到现在为止,完全的无监督学习,取得的进展并不理想,可能还是因为完全失去 y 的指引,模型自己也不知道该如何去表示 x 吧。

所以就有了第三种学习,介于有监督和无监督之间的一种学习方式,我们称之为弱监督学习。弱监督学习,既要依赖一定的 y,也就是标签的指引,但也能利用无标签的数据帮助模型提升表达能力。

弱监督学习,发展到现在,主要可以分成三个方向:

不完全监督 ( incomplete supervison )不确切监督 ( inexact supervision )不准确监督 ( inaccurate supervision )

不完全监督,就是我们所说的半监督学习,一个训练数据集,有一部分数据是有标签的,也就是我们所说的 (x,y) 是对应的,还有一部分数据,就只有 x 而没有 y, 这种形式的学习,称为半监督学习。

不确切监督,指的是标签的粒度与我们想要解决的问题不匹配,比如对于分类来说,可能只要类别标签,我们就足够了,但是对于检测,或者分割来说,只有类别标签,而没有框,或者mask 的信息,这种标签就比较 “弱",这也可以看成是一种弱监督学习。不确切监督,基本研究的都是 bag learning 或者 multiple instance learning 这些问题。

不准确监督,指的是标签的准确性,这个在大数据集里面,经常会出现,数据一般都是人来标的,很难保证每个数据的标签都是完全正确的,所以会有错误标签的情况出现,这些错误标签,可以看成是一种 “噪声”,不准确监督,研究的就是含有噪声标签时的学习问题。

不完全监督,主要有两种学习方式,一种是主动学习,一种是半监督学习。主动学习(active learning),需要一个交互和反馈的过程,主动学习,需要一个类似“上帝” 的角色,需要对系统预测的某些样本进行判断,系统根据这些反馈,可以对模型进行调整,通过这种交互方式,模型的识别能力逐渐提升。

所以主动学习,其实就是用尽可能少的问询,获得最多的信息,让模型的识别能力最大化。主动学习,最关键的一个环节是交互,应该推荐什么样的数据让 “上帝” 进行判断,这个就有两个选择标准,一个是基于 informativeness,这是从信息熵的角度考虑, 另外一个就是基于 representativeness,从数据的结构性表达来考虑。基于信息熵的方式,有单分类器和多分离器两种情况,对于单分类器来说,问询的是置信度最低的样本,对于多分类器来说,问询的是分歧最大的样本,总的原则,都是越不确定的样本,所蕴含的信息就越多。而从特征表达角度考虑,一般都是用聚类的方式,问询密度比较高的样本。

不完全监督,除了主动学习,另外一大流派就是半监督学习,半监督学习,又分成两个方向,一个是纯半监督学习(pure semi-supervisied learning),另外一个就是转导或者直推学习(transductive learning),纯半监督学习,持有的是开放的世界观,我们能利用的无标签数据,和测试数据是不同的,而 transductive learning 认为,无标签数据,就是我们需要预测的数据,这是一种封闭的世界观,即测试数据是事先可见的,只是不知道标签而已。

事实上,半监督学习都是基于两个基本假设,一个是 cluster 一个是 manifold,cluster 假设,就是认为同一类的物体,基本都会落在同一个区域内,而 manifold 假设,认为数据分布在一个 manifold 上,因此,相近的样本都会有相似的预测输出。

半监督学习,有四种主流方法

1:基于生成的方法

2:基于图的方法

3:基于低密度假设的方法

4:基于分歧的方法

基于生成的方法,认为有标签数据和无标签数据,都来源于同一个分布。基于图的方法,将所有的数据构造成一张图,图的节点,表示样本,图的边表示样本之间的关系,利用标签传播的技术,将无标签数据打上标签;低密度假设,就是希望分类面不要穿过密度高的区域;基于分歧的方法,就是构造不同的分类器,从不同的视角去分析数据。

不确切监督,关注的是有些情况下,虽然给定了标签,但是标签还不够精细,这就是所谓的多实例学习,多个实例,构成一个 bag,这个bag 有一个标签,但是我们最终是希望知道这个标签,属于这个 bag 中的哪个实例,以我们常见的弱监督检测来说,可以把一张图像,看成有多个 local patch 组成的,每个 local path 其实就是一个 instance,而这张图像就是一个 bag,有的时候,我们只会告诉你这张图像,或者这个 bag 属于哪个类,但是对于检测来说,我们还需要进一步确定,这个标签到底属于哪个 local patch,也就是我们所说的实例,所以弱监督检测,其实就是一个多实例学习的问题。

不准确监督,关注的是有些情况下,标签并不准确,含有噪声,现在的 AI,都是依赖大数据和算力支撑起来的,数据有了,但是如何给这些数据标注,也是一个大问题,所以现在有一个非常流行的众包方式,把数据分发出去,让有空闲的人去给这些数据打标签,这样的标注方式,难免会有标注错误的情况,所以如何训练还有标注错误的数据,就是不准确监督想要解决的问题。

参考文献:

Zhou zhihua, A Brief Introduction to Weakly Supervised Learning

========

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。