2000字范文,分享全网优秀范文,学习好帮手!
2000字范文 > [论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey

[论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey

时间:2022-07-26 07:55:05

相关推荐

[论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey

1.题目

Learning from Noisy Labels with Deep Neural Networks: A Survey

作者团队:韩国科学技术院(KAIST)

Song H , Kim M , Park D , et al. Learning from Noisy Labels with Deep Neural Networks: A Survey. .

2. 摘要

重述问题:从监督学习的角度来描述使用标签噪声学习的问题;

方法回顾:对57种最先进的鲁棒训练方法进行了全面的回顾,并根据其方法差异分为5组;然后系统地比较了六种属性来评估它们的优越性;

评估:对噪声率估计进行了深入的分析,并总结了典型使用的评估方法,包括公共噪声数据集和评估指标;

总结:我们提出了几个很有前途的研究方向。

3. 研究Noise Learn的意义

对比了三种情况,第一种是clean数据的训练情况;第二种是noise数据没有加入Reg(正则化)的情况;第三种是noise数据加入了Reg的情况;一般情况下我们想方设法去处理正则的内容(data augmentation,weight decay,dropout, batch normalization),可是noise的影响也是很大的,像图中的Gap.

4. 目前的相关综述

Frenay and Verleysen [12] —Classifification in the presence of label noise: A survey-–经典的监督学习(说明了noise的定义,来源等等相关内容。Bayes,SVM)—讲述了noise学习的统计学习;

Zhang et al. [27]—Learning from crowdsourced labeled data: A survey–-- 讨论众包数据方法(expectation maximization (EM) algorithms)—其实这是不错的一篇综述,工程上挺有用的,众包情景就是一个好的情境。

这篇论文可以结合弱监督的论文来看,特征在后面的推理Ground truth那里。

工具:The project CEKA is available at: /

Nigam et al.[28] -Impact of noisy labels in learning techniques: A survey- -- 局限在 the loss function and sample selection 两方面

Hanet al. [29] --A survey of label-noise representation learning: Past,present and future-- -- 总结了带有噪声标签的robust学习的基本组成部分,但它们的分类与我们的哲学分类完全不同;从机器学习的定义出去去讲述Noise学习的问题,对于理解机器学习有很帮助的一篇文章,之前也看到篇相关的,忘记哪篇了,也是从机器学习定义出发去讲述一件事情;

给出LNRL的定义;从学习理论的视角对Noise训练有更深一层的理解;从数据、目标,优化算子的角度进行了分类;并分析了各类的优缺点;提出了新的研究方法;/bhanML/label-noise-papers

这篇文章写得也比较清淅的:

第1节,引言;写作动机与贡献,文章组织情况;

第2节写了Lable-Noise学习的相关文献,完整版本见附录1(早期(1988开始)–Emerging Stage()--Flourished Stage());

第3节综述的概述,包括LNRL的正式定义、核心问题,以及根据数据、目标和优化对现有工作的分类;

第4节针对利用噪声转换矩阵来求解LNRL的方法;

第5节是关于修改目标函数以使LNRL可行的方法;

第6节是关于利用深度网络的特性来解决LNRL问题的方法;

在第7节中,我们提出了LNRL的未来发展方向。除了LNRL之外,该调查还揭示了几个很有前途的未来方向;

在第8节,总结;

对于数据,主要是一个Noise transition matrix T,T提示了clean标注与noise标注的关系;使用三种方法去使用T来处理Noise标注;

5. 预备知识

这篇综述主要是在系统的方法论上,[29]关注的是一般的视角上( input data, objective functions, optimization policies);

这个综述对存在的robust训练方法作了一个对比;

5.0 lable-noise的监督学习;

5.1 标签噪声分类

​ a.独立于实例的标签噪声;

​ b.依赖实例的标签噪声;

5.2 非深度学习方法—分成四类

​ a. 数据清洗;

​ b.Surrogate Loss(代理损失函数)

​ c.概率方法

​ d. 基于模型方法

5.3 理论基础

​ a.Label Transition: 从数据的角度来看,noise是来源于label的转移矩阵;这个转移矩阵可以发现其中的内在关系;

​ b.Risk Minimization

​ c.Memorization Effect

5.4Regression with Noisy Labels

6. 深度学习方法

深度学习的robust训练(分为5类):

它的关注点是深度学习在监督学习过程中更robust.

(P1) Flexibility,(P2) No Pre-training,(P3) Full Exploration,(P4) No Supervision(P5) Heavy Noise(P6) Complex Noise

圆圈:完全支持,叉:不支持,三角:支持但不完全支持

6.1 Robust框架

在DNN上增加一个Noise适应层去学习label transition,或开了一个专用架构来处理;

6.1.ANoise Adaptation Layer

这个方法的原理:

论文:Training deep neural-networks using a noise adaptation layer,” inProc. ICLR, .

这论文采用了EM算法来处理,理论性学是比较强的。

A.1. Noise Adaptation Layer

A.2. Dedicated Architecture(专门架构)

6.2 Robust正则化

B.1. Explicit Regularization

B.2. Implicit Regularization

C. Robust Loss Function

6.D 损失函数调整

改进损失函数;

D.1. Loss Correction

D.2. Loss Reweighting

D.3. Label Refurbishment

D.4. Meta Learning

6.4 样本选择

通过多网络或多轮学习,从有噪声的训练数据中识别true-labeled的样本。

E.1. Multi-network Learning – 多网络学习

E.2. Multi-round Learning–多轮学习方法

E.3. Hybrid Learning

7. 数据集

8. 总结

其实弱监督学习,noise学习,主动学习,出发点都是想去解决语料的问题。弱监督是想在没有标准的数据上进行自动标注,然后对这些标注进行软合并;noise学习,解决标注出来数据的noise问题;主动学习,就是用机器到已标注的数据进行学习,对未标注的样本进行估计,目前是想用直可能标注的样本数据来代替整个样本集的内容。

可是发现,很多领域都是在处理图像的,自然语言是否可以考虑?

9. 参考

论文:/pdf/.08199.pdf

相关资料: /songhwanjun/Awesome-Noisy-Labels

附:

LNRL: Label-Noise Representation Learning

LNSL: label-noise statistical learning

surrogate loss function:代理损失函数或者称为替代损失函数,一般是指当目标函数非凸、不连续时,数学性质不好,优化起来比较复杂,这时候需要使用其他的性能较好的函数进行替换。

ICCV的全称是 IEEE International Conference on Computer Vision,即国际计算机视觉大会

ICDM(国际数据挖掘会议)

IEEE国际声学、语言和信号处理会议(ICASSP)

国际学习表征会议(International Conference On Learning Representations)

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。