第一章 监督学习与非监督学习简介
一、机器学习基本概念
概念:研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有 的知识结构使之不断改善自身的性能
输入
基本概念
–特征向量:特征的集合,描绘特定的研究对象;拥有多个维度,每个维度代表一个特征的取值
–标签:特征向量所属的类别,一般与特征向量成对出现;一般使用整数值
–数据集:特征向量和标签组成的集合集合
数据集分类
–训练集:用于建立模型
–验证集(非必须):用来中途检测模型性能,从而进行调整
–测试集:用来最终检测模型性能
输出:给定输入的特征向量,进过特定算法计算,输出对应的标签
其他概念
–经验风险最小化:最小化在训练集上的误差
–过拟合:训练集效果超群,测试集效果直线下降
–欠拟合:训练集效果不好,测试集效果也不好
–归纳偏置:事先对机器学习算法的一种假设,一种偏好,从概率论的角度来看,归纳偏值是加入的模型中的先验信息。它可以减少搜索空间以及减缓过拟合
–独立同分布条件(i.i.d条件):训练集和测试集是从同一个数据分布中抽取的,并且抽取的过程是独立的(数据集的数量和质量都很重要)
二、监督学习简介
概念:利用一组已知类别的样本调整算法的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习
特征工程
–特征很重要(比算法还重要)
–过多特征会增加算法的复杂性和运行时间;简单模型更具鲁棒性;有用的维度数量少的时候解释性更强
–两种方法
– 典型算法
A)特征选取:向前选择(初始空集,不断添加特征);向后选择(初始满集,不断删除特征)
B)特征提取:主成分分析(PCA);线性判别分析(LDA)
实例
–分类:是对离散型随机变量建模或预测的监督学习算法(即最后输出的是特征向量所属的类别或者标签,是离散值)
–回归:对数值型连续随机变量进行预测和建模的监督学习算法(即最后输出的特征向量的标签是连续值)
三、非监督学习简介
概念:在未加标签的数据中,试图找到隐藏的结构实例–聚类:把相似的对象通过静态分类的方法分成不同的组别或更多的子集,这样让在用同一个子集中的成员对象都有相似的一些属性
四、常见算法简介
回归算法(监督学习算法)
–概念:对数值型连续随机变量进行预测和建模的监督学习算法(即最后输出的特征向量的标签是连续值),即找拟合函数
决策时(监督学习算法,一般用于分类任务)
–概念:是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一个类别
神经网络算法(监督学习算法,一般用于分类任务)
–概念:一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的
–历史变迁:感知器模型->全连接神经网络->卷积神经网络
SVM算法【支持向量机算法】(监督学习算法,一般用于分类任务)
–概念:目标在于在空间中寻找一个超平面,使得数据集可以被超平面分开,从而完成分类任务
K-Means算法(非监督学习算法,一般用于聚类任务)
–概念:算法接受参数k;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较小
KNN算法【K-NearestNeighbor】(监督学习算法)
–概念:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性
集成学习
–概念:是使用一系类学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法