kNN算法的简介

邻近算法，或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

kNN算法的核心思想：如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。

该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 kNN方法在类别决策时，只与极少量的相邻样本有关。由于kNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较多的待分样本集来说，kNN方法较其他方法更为适合。

kNN算法不仅可以用于分类，还可以用于回归。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。如下图是kNN算法中，k等于不同值时的算法分类结果。

简单来说，kNN可以看成：有那么一堆你已经知道分类的数据，然后当一个新数据进入的时候，就开始跟训练数据里的每个点求距离，然后选择离这个训练数据最近的k个点，看看这几个点属于什么类型，然后用少数服从多数的原则，给新数据归类。

1、kNN思路过程

1.1、k的意义

1.2、kNN求最近距离案例解释原理—通过实际案例，探究kNN思路过程

共有22图片→label属于[0，21]，每一个label对应一个长度距离，最后预测encodings中，一张图片中的两个目标

2、K 近邻算法的三要素

K 近邻算法使用的模型实际上对应于对特征空间的划分。K 值的选择，距离度量和分类决策规则是该算法的三个基本要素：

K 值的选择会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用，但容易发生过拟合；如果 K 值较大，优点是可以减少学习的估计误差，但缺点是学习的近似误差增大，这时与输入实例较远的训练实例也会对预测起作用，使预测发生错误。在实际应用中，K 值一般选择一个较小的数值，通常采用交叉验证的方法来选择最优的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。

该算法中的分类决策规则往往是多数表决，即由输入实例的 K 个最临近的训练实例中的多数类决定输入实例的类别

距离度量一般采用 Lp 距离，当p=2时，即为欧氏距离，在度量之前，应该将每个属性的值规范化，这样有助于防止具有较大初始值域的属性比具有较小初始值域的属性的权重过大。

k最近邻kNN算法的应用

1、kNN代码解读

class KNeighborsRegressor Found at: sklearn.neighbors.regressionclass KNeighborsRegressor(NeighborsBase, KNeighborsMixin, SupervisedFloatMixin, RegressorMixin):def __init__(self, n_neighbors=5, weights='uniform', algorithm='auto', leaf_size=30, p=2, metric='minkowski', metric_params=None, n_jobs=1, **kwargs):self._init_params(n_neighbors=n_neighbors, algorithm=algorithm, leaf_size=leaf_size, metric=metric, p=p, metric_params=metric_params, n_jobs=n_jobs, **kwargs)self.weights = _check_weights(weights)def predict(self, X):"""Predict the target for the provided dataParameters----------X : array-like, shape (n_query, n_features), \or (n_query, n_indexed) if metric == 'precomputed'Test samples.Returns-------y : array of int, shape = [n_samples] or [n_samples, n_outputs]Target values"""X = check_array(X, accept_sparse='csr')neigh_dist, neigh_ind = self.kneighbors(X)weights = _get_weights(neigh_dist, self.weights)_y = self._yif _y.ndim == 1:_y = _y.reshape((-1, 1))if weights is None:y_pred = np.mean(_y[neigh_ind], axis=1)else:y_pred = np.empty((X.shape[0], _y.shape[1]), dtype=np.float64)denom = np.sum(weights, axis=1)for j in range(_y.shape[1]):num = np.sum(neigh_indj]_y[ * weights, axis=1)y_pred[:j] = num / denomif self._y.ndim == 1:y_pred = y_pred.ravel()return y_pred