第五天-机器学习100天

K近邻法(k-NN)

Posted by Jinliang on April 8, 2019

数据集 | 社交网络

导入相关库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据集

dataset = pd.read_csv('datasets/Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

将数据划分成训练集和测试集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

特征缩放

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

使用K-NN对训练集数据进行训练

from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)
classifier.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

对测试集进行预测

y_pred = classifier.predict(X_test)

y_pred:[0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0
 0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 1 0 0 1
 0 0 0 0 1 1 1 1 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 1 1 1]

生成混淆矩阵

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
print('cm: '  + str(cm))

cm: [[64  4]
 [ 3 29]]


知识点

KNN,即K近邻,是一种常用的监督学习方法。

工作机制:给定测试样本,根据某种距离度量出训练集中与测试样本最近的的k个训练样本,然后根据这k个邻居的信息来进行预测。

根据k个邻居的信息进行预测的机制:

  1. 投票法:即k个样本中出现最多的类别标记作为预测结果,常用于分类任务中。
  2. 平均法:即去k个样本标记的平均值作为预测结果,常用于回归任务中。
  3. 在投票或平均时,可进行加权,距离越近权重越大。

影响分类结果的因素:

  1. 超参数K的选择

  2. 距离计算方式的选择

性能:

KNN算法虽然简单,但是性能很好,它的泛化错误率不超过贝叶斯最优分类器错误率的两倍,证明如下:

KNN出错的概率表示为:

\[P(err)=1-\sum_{x\in{y}}P(c|x)P(c|z)\]

假设样本独立同分布,且对任意测试样本,总能在任意近范围找到训练样本$z$,则贝叶斯最优分类器的结果为:

\[\begin{align} P(err)&=1-\sum_{c\in{y}}P(c|x)P(c|z)\\ &\approx1-\sum_{c\in{y}}P^2(c|x)\\ &\leq1-P^2(c^*|x)\\ &=(1+P(c^*|x))(1-P(c^*|x))\\ &\leq2*(1-P(c^*|x)) \end{align}\]

因此,KNN的泛化错误率不超过贝叶斯最优分类器错误率的两倍

部分转载:https://github.com/MLEveryday/100-Days-Of-ML-Code