第五天-机器学习100天

数据集 | 社交网络

导入相关库

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

导入数据集

dataset = pd.read_csv('datasets/Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values

将数据划分成训练集和测试集

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

特征缩放

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

使用K-NN对训练集数据进行训练

from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)
classifier.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

对测试集进行预测

y_pred = classifier.predict(X_test)

y_pred:[0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0
 0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 1 0 0 1
 0 0 0 0 1 1 1 1 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 1 1 1]

生成混淆矩阵

from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
print('cm: '  + str(cm))

cm: [[64  4]
 [ 3 29]]

知识点

KNN，即K近邻，是一种常用的监督学习方法。

工作机制：给定测试样本，根据某种距离度量出训练集中与测试样本最近的的k个训练样本，然后根据这k个邻居的信息来进行预测。

根据k个邻居的信息进行预测的机制：

投票法：即k个样本中出现最多的类别标记作为预测结果，常用于分类任务中。
平均法：即去k个样本标记的平均值作为预测结果，常用于回归任务中。
在投票或平均时，可进行加权，距离越近权重越大。

影响分类结果的因素：

超参数K的选择
距离计算方式的选择

性能：

KNN算法虽然简单，但是性能很好，它的泛化错误率不超过贝叶斯最优分类器错误率的两倍，证明如下：

KNN出错的概率表示为：

\[P(err)=1-\sum_{x\in{y}}P(c|x)P(c|z)\]

假设样本独立同分布，且对任意测试样本，总能在任意近范围找到训练样本$z$，则贝叶斯最优分类器的结果为：

\[\begin{align} P(err)&=1-\sum_{c\in{y}}P(c|x)P(c|z)\\ &\approx1-\sum_{c\in{y}}P^2(c|x)\\ &\leq1-P^2(c^*|x)\\ &=(1+P(c^*|x))(1-P(c^*|x))\\ &\leq2*(1-P(c^*|x)) \end{align}\]

因此，KNN的泛化错误率不超过贝叶斯最优分类器错误率的两倍。

部分转载：https://github.com/MLEveryday/100-Days-Of-ML-Code

K近邻法(k-NN)