数据集 | 社交网络
导入相关库
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
导入数据集
dataset = pd.read_csv('datasets/Social_Network_Ads.csv')
X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values
将数据划分成训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)
特征缩放
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
使用K-NN对训练集数据进行训练
from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)
classifier.fit(X_train, y_train)
KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
metric_params=None, n_jobs=1, n_neighbors=5, p=2,
weights='uniform')
对测试集进行预测
y_pred = classifier.predict(X_test)
y_pred:[0 0 0 0 0 0 0 1 0 1 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 1 0 0 0 0
0 0 1 0 0 0 0 1 0 0 1 0 1 1 0 0 1 1 1 0 0 1 0 0 1 0 1 0 1 0 0 0 0 1 0 0 1
0 0 0 0 1 1 1 1 0 0 1 0 0 1 1 0 0 1 0 0 0 0 0 1 1 1]
生成混淆矩阵
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
print('cm: ' + str(cm))
cm: [[64 4]
[ 3 29]]
知识点
KNN,即K近邻,是一种常用的监督学习方法。
工作机制:给定测试样本,根据某种距离度量出训练集中与测试样本最近的的k个训练样本,然后根据这k个邻居的信息来进行预测。
根据k个邻居的信息进行预测的机制:
- 投票法:即k个样本中出现最多的类别标记作为预测结果,常用于分类任务中。
- 平均法:即去k个样本标记的平均值作为预测结果,常用于回归任务中。
- 在投票或平均时,可进行加权,距离越近权重越大。
影响分类结果的因素:
-
超参数K的选择
-
距离计算方式的选择
性能:
KNN算法虽然简单,但是性能很好,它的泛化错误率不超过贝叶斯最优分类器错误率的两倍,证明如下:
KNN出错的概率表示为:
\[P(err)=1-\sum_{x\in{y}}P(c|x)P(c|z)\]假设样本独立同分布,且对任意测试样本,总能在任意近范围找到训练样本$z$,则贝叶斯最优分类器的结果为:
\[\begin{align} P(err)&=1-\sum_{c\in{y}}P(c|x)P(c|z)\\ &\approx1-\sum_{c\in{y}}P^2(c|x)\\ &\leq1-P^2(c^*|x)\\ &=(1+P(c^*|x))(1-P(c^*|x))\\ &\leq2*(1-P(c^*|x)) \end{align}\]因此,KNN的泛化错误率不超过贝叶斯最优分类器错误率的两倍。