競プロ記録

問題を解いた際に自分の復習用として使ってます

機会学習:メモ

前提インポート

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import mglearn
from Ipython.display import display

前提コマンド

%matplotlib notebook

k-Nearest Neighbors

  • 新しいデータポイントに対して予測する際に、新しい点に最も近い点を訓練セットから探し、新しい点に最も近かった点のラベルを新しいデータポイントに付与する。
  • kは用いる点の個数が複数でも良いことを意味する。
  • 多数の特徴量を持つデータセットではうまく機能しない。
  • 特徴量の多くが0となる場合には特に相性が悪い
  • 実際の現場では扱える特徴量が少ないためほとんど使われていない。

    訓練と評価のための最小手順

X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)

print("Test set score: {:.2f}".format(knn.score(X_test, y_test)))