Analítica web
Reflexiones desde el mercado español de Analítica Web

El algoritmo K-NN y su importancia en el modelado de datos

Se lee en 3 minutos

“Dime con quién vas y te diré quién eres”

Este refrán rancio y conocido por tod@s, me da pie a comentar un algoritmo muy popular y utilizado en modelos de clasificación: el de los K vecinos más cercanos o K-NN (K Nearest Neighbours).

Concepto

La idea es realmente sencilla: el algoritmo clasifica cada dato nuevo en el grupo que corresponda, según tenga k vecinos más cerca de un grupo o de otro. Es decir, calcula la distancia del elemento nuevo a cada uno de los existentes, y ordena dichas distancias de menor a mayor para ir seleccionando el grupo al que pertenecer. Este grupo será, por tanto, el de mayor frecuencia con menores distancias.

El K-NN es un algoritmo de aprendizaje supervisado, es decir, que a partir de un juego de datos inicial su objetivo será

Navegar