jueves, 9 de octubre de 2014

Ejemplo Graficar Kmeans usando ACP

Si se tiene una segmentacion usando k-means con 3 o mas variables, y se quiere representar en un gráfico de dispersión, una forma sería usar la técnica de "Análisis de Componentes Principales (ACP)" para resumir todas las variables en solo 2, que representaran el eje X y el eje Y.

El ACP es una tecnica de "reducción de la dimensionalidad", y conceptualmente el proceso para aplicarlo y graficar k-means sería así:






























El script en R sería el siguiente:

miércoles, 1 de octubre de 2014

Optimizar K-Means

Esta nota es una reproduccion de la clase publicada en este video

Si se quiere optimizar una segmentación de clientes con k-mean, una posible técnica es comparar las 4 variaciones del algoritmo incluidos en R para k-means y elegir la que tenga mejores resultados para los datos analizados. A esta técnica le dicen validación cruzada de métodos.

Las 4 variaciones del algoritmo son: Lloyd, Forgy, MacQueen y Hartigan-Wong. Para compararlas puede usarse la "distancia intracluster", que es la suma de las distancia entre los centroide. El algoritmo que tenga la mayor "distancia intracluster" sería el ganador ya que sería la mejor separación de grupos.

Las diferencias entre los 4 algoritmos se centran en la forma de elegir los centroides iniciales, y la forma que usan para la asignación de cada individuo al nuevo cluster. Para mas detalles, ver referencias No. 2 y 3.

Conceptualmente seria algo como: