sábado, 9 de abril de 2016

Agregar variables de PCA

Una forma de redefinir las variables  es usar Analisis de Componentes Principales (o PCA por Principal Component Analysis), que es una combinación lineal de las variables originales que busca resumir todas las variables en unas pocas variables combinadas. Muchas veces, agregar los componentes principales al data set mejora los resultados de los algoritmos predictivos, ya que se agrega otra representacion de los datos, donde las variables del PCA representan un hiperplano ortogonal, es deecir, variables no correlacionadas entre si. Para detalle del PCA ver nota y referencias publicadas AQUI.

El siguiente script calcula los componentes principales de un data set, y agrega únicamente los componentes principales para tener el 99% de la proporción de la variabilidad.

Conceptualmente seria así:






















....



# LIBRERIA Y DATOS
# ----------------------------------------------------------------------
library(C50);
data(churn)
df <-  churnTrain
 
 
# ANALISIS DE COMPONENTES PRINCIPALES
# ----------------------------------------------------------------------
pca          <- prcomp(df[,6:19])
prop_acum    <- summary(pca)$importance[3,]
pca_v        <- prop_acum[prop_acum <= 0.999 ]
 
 
# Dataset Original + PCA
# ----------------------------------------------------------------------
df2          <- cbind(df, pca$x[,1:length(pca_v)])


4 comentarios:

  1. Great blog! Sometime post it also in English please :D

    ResponderEliminar
    Respuestas
    1. thanks for the comment about the blog, Alberto. i will tray post some in inglish. regarts

      Eliminar
  2. si , tengo un data set para probar el modelo ajustado adicionando la matrix de componentes, ese data set debe también debo aplicar el acp?

    ResponderEliminar