viernes, 31 de julio de 2015

Apuntes sobre R script

NOTA: Esta lista de script se actualiza constantemente


Guardar y leer archivos enformato de R (RDS)
saveRDS(datos_1, file = "C:/Carpeta/datos.rds")
datos    <-   readRDS("C:/Carpeta/datos.rds")


Identificar columnas con Valores Vacios en un DataFrame
VarSinDatos <- apply(Train,2,function(x)  min(nchar(x)))
VarSinDatos <- VarSinDatos[VarSinDatos==0]
print(VarSinDatos)


domingo, 19 de julio de 2015

Reglas de Asociacion

Si se quiere encontrar una asociación entre productos (o alguna otra cosa), puede usarse las Reglas de Asociación (también llamado Association Rule Learning), para identificar si la compra de unos productos está asociada con la compra de otros. A esto también le dicen Basket Analysis.

El resultado que se quiere seria este:







donde:
lhs: (left-hand-sides) es la parte izquierda de la regla, o antecedente (producto/s que "causa" la compra de otro producto)
rhs: ( right-hand-sides ) es la parte derecha de la regla, o resultado (producto comprado como "consecuencia" de otro producto)
Support:  es la frecuencia relativa de una regla sobre el total de transacciones
Confidence: mide qué tan confiable es la suposición hecha por la regla, es decir: que tantas veces sucede el rhs cuando se presenta el lhs, para cada regla.
Lift: mide si la regla se debió al azar. Calcula el ratio entre la confianza de la regla y el consecuente de la regla o rhs.

Notas:
Para métricas de mayor especificidad, ver Referencia No.3
El xls con los gráficos se puede descargar AQUI


El proceso conceptual en R sería así:

1. Transformación de datos













2. Generación de reglas y gráficos
















sábado, 11 de julio de 2015

Un ejemplo de PageRank

Si se tienen datos de interacciones de usuarios (o interacciones entre paginas, cuentas bancarias, redes sociales, etc.) puede calcularse la Importancia o relevancia de cada usuario usando el algoritmo PageRank.


Conceptualmente seria así:





















sábado, 4 de julio de 2015

Ensamble de RandomForest + SVM + C5

El siguiente script hace una combinación o ensamble de las predicciones de 3 algoritmos: randomForest, SVM, y C5.

NOTA: Los ensambles tienen mejor resultado cuando los modelos no están correlacionados entre sí, es decir que cada modelo explora diferentes hipótesis sobre los datos. Para conceptos sobre ensamble y bagging, ver nota publicada AQUI


Conceptualmente el ensamble seria así:
















El excel con imagen puede descargarse AQUI