domingo, 3 de julio de 2016

Analisis de Componentes Principales


El Análisis de Componentes Principales (ACP o PCA en ingles) es una técnica de reducción de la dimensionalidad que busca extraer toda la información de un data set en unas pocas variables no correlacionadas entre si.

La información puede considerarse como la cantidad de grados de libertad que tiene “una vaiable”, y la varianza puede ser una medida que nos de una aproximacion de qué tanta información tiene una variable. Conceptualmente seria así:





















Los componentes principales de un data set de dos variables seria algo así:



















Otra forma de visualizarlo seria esta:


















Algunas notas sobre el calculo de Componentes Principales:




















PASOS para encontrar autovalores de una matriz de correlacion/varianza:

Calculo de la matriz de correlacion/varianza:

















NOTA: Si todos los valores de la matriz de correlación/covarianza son igual a cero, todos los componentes aportaran la misma información y serán igual al data set, por lo cual los componentes no reducirían la información y no tiene sentido calcularlos para este fin.






































































El siguiente paso (a cubrir en una 2da nota del blog) es encontrar los autovectores propios de cada autovalor ya enocntrado. 


Notas adicionales:
Los Autovalores son el resultado de encontrar el determinante de la matriz A - λI = 0, (que es la matriz de covarianza o correlación menos la matriz de identidad de A multiplicada por lambda y luego igualado a cero).
Si existe correlación entre las variables, entonces pocos componentes agruparan la información
del data set.
La suma de todos los autovalores es igual al total de la varianza de los Componentes.
Para identificar la cantidad optima de componentes a utilizar, puede ser útil hacer un "gráfico de codo". En este gráfico el eje y seria la proporción acumulada de varianza, y el eje x seria la cantidad de componentes.

La ppt con imagenes puede descargarse AQUI  y excel  AQUI

Referencias
Documentos:
1. http://www.uco.es/zootecniaygestion/img/pictorex/09_13_27_sesion_9.pdf
2. https://estadisticaorquestainstrumento.wordpress.com/2012/12/29/tema-17-analisis-de-componentes-principales/
3. https://www.uam.es/personal_pdi/ciencias/dfaraco/docencia/AD/ComponentesPrincipales.pdf
4. http://es.slideshare.net/climancc/diagonalizacion-de-matrices

Videos
1.https://www.youtube.com/watch?v=fJPRuscLazE
2.https://www.youtube.com/watch?v=VzPpJXISz-E&list=PLrJ0D2kemSl44SqSXlvyM4cjy7JbM__6u&index=2#t=515.978024
3. https://www.youtube.com/watch?v=IdsV0RaC9jM

Visualizacion dinamica de PCA:
http://setosa.io/ev/principal-component-analysis/




No hay comentarios:

Publicar un comentario