sábado, 12 de septiembre de 2009

Análisis Multidimensional

Relaciones entre 2 atributos:

1) construcción de tabla de doble entrada y prueba de independencia de chi-cuadrado.
.Table < −xtabs(∼Survived+Class, data=Datos)
totPercents(. Table) # Percentage of Total
.Test <- chisq.test(.Table, correct=FALSE)
El estadístico no está acotado en un rango de valores que permita interpretar la intensidad de la relación, por lo que se debe recurrir a algún coeficiente derivado que esté acotado. Los más usuales son el coeficiente de contingencia y el coeficiente de Cramer, ambos acotados en el intervalo [0, 1).

2) coeficiente de contingencia: C= mean(X)^2/(X2+n), donde n es el tamaño muestral.
ftable(mydata,row.vars,col.vars)

3) contrastes de hipótesis (más adelante)

4) para visualizar la relación entre las variables: diagrama de barras
Tabla <-xtabs(∼ Survived+Class, data=Datos) #tabla de conting.
barplot(Tabla), beside=TRUE,col=cm.colors(2)) #en valores abs.
Una alternativa para apreciar la relación existente entre los dos atributos es construir el diagrama de barras de las frecuencias relativas, o porcentajes de supervivencia respecto a cada clase, en lugar de usar las frecuencias absolutas.
Tabaux <-colPercents(Tabla) #tabla de porcent.,%tot y f marginal
Tablarel <-Tabaux[1:2][1:4] #tabla de porcent. (solamente)
barplot(Tablarel), beside=TRUE,col=cm.colors(2)) #en valores %.

5) Gráfico de mosaico
mosaicplot(mydata)

Relaciones entre 2 variables:
Se construye una función de ajuste (cómo una variable –causa, indep o explicativa- explica el comportamiento de la otra variable –efecto, depend, explicada-). La idea de ajuste implica la selección de un modelo matemático que aproxime lo mejor posible la relación entre las variables, mientras que el concepto de regresión hace referencia a la idea de predecir mediante alguna regla, un valor de la variable dependiente para cada valor de la independiente.
Predicciones: interpolaciones/extrapolaciones
Análisis de bondad de ajuste: coeficiente de determinación R2 (para el caso del ajuste lineal, se utiliza el coeficiente de correlación lineal r, r2=R2).
Análisis de residuos del modelo: (en contrucción)