viernes, 30 de septiembre de 2016

Conoce el alcance de tus resultados: el tamaño importa


¿Eres capaz de explicar el significado real (práctico) de los resultados de tu investigación?



El tamaño del efecto



El significado práctico de los resultados de una investigación se describe según el tamaño del efecto observado. Un efecto es el resultado de algo, un desenlace, una reacción o cambio. El tamaño del efecto es la magnitud del resultado. Es decir, permite dar una estimación del alcance de nuestros hallazgos. 

Muchas de nuestras decisiones diarias se basan en un análisis del tamaño del efecto. Tomamos un paraguas si percibimos una alta probabilidad de lluvia, por ejemplo.

La interpretación de los tamaños del efecto es cómo damos sentido al mundo.

En este sentido, los investigadores no son diferentes de cualquier otra persona. Lo que diferencia a un investigador es el cuidado que tiene éste para generar estimaciones precisas del tamaño del efecto. Pasamos una gran parte de nuestro tiempo buscando formas de reducir los errores de muestreo y medición, entre otras cosas, pero en última instancia, nuestro objetivo es una mejor comprensión de los efectos del mundo real.

Es esencial que interpretemos no sólo la significación estadística de los resultados (el ya archiconocido p-valor), sino también su significación práctica o real.

3 razones para informar sobre el tamaño del efecto:
  • El p-valor le puede decir la dirección de un efecto, pero sólo la estimación del tamaño del efecto le dirá lo grande que es.
  • Sin una estimación del tamaño del efecto, ninguna interpretación significativa puede tener lugar.
  • Permite comparar cuantitativamente los resultados de estudios realizados en diferentes situaciones.

Se trata de un paso esencial para interpretar los resultados de nuestro estudio y su ausencia en los artículos científicos se ha identificado como uno de los 7 fallos más comunes en investigación (según la APA).


Cuestiones como el tamaño muestral necesario para realizar un estudio, la intepretación de los resultados, la significación estadística y práctica de nuestros resultados, dependen del tamaño del efecto. La significación estadística depende del tamaño del efecto y del tamaño de la muestra que tenemos para estimarlo. 

Evaluar e informar sobre el alcance de los resultados de una investigación es esencial tanto para el progreso científico como para sus implicaciones prácticas.



¿Cómo se calcula el tamaño del efecto?



Podemos agrupar los tipos de tamaño de efecto en 2 familias de efectos:
  1. diferencias entre grupos (llamada "d")
  2. medidas de asociación (llamada "r").


Familia "d": diferencias entre grupos.


Podemos querer comparar variables dicotómicas o variables continuas entre grupos.

  • I) Cuando comparamos grupos según cierta variable numérica (e.g. edad, altura, coeficiente intelectual, recuento celular, etc.) la manera más sencilla es informar de la diferencia en las medias de cada grupo, pero debemos considerar cómo es la dispersión de los datos (la desviación típica) para evaluar qué tan grande es la diferencia (es una forma de estandarizarlo).

EJEMPLO: en un estudio sobre Alzheimer encontramos que el IQ medio para el grupo tratamiento es 13 puntos superior a la media del grupo control. Debemos preguntarnos sobre la dispersión de los valores IQ ya que si hay gran variabilidad en los datos entonces la diferencia de 13 puntos no es tan inusual, pero si la variabilidad es pequeña los 13 puntos reflejarán una diferencia sustancial entre los grupos.

Entonces, la manera más sencilla es calcular (M1-M2)/SD, la SD corresponde a la población de estudio.

Si desconocemos SD podemos utilizar valores aproximados. Existen 3 soluciones posibles:
    • 1) la "d" de Cohen: d=(M1-M2)/SDpooled
    • 2) la "delta" de Glass: delta=(M1-M2)/SDcontrol
    • 3) la "g" de Hedges: g=(M1-M2)/SD*pooled

Para elegir qué opción utilizar debemos evaluar la SD de cada grupo:
    • Si las SD de cada grupo son bastante similares, utilizar la "d" de Cohen. 
    • Si las SD difieren, no podemos asumir homogeneidad de varianza y no tiene sentido calcular una SD para el pool, por lo cual es mejor utilizar la SD del grupo control (que refleja la SD poblacional) como referencia y calcular la "delta" de Glass.
    • Si los grupos son de distinto tamaño habrá que calcular la SD poblacional ponderando por la cantidad de información que tenemos de cada grupo, en este caso utilizamos la "g" de Hedges.

Para la "d" de Cohen, que es el cálculo más habitual, un valor de 0.5 significa que las diferencias entre los dos grupos es equivalente a 1/2 de la SD, mientras que un valor de 1 significa que la diferencia es igual a la SD. Cuanto mayor sea el valor mayor es el efecto. Al estar estandarizada no tiene unidades, por lo cual podemos comparar los valores con otros estudios.


  • II) Cuando comparamos grupos según cierta variable dicotómica (e.g. tratamiento vs. control, éxito vs. fracaso, sí vs no, etc), las comparaciones se basan en la probablidad de que los miembros del grupo estén clasificados en una de las dos categorías.

EJEMPLO: tenemos un experimento médico donde tenemos la probabilidad de recuperación "p" en el grupo tratamiento y "q" en el control. Tenemos 3 formas de comparar estos grupos:
    • 1) calcular la diferencia de riesgo (p-q)
    • 2) calcular la proporción de riesgo o riesgo relativo (p/q)
    • 3) calcular la proporción de ventaja "odds ratio" (p/(1-p))/(q/(1-q))

Para elegir qué opción utilizar debemos evaluar:
    • La 1) es la más simple pero es la menos utilizada debido a que puede dar lugar a confundir la interpretación.
    • La 2) y la 3) son similares pero dan valores distintos, ambos comparan la verosimilitud de que un resultado ocurra en un grupo en comparación con el otro grupo, pero el definen esta probabilidad de manera distinta.
    • El 2) define la verosimilitud en términos de probabilidad mientras que 3) lo hace en términos de ventajas.

Familia "r": medir la fuerza de una relación.


Para evaluar el tamaño del efecto de una medida de asociación entre 2 o más variables utilizaremos el coeficiente de correlación "r".

  • El coeficiente de correlación "r" lineal de Pearson cuantifica la fuerza y dirección de la relación entre dos variables X e Y. Toma valores entre -1 (relación negativa) y 1 (relación positiva), donde el 0 indica que no existe relación lineal. Se trata de una métrica estandarizada por lo que nos permite compararla con otros estudios.
  • Existen otras medidas de tamaño del efecto para estos casos, por ejemplo: la correlación de Spearman (para variables numéricas, relaciones monotónicas o datos no normales; [-1,1]), la V de Cramer (para variables categóricas, tablas de contingencia; [0,1]), etc.
  • Cuando tenemos un análisis de regresión e identificamos la variable dependiente y la variable independiente podemos calcular el coeficiente de determinación "R2" como medida del tamaño del efecto. Este valor va de 0 a 100 y se expresa como % por lo cual también es una medida estandarizada que nos permite comparar los resultados con otros estudios.
  • Cuando tenemos un ANOVA e identificamos VD y VI podemos utilizar el valor de "eta2" que refleja la proporción de variación en la VD que viene explicada por la VI. También es una medida estandarizada.
  • Finalmente, en estos dos últimos casos existe una alternativa que es utilizar la "f" de Cohen que mide la dispersión de las medias entre los grupos de estudio en el ANOVA o el efecto de cada VI en el análisis de regresión.



¿Qué tan grande es grande?



Tenemos que contextualizar el tamaño del efecto según alguna referencia pero estos valores no deben ser arbitrarios sino que deben venir de la propia escala de medida con la que estemos trabajando.

Existen 3 métodos para la correcta interpretación del tamaño del efecto, llamadas las tres Cs:
  1. el contexto,
  2. la contribución
  3. el criterio de Cohen


1. El contexto.

En el contexto correcto un efecto pequeño puede ser significativo:
+ si desencadena grandes consecuencias o respuestas (e.g. devaluar la moneda puede desencadenar una crisis financiera, o cuando el aspecto físico influye en los votantes),
+ si cambia la idea de que grandes resultados pueden ocurrir (e.g. un caso de enfermedad por sika puede interpretarse como una señal de que está por ocurri una brote/epidemia)
+ si pequeños efectos pueden acumularse y producir grandes efectos (e.g. inflar correctamente las llantas de un coche mejora el consumo de gasolina en un 3%, pero si todos realizamos esta operación el ahorro energético del país será enorme).
+ si conduce a un cambio de paradigma (a nuevas formas de entender el mundo) o a un quiebre tecnológico (e.g. el descubrimiento de la penicilina por Fleming).

Esto ocurre, por ejemplo, cuando estamos probando un medicamento novedoso con implicaciones sociales importantes como en la cura del cáncer.

2. La contribución.

Una forma de interpretar los resultados de nuestra investigación es evaluar su contribución al conocimiento.
En este caso nos preguntamos si el efecto observado difiere de lo que otros investigadores han encontrado y si es así, en cuánto. Comparamos la bibliografía existente con nuestros resultados y damos explicaciones alternativas para nuestros hallazgos.
La importancia de un efecto depende de cuando ocurre, dónde ocurre y para quienes ocurre.

3. El criterio de Cohen.

Este criterio establece 3 puntos de corte para interpretar el tamaño del efecto según los valores del estadístico "d" de Cohen. Sin embargo, estos cortes han sido elaborados para el mundo de la psicología y no están libres de controversia.




¿Cómo informar del tamaño del efecto?



Cuestiones como el tamaño muestral necesario para realizar un estudio, la intepretación de los resultados, la significación estadística y práctica de nuestros resultados, dependen del tamaño del efecto. Por ello siempre debemos evaluar e informar del tamaño y dirección de los efectos estimados aún si los resultados no son significativos y si su efecto es pequeño.

Puedes informar del tamaño muestral en formato estándar (valores de correlación "r" o la "d" de Cohen, indicando claramente el tipo de medición que utiliza) o, si la variable que mides es importante en términos prácticos (e.g. número de vidas salvadas por el tratamiento), también menciona su efecto en términos no estandarizados. Esto permitirá que tus resultados sean "meta-analytically friendly", es decir, que quién lea tu investigación sea capaz de entender el alcance de tus resultados.

En definitiva, es importante realizar investigaciones rigurosas con estimaciones precisas del tamaño del efecto para transmitir adecuadamente nuestros resultados al resto de la población. Debemos ser claros en el significado práctico de nuestras investigaciones.



En este post te he resumido las principales recomendaciones que el profesor Paul D. Ellis nos cuenta en su libro "The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results." sobre cómo diseñar y llevar a cabo una buena investigación, para evaluar e informar sobre nuestros resultados. Puedes ver su impresionante currículum aquí ya que es considerado uno de los estudiosos más prolíficos en el mundo de los negocios internacionales.

Y tú, ¿informas del alcance de tus resultados? ¿cómo?




jueves, 29 de septiembre de 2016

Los 7 pecados estadísticos


Hoy quiero hablarte de 7 errores que estás cometiendo en tus análisis estadísticos sin seguramente darte cuenta. 


Descubre cuáles son estos 7 errores ahora mismo.






viernes, 23 de septiembre de 2016

Tamaño muestral y potencia estadística




¿Puedo confiar en mis resultados estadísticos?.

Cuando mis resultados no son significativos, ¿realmente no existe un efecto o es que el estudio no fue capaz de detectarlo? 

O, por el contrario, cuando tengo resultados significativos ¿son realmente tan positivos o es que el experimento sobreestima los efectos del tratamiento?

Y finalmente, ¿cómo necesitamos plantear nuestro estudio para obtener más chance de detectar efectos significativos?. 


Seguro que en algún momento te has tropezado con estas preguntas. ¡Quién no! Todas ellas tienen relación con la potencia estadística, que hoy intentaré explicarte en este post.

¿Qué es la potencia estadística?

Describe la probabilidad de que una prueba identifique correctamente un efecto genuino, real. Dicho de una manera más sencilla, es la capacidad de distinguir la señal del ruido. La señal que buscamos es el impacto de un tratamiento sobre algún resultado que nos interesa.
Imagina que se quiere estudiar la efectividad de un nuevo fármaco para la gripe. Buscamos probar su efectividad (señal). El ruido que nos preocupa proviene de la complejidad de los datos (qué tan variables son). Por ejemplo, habrá ruido en los resultados si la eficacia del fármaco depende fuertemente de la edad del individuo o de su sexo.

¿Para qué necesitamos conocer la potencia?

¿Realmente no hay efecto o es que el estudio no fue capaz de detectarlo? ¿los resultados son realmente tan positivos o es que el experimento sobreestima los efectos del tratamiento? si tu análisis tiene una baja potencia estadística los resultados suelen ser difíciles de interpretar.

Debemos plantear nuestros experimentos de tal manera de obtener un gran poder de contraste, y así estar seguros de que seremos capaces de evidenciar el efecto estudiado.


¿Cuál sería un valor aceptable de potencia?

Generalmente un valor de potencia de 0.80 es aceptable y se puede usar como punto de referencia. Los investigadores suelen diseñar sus experimentos de tal manera de que sus resultados sean significativos el 80% de las veces.


¿Cómo mejorar la potencia?

Los ruidos de tratamiento (problemas experimentales o de instrumento) y de fondo (respuestas con alta variabilidad) no se pueden controlar, pero sí podemos diseñar adecuadamente nuestro experimento de tal manera que obtengamos una potencia alta. 

La potencia de una prueba estadística está relacionada con:

  • El tamaño de la muestra "n": el número de casos o sujetos que participan del estudio.
  • El nivel de significación "alfa": la probabilidad de rechazar la hipótesis nula cuando ésta es verdadera (error tipo I o falso positivo). Se suele asumir un 5% o, lo que es lo mismo, un nivel de confianza del 95% (1-alfa).
  • El tamaño del efecto "d" o "r": es una medida del cambio en una respuesta. Simplificando un poco podemos calcular medidas que reflejen las diferencias de medias entre grupos (la diferencia de medias dividido la desviación estándar) o medidas que indiquen la relación entre variables (coeficiente de correlación), según nuestro objetivo.


Una baja potencia podría indicar un tamaño de muestra pequeño, un alfa menor o un tamaño del efecto pequeño, y lo contrario para una potencia alta.


Las dos caras de una misma moneda

Podemos afrontar el problema de la potencia estadística de dos maneras alternativas:

  1. Planteamiento a priori. Asumimos un nivel de significación (e.g. el 5%), un valor para la potencia deseada (e.g. 80%) y conocemos de estudios previos estimaciones del tamaño del efecto que se desea detectar. Por tanto, el objetivo es determinar cuántos sujetos  necesitamos considerar en la investigación para cumplir con estos criterios.
  2. Planteamiento a posteriori. Asumimos un nivel de significación (e.g. el 5%), tenemos una muestra de un tamaño determinado (lo que hemos podido realizar) y calculamos el tamaño del efecto observado en nuestro estudio. Deseamos conocer la potencia que ha tenido nuestro análisis para detectar ese tamaño del efecto en la investigación que hemos realizado.



UN EJEMPLO: CÁLCULOS A PRIORI Y A POSTERIORI

El siguiente ejemplo es una adaptación del libro "R in Action" de Robert Kabacoff (2011).

Imagine que medimos el tiempo de reacción de las personas ante unos cambios que se producen en un simulador. Tenemos dos grupos de sujetos, uno en los cuales los sujetos están a la vez hablando por teléfono y otros que no.

Queremos comparar el tiempo medio de reaccion de los participantes en ambos grupos.
Conocemos de la bibliografía que el tiempo de reacción tiene una desviación estándar (SD) de 1.25 segundos y que una diferencia en 1 segundo en el tiempo de reacción se considera una diferencia importante (el tamaño del efecto sería d=1/1.25=0.8 -la diferencia de medias dividido la SD-).

Para una potencia del 90% y un nivel de confianza del 95%, ¿cuántos participantes necesitamos en nuestro estudio? 

Si realizamos los cálculos, por ejemplo, con el paquete "pwr" de R, obtenemos:

library(pwr)
pwr.t.test(d=.8, sig.level=.05, power=.9, type="two.sample",alternative="two.sided")

34 sujetos en cada grupo (en total 68 sujetos) para detectar un tamaño de efecto de 0.8, con una potencia del 90% y un nivel de confianza del 95%. Este sería entonces un planteamiento a priori.

Supongamos ahora que consideramos que detectar un efecto de 0.5 en la diferencia entre las medias poblacionales es suficiente, que solo podemos incluir 40 participantes en el estudio y que utilizaremos un nivel de confianza del 99%. ¿cuál es la probabilidad de detectar diferencias entre las medias poblacionales? 

Asumiendo igual número de participantes en cada condición:

pwr.t.test(n=20, d=.5, sig.level=.01, type="two.sample",alternative="two.sided")

Tenemos menos de un 14% de probabilidad de encontrar diferencias de 0.625 segundos o menos (d=0.5=0.625/1.25) con 20 participantes en cada grupo, y un nivel de significación del 0.01. Es decir, tenemos 86% de probabilidad de no detectar el efecto que estamos buscando.

Esto nos hace replantearnos el tiempo y esfuerzo de nuestro estudio tal y como está planteado. Este sería un planteo a posteriori.



SITUACIONES NUEVAS: ¿cómo elegir el tamaño de efecto apropiado?

Determinar el tamaño del efecto es el paso más difícil en el análisis de la potencia y tamaño muestral.

Lo ideal es utilizar la experiencia en el tema investigado.

Sin embargo, en algunas situaciones la investigación es completamente nueva y no tenemos datos de investigaciones previas.

En estos casos Cohen (1988) propone ciertas reglas para esablecer lo que llamaremos efectos de tamaños pequeño, medio y largo para las pruebas estadísticas.

Sin embargo hay que tener cuidado ya que es un rango creado para investigaciones sociales y puede que no sean aplicables a vuestro campo de investigación.

Una alternativa es variar los parámetros y observar el impacto de estos campos en el tamaño muestral y el poder estadístico.




OTRO EJEMPLO: SITUACIONES NUEVAS

Queremos comparar 5 grupos, con 25 sujetos por grupo, para un nivel de significación del 5%.

Calculamos la potencia de la prueba para distintos valores de tamaño de efecto (f):


pwr.anova.test(k=5,n=25,f=0.10,sig.level=.05) #power = 0.1180955
pwr.anova.test(k=5,n=25,f=0.25,sig.level=.05) #power = 0.5738
pwr.anova.test(k=5,n=25,f=0.40,sig.level=.05) #power = 0.9569163

La potencia será de 11.8% para detectar un efecto pequeño, 57.4% para detectar un efecto moderado y 95.7% para detectar un efecto grande.

Dada la limitación de los tamaños muestrales, solo podremos tratar de encontrar un efecto grande.



Veamos ahora la sensibilidad de nuestros parámetros.

Calculemos los tamaños muestrales necesarios para detectar el rango del tamaño del efecto.


library(pwr)
es <- seq(.1, .5, .01)
nes <- length(es)
samsize <- NULL
for (i in 1:nes){
result <- pwr.anova.test(k=5, f=es[i], sig.level=.05, power=.9)
samsize[i] <- ceiling(result$n)
}
plot(samsize,es, type="l", lwd=2, col="red",ylab="Effect Size",xlab="Sample Size (per cell)", main="One Way ANOVA with Power=.90 and Alpha=.05")

Este gráfico nos permite estimar el impacto de cambiar las condiciones de nuestro diseño experimental.

Podemos ver que en este caso, para 5 grupos experimentales, invertir dinero en aumentar el tamaño muestral encima de 200 observaciones por grupo no es útil.



GRÁFICOS DE LA POTENCIA ESTADÍSTICA

ÚLTIMO EJEMPLO: Tamaño muestral

Vamos a utilizar un ejemplo para graficar el tamaño muestral que necesitaríamos utilizar en una investigación según los valores del tamaño del efecto (en este caso medido mediante el coeficiente de correlación) y la potencia estadística asumida.

Es decir, queremos determinar el tamaño muestral necesario para decidir si el coeficiente de correlación es estadísticamente significativo, según un rango de valores de tamaño de efecto y poder estadístico:


library(pwr)

# Set range of correlations & power values
r <- seq(.1,.5,.01)
nr <- length(r)
p <- seq(.4,.9,.1)
np <- length(p)

# Obtain sample sizes 
samsize <- array(numeric(nr*np), dim=c(nr,np))
for (i in 1:np){
for (j in 1:nr){
result <- pwr.r.test(n = NULL, r = r[j],sig.level = .05, power = p[i], alternative = "two.sided")
samsize[j,i] <- ceiling(result$n) 
}
}

# Set up graph 
xrange <- range(r)
yrange <- round(range(samsize))
colors <- rainbow(length(p))
plot(xrange, yrange, type="n",xlab="Correlation Coefficient (r)",ylab="Sample Size (n)" )
# Add power curves
for (i in 1:np){
lines(r, samsize[,i], type="l", lwd=2, col=colors[i])
}
# Add annotations
abline(v=0, h=seq(0,yrange[2],50), lty=2, col="grey89")
abline(h=0, v=seq(xrange[1],xrange[2],.02), lty=2,col="gray89")
title("Sample Size Estimation for Correlation Studies\n
Sig=0.05 (Two-tailed)")
legend("topright", title="Power", as.character(P), fill=colors)

Observamos que necesitamos un tamaño muestral de aproximadamente 75 para detectar una correlación de 0.20 con un 40% de confianza.

También necesitamos 185 observaciones más (n=260) para detectar la misma correlación con 90% de confianza.

Este gráfico puede utilizarse también para otro tipo de pruebas estadísticas, solo basta con modificar algunos pasos.







¿Te ha parecido útil el post? ¿conocías la importancia de la potencia estadística? ¿cómo calculas el tamaño muestral de tu investigación? ¡deja tu comentario! 



Referencias de interés:

   * Cohen, Jacob (1988). "Statistical power analysis for the behavioral sciences" (2nd ed.). Hillsdale, NJ: Lawrence Earlbaum Associates.






miércoles, 21 de septiembre de 2016

¿CÓMO SER PRECISO EN TUS ANÁLISIS DE DATOS?





UNA PREGUNTA CON TRAMPA


Si te pregunto qué medida describe mejor un conjunto de datos, ¿qué respondes?

La mayoría de las personas diría rápidamente… ¡la media!, pero veamos si es la respuesta correcta. 

Supongamos que tenemos los siguientes datos:

10,10,11,12,12,13,14,15,15,15,16,18,19

Calculamos su media, que es 13,84615.

¿Pero qué pasa si cambiamos un dato? cambiemos el último número.

10,10,11,12,12,13,14,15,15,15,16,18,57

Volvemos a calcular la media, que ahora es 16,76923, bastante superior a la anterior.

Con tan solo mover un valor lejos del resto, ¡la media lo seguirá!.

Este ejemplo indica que la robustez (¡vaya palabro!) del estimador es importante cuando tenemos datos atípicos (u outliers) y también cuando no queremos que un dato tenga más influencia que los demás en los cálculos.

Los datos atípicos "pesan más" que los datos cercanos a la media. 
No considerar un dato extremo tiene mayores consecuencias en la estimación de la media que eliminar un datos de la región con mayor densidad.

¡Un solo valor es suficiente para influenciar enormemente 
la media del conjunto de datos!





¿QUÉ PODEMOS SOLUCIONAR EL PROBLEMA DE LOS DATOS ATÍPICOS?


Si hemos corroborado que estos valores atípicos no se deben a un error a la hora de construir la base de datos o en la medición de la variable, eliminarlos no es la solución. 

Si no se debe a un error, eliminarlo o sustituirlo puede modificar las inferencias que se realicen a partir de esa información, debido a que introduce un sesgo y a que disminuye el tamaño muestral.

Además, ¡en la variabilidad de los datos reside el tesoro de nuestra investigación! 

Es decir, la variabilidad (diferencias en el comportamiento de un fenómeno) debe explicarse no eliminarse. Y si aún no puedes explicarla al menos debes poder disminuir la influencia de los valores atípicos en tus datos.

Los métodos estadísticos robustos son técnicas modernas que hacen frente a estos problemas. Son similares a los clásicos pero se ven menos afectados por la presencia de valores atípicos o variaciones pequeñas respecto a las hipótesis de los modelos. 



ALTERNATIVAS A LA MEDIA


Si calculamos la mediana (el valor central de una muestra ordenada) a ambos conjuntos de datos tenemos: 14 para el primero y 14 para el segundo. Vemos que este estadístico de centralidad no se ha visto perturbado por la presencia de un valor extremo, por lo tanto, es más robusto.
Veamos otras alternativas...

La media recortada (trimming) "desecha" los valores extremos. Es decir, se elimina del análisis una fracción de los datos en cada cola de la distribución. La media recortada para nuestro caso valdría 13,66667.

La media winsorizada, mediante el método Huber (M-estimación) hace mejor uso de la información de los datos. Aquí, progresivamente se reemplazan valores extremos por otros menos extremos. Se analiza cada valor y si es superior a med+1,5*mad se reemplaza por dicho valor, sino se deja tal cual está, donde med=mediana y mad=desviación absoluta respecto a la mediana. Se llama valor de truncamiento al valor 1,5 de la ecuación. En nuestro caso, la media winsorizada de la primer y segunda muestra sería la misma 13,78732.

La media ponderada nos permite asignar un peso determinado a cada observación en el cálculo de la media, y por tanto podemos dar menor peso a los datos extremos. Por ejemplo, podemos darle un peso de 0,8 para los 12 primeros valores y de 0,4 al último, que corresponde al valor extremo. Así, el resultado de la media ponderada es 15,16.

Vemos que todas estas estimaciones robustas representan mejor a la muestra y se ven menos afectadas por los datos extremos.



UN POCO MÁS ALLÁ… LA INFERENCIA


El problema de los datos extremos se extiende a cuando queremos hacer contrastes de hipótesis y regresiones.



Los procedimientos clásicos son bastante sensibles al incumplimiento de los supuestos de los modelos y a la presencia de outliers. Cuando los datos no cumplen con estos supuestos disminuye la capacidad de detectar efectos reales (afecta al p-valor, al tamaño del efecto y a los intervalo de confianza estimados). 

¡Toda la interpretación de tus datos puede ser errónea!.

Además, eliminar sin más estos datos extremos no es un procedimiento ni simple ni correcto. Eliminar los valores extremos reduce el tamaño de la muestra y puede afectar tanto a la distribución como a las varianzas. 

La mejor opción es quitarle peso a esas observaciones atípicas mediante técnicas robustas.


Razones para utilizar pruebas robustas
  • Son estables respecto a pequeñas desviaciones del modelo paramétrico asumido (normalidad y homocedasticidad). A diferencia de los procedimientos no paramétricos, los procedimientos estadísticos robustos no tratan de comportarse necesariamente bien para una amplia clase de modelos, pero son de alguna manera óptimos en un entorno de cierta distribución de probabilidad, por ejemplo, normal.
  • Solucionan los problemas de influencia de los outliers.
  • Son más potentes que las pruebas paramétricas y no paramétricas cuando los datos no son normales y/o no son homocedásticos.


Entonces, si los beneficios son tan importantes, ¿por qué se utilizan poco los métodos robustos? 

La mayoría de los investigadores no son conscientes de las serias limitaciones de los métodos clásicos, no saben cómo comprobar sus supuestos y/o no están familiarizados con alternativas modernas como los métodos robustos. Además, la mayoría de los softwares estadísticos no permiten calcular estadísticos y pruebas robustas fácilmente (¡a excepción de R!).


Ahora sí, hay casos donde no es recomendable utilizar los estadísticos robustos.

Estos métodos suponen que la distribución subyacente es más o menos normal (unimodal y simétrica) pero perturbada por valores extremos. Por lo tanto, no son demasiado útiles si se aplican a datos que presentan una marcada distribución  multimodal o sesgada. Que no es el caso de nuestro ejemplo.


Y tú, ¿conocías la estadística robusta?

viernes, 16 de septiembre de 2016

Libros recomendados! Estadística & R






Hoy vengo con una lista de libros recomendados para leer en cualquier momento de tu carrera profesional porque son algunos de los mejores y más leídos libros de Estadística con R.

Todos los libros que te enseño son excelentes, no hay un orden de importancia, pero sí hay diferencias en la complejidad de cada uno. 

Te dejo los links para que puedas encontrarlos en la web rápidamente.

La lista la iré actualizando según lea otros libros destacados que me parezcan imprescindibles.



Voy a comentarte cada libro para que sepas si está hecho para ti.




PARA PRINCIPIANTES

   Introductory Statistics with R de Peter Dalgaard. Es un curso de Estadística básica con R que logra su objective, es rápido y una buena referencia para comenzar. Utiliza mucho ejemplos para su desarrollo y puedes descargarte un paquete que contiene todos los datos. 

   Using R for Introductory Statistics de John Verzani. Es un libro de R básico que se divide en pequeños pasos orientados a la realización de tareas. Tiene un paquete propio que se llama UsingR, disponible en el CRAN, con los datos mencionados en el texto, las respuestas a los problemas, algunas demostraciones y código. Es de acceso público: https://cran.r-project.org/doc/contrib/Verzani-SimpleR.pdf.

   An Introduction to R de W.N. Venables, D. M. Smith & the R Core Team. Es una introducción al lenguaje R y cómo utilizarlo para el análisis estadístico y gráfico. Es simple, corto y al grano, pero termina siendo más una guía de referencia que un buen libro. Es de acceso público: https://cran.r-project.org/doc/manuals/R-intro.pdf

   R for Beginners de Emmanuel Paradis. Es un buen punto de partida para aprender R, sencillo. Es de acceso público:  https://cran.r-project.org/doc/contrib/Paradis-rdebuts_en.pdf

   A first course in statistical programming with R de W.J. Braun & D.J. Murdoch. Es una buena introducción para emperzar a programar en R. Está escrito por uno de los integrantes del R Core Team. Cuenta con una buena colección de ejercicios y no asume conocimientos previos de estadística ni programación. Sin embargo algunos ejemplos son más estadísticos que de casos reales.   

   The R Book de Michael J. Crawley. Una guía exteeeensa sobre la estadística aplicada en R, puedes encontrar de todo en este libraco. Es bastante sencillo de seguir.

   A Beginner´s Guide to R de Alan Zuur. Me gusta mucho este autor, tal vez porque trabaja con Estadística aplicada en Ecología, mi campo. Este libro sin embargo es tan solo una introducción a R que no asume conocimientos previos de estadística ni de R. El único contra es que es un poco lento para avanzar.




NIVEL INTERMEDIO


   Discovering Statistics Using R de Andy Field & Jeremy Miles. Es un libro muy interesante, con humor y autocrítica. Cubre desde la estadística básica hasta niveles más avanzados como el MANOVA y los modelos multinivel. Utiliza muchos ejemplos de la vida real y bien editados.

   A Handbook of Statistical Analyses Using R (2nd ed.) de B.S. Everitt & T. Hothorn. Es un libro muy demandado y bastante completo, que te sitúa en el background estadístico de cada tema con buenas referencias. 

   Data Analysis and Graphics Using R: An Example-based Approach de J. Maindonald & J. Braun. Como indica el título trata del análisis de datos y gráficos mediante ejemplos, digamos que corresponde a un curso intermedio de estadística. 

   R in a Nutshell de Joseph Adler. Es una guía sencilla y práctica sobre el lenguaje R. Tiene una gran cantidad de ejemplos para cada paso. Es muy interesante aunque un poco pesado para principiantes.

   Modern Applied Statistics with S de W.N. Venables & B.D. Ripley. Una buy buena introducción a la estadística moderna. Está escrito para el language S pero el código es buy similar al de R, por eso lo agrego a la lista.


     SOBRE TEMAS ESPECÍFICOS: GRÁFICOS

   R Graphics (2nd ed.) de Paul Murrell. Es un libro interesante sobre cómo realizar gráficos en R, aplica el paquete lattice, pero no toca el tema de ggplot2 (lo cual creo que es un gran fallo). 

   R Graphics Cookbook de Winston Chang. Sobre gráficos y manipulación de datos, detalla las ventajas y desventajas de los distintos métodos. Focaliza en el paquete ggplot2, lo cual es una gran gran ventaja a mi entender. Da 150 "recetas" para generar gráficos de alta calidad y rápidamente.

   ggplot2 de Hadley Wickham. Buen libro sobre el paquete ggplot2.




NIVEL AVANZADO


     SOBRE TEMAS ESPECÍFICOS

   An R Companion to Applied Regression de John Fox & Sanford Weisberg. Muy bueno. Sobre cómo realizar análisis de regresión utilizando R. Es una guía paso a paso desde el análisis exploratorio de los datos, pasando por los modelo lineales, modelos lineales generalizados hasta los gráficos. Asume que el lector está familiarizado con los métodos estadísticos que describe. Utiliza el paquete propio car.
   Linear Models with R y Extending the Linear Model with R: Generalized Linear, Mixed Effects and Nonparametric Regression Models, ambos de J.J. Faraway. Los dos son libros muy buenos. Tienen además un suplemento práctico y gratuito (https://cran.r-project.org/doc/contrib/Faraway-PRA.pdf). Estos libros atacan directamente al tema del título, ponen el foco en la práctica de la regresión y análisis de varianza, no dan rodeos como otros tantos libros. Asume que el lector tiene conocimientos previos del tema; puede ser tedioso para el principiante. 

   Mixed Effects Models and Extensions in Ecology with R (2009) de Zuur, Ieno. Walker, Saveliev & Smith. Cubre todo tipo de modelos LM, GLM, GAM, GEE, GLMM, GAMM. Un gran libro sobre modelos mixtos, ya he dicho que este autor me gusta mucho.

   Data Analysis Using Regression and Multilevel/Hierarchical Models, de Andrew Gelman & Jennifer Hill. Un gran libro sobre modelos estadísticos, práctico y profundo. 

   Introductory Time Series with R de Paul S.P. Cowpertwait & Andrew C. Metcalfe. Muy buena introducción al análisis de series temporales.

   Time Series Analysis with Applications in R de Jonathan D. Cryer & Kung-Sik Chan. Otra buena introducción al análisis de series temporales, paso a paso y con burn código en R.

   Applied Spatial Data Analysis, de R. Bivand, Roger S., Pebesma, Edzer, Gómez-Rubio, Virgilio. Desde cómo acceder y visualizar datos espaciales hasta cómo utilizar GRASS GIS desde R y realizar modelos avanzados. Muy interesante y con varios ejemplos de aplicación sencillos.



Deja tus comentarios sobre estos u otros libros que leer sobre Estadística con R que estén en tu ranking de favoritos. 

Me interesa tu opinión!