miércoles, 21 de septiembre de 2016

¿CÓMO SER PRECISO EN TUS ANÁLISIS DE DATOS?





UNA PREGUNTA CON TRAMPA


Si te pregunto qué medida describe mejor un conjunto de datos, ¿qué respondes?

La mayoría de las personas diría rápidamente… ¡la media!, pero veamos si es la respuesta correcta. 

Supongamos que tenemos los siguientes datos:

10,10,11,12,12,13,14,15,15,15,16,18,19

Calculamos su media, que es 13,84615.

¿Pero qué pasa si cambiamos un dato? cambiemos el último número.

10,10,11,12,12,13,14,15,15,15,16,18,57

Volvemos a calcular la media, que ahora es 16,76923, bastante superior a la anterior.

Con tan solo mover un valor lejos del resto, ¡la media lo seguirá!.

Este ejemplo indica que la robustez (¡vaya palabro!) del estimador es importante cuando tenemos datos atípicos (u outliers) y también cuando no queremos que un dato tenga más influencia que los demás en los cálculos.

Los datos atípicos "pesan más" que los datos cercanos a la media. 
No considerar un dato extremo tiene mayores consecuencias en la estimación de la media que eliminar un datos de la región con mayor densidad.

¡Un solo valor es suficiente para influenciar enormemente 
la media del conjunto de datos!





¿QUÉ PODEMOS SOLUCIONAR EL PROBLEMA DE LOS DATOS ATÍPICOS?


Si hemos corroborado que estos valores atípicos no se deben a un error a la hora de construir la base de datos o en la medición de la variable, eliminarlos no es la solución. 

Si no se debe a un error, eliminarlo o sustituirlo puede modificar las inferencias que se realicen a partir de esa información, debido a que introduce un sesgo y a que disminuye el tamaño muestral.

Además, ¡en la variabilidad de los datos reside el tesoro de nuestra investigación! 

Es decir, la variabilidad (diferencias en el comportamiento de un fenómeno) debe explicarse no eliminarse. Y si aún no puedes explicarla al menos debes poder disminuir la influencia de los valores atípicos en tus datos.

Los métodos estadísticos robustos son técnicas modernas que hacen frente a estos problemas. Son similares a los clásicos pero se ven menos afectados por la presencia de valores atípicos o variaciones pequeñas respecto a las hipótesis de los modelos. 



ALTERNATIVAS A LA MEDIA


Si calculamos la mediana (el valor central de una muestra ordenada) a ambos conjuntos de datos tenemos: 14 para el primero y 14 para el segundo. Vemos que este estadístico de centralidad no se ha visto perturbado por la presencia de un valor extremo, por lo tanto, es más robusto.
Veamos otras alternativas...

La media recortada (trimming) "desecha" los valores extremos. Es decir, se elimina del análisis una fracción de los datos en cada cola de la distribución. La media recortada para nuestro caso valdría 13,66667.

La media winsorizada, mediante el método Huber (M-estimación) hace mejor uso de la información de los datos. Aquí, progresivamente se reemplazan valores extremos por otros menos extremos. Se analiza cada valor y si es superior a med+1,5*mad se reemplaza por dicho valor, sino se deja tal cual está, donde med=mediana y mad=desviación absoluta respecto a la mediana. Se llama valor de truncamiento al valor 1,5 de la ecuación. En nuestro caso, la media winsorizada de la primer y segunda muestra sería la misma 13,78732.

La media ponderada nos permite asignar un peso determinado a cada observación en el cálculo de la media, y por tanto podemos dar menor peso a los datos extremos. Por ejemplo, podemos darle un peso de 0,8 para los 12 primeros valores y de 0,4 al último, que corresponde al valor extremo. Así, el resultado de la media ponderada es 15,16.

Vemos que todas estas estimaciones robustas representan mejor a la muestra y se ven menos afectadas por los datos extremos.



UN POCO MÁS ALLÁ… LA INFERENCIA


El problema de los datos extremos se extiende a cuando queremos hacer contrastes de hipótesis y regresiones.



Los procedimientos clásicos son bastante sensibles al incumplimiento de los supuestos de los modelos y a la presencia de outliers. Cuando los datos no cumplen con estos supuestos disminuye la capacidad de detectar efectos reales (afecta al p-valor, al tamaño del efecto y a los intervalo de confianza estimados). 

¡Toda la interpretación de tus datos puede ser errónea!.

Además, eliminar sin más estos datos extremos no es un procedimiento ni simple ni correcto. Eliminar los valores extremos reduce el tamaño de la muestra y puede afectar tanto a la distribución como a las varianzas. 

La mejor opción es quitarle peso a esas observaciones atípicas mediante técnicas robustas.


Razones para utilizar pruebas robustas
  • Son estables respecto a pequeñas desviaciones del modelo paramétrico asumido (normalidad y homocedasticidad). A diferencia de los procedimientos no paramétricos, los procedimientos estadísticos robustos no tratan de comportarse necesariamente bien para una amplia clase de modelos, pero son de alguna manera óptimos en un entorno de cierta distribución de probabilidad, por ejemplo, normal.
  • Solucionan los problemas de influencia de los outliers.
  • Son más potentes que las pruebas paramétricas y no paramétricas cuando los datos no son normales y/o no son homocedásticos.


Entonces, si los beneficios son tan importantes, ¿por qué se utilizan poco los métodos robustos? 

La mayoría de los investigadores no son conscientes de las serias limitaciones de los métodos clásicos, no saben cómo comprobar sus supuestos y/o no están familiarizados con alternativas modernas como los métodos robustos. Además, la mayoría de los softwares estadísticos no permiten calcular estadísticos y pruebas robustas fácilmente (¡a excepción de R!).


Ahora sí, hay casos donde no es recomendable utilizar los estadísticos robustos.

Estos métodos suponen que la distribución subyacente es más o menos normal (unimodal y simétrica) pero perturbada por valores extremos. Por lo tanto, no son demasiado útiles si se aplican a datos que presentan una marcada distribución  multimodal o sesgada. Que no es el caso de nuestro ejemplo.


Y tú, ¿conocías la estadística robusta?