Bootstrapping: ¿necesito eliminar primero los valores atípicos?

Pregunta:

Hemos realizado una prueba dividida de una nueva función de producto y queremos medir si el aumento de los ingresos es significativo. Nuestras observaciones definitivamente no están distribuidas normalmente (la mayoría de nuestros usuarios no gastan, y dentro de los que sí lo hacen, están fuertemente sesgadas hacia muchos pequeños gastadores y unos pocos grandes gastadores).

Hemos decidido utilizar bootstrapping para comparar los medios, para solucionar el problema de que los datos no se distribuyen normalmente (pregunta lateral: ¿es este un uso legítimo de bootstrapping?)

Mi pregunta es, ¿necesito recortar los valores atípicos del conjunto de datos (por ejemplo, los pocos que gastan mucho) antes de ejecutar el bootstrapping, o eso no importa?

Respuesta:

Antes de abordar esto, es importante reconocer que la mala práctica estadística de "eliminar valores atípicos" se ha promulgado erróneamente en gran parte de la pedagogía estadística aplicada. Tradicionalmente, los valores atípicos se definen como observaciones de alto apalancamiento y alta influencia. Uno puede y debe identificar tales observaciones en el análisis de datos, pero esas condiciones por sí solas no justifican la eliminación de esas observaciones. Un "valor atípico verdadero" es una observación de alto apalancamiento / alta influencia que es inconsistente con las réplicas del diseño experimental. Para considerar una observación como tal se requiere un conocimiento especializado de esa población y la ciencia detrás del "mecanismo de generación de datos". El aspecto más importante es que debería poder identificar posibles valores atípicos a priori .

En cuanto al aspecto de bootstrap de las cosas, el bootstrap está destinado a simular extracciones repetidas e independientes de la población de muestreo. Si preespecifica los criterios de exclusión en su plan de análisis, aún debe dejar los valores excluidos en la distribución de muestreo de arranque de referencia . Esto se debe a que tendrá en cuenta la pérdida de energía debido a la aplicación de exclusiones después de muestrear sus datos. Sin embargo, si no hay criterios de exclusión preespecificados y los valores atípicos se eliminan mediante la adjudicación post hoc , como obviamente me estoy oponiendo, la eliminación de estos valores propagará los mismos errores de inferencia que se producen al eliminar los valores atípicos.

Considere un estudio sobre riqueza y felicidad en una muestra aleatoria simple no estratificada de 100 personas. Si tomáramos la declaración, "el 1% de la población posee el 90% de la riqueza del mundo" literalmente, entonces observaríamos, en promedio, un valor muy influyente. Supongamos además que, más allá de proporcionar una calidad de vida básica, no hubiera un exceso de felicidad atribuible a mayores ingresos (tendencia lineal no constante). Entonces, este individuo también tiene un alto apalancamiento.

El ajuste del coeficiente de regresión de mínimos cuadrados en datos no adulterados estima una tendencia de primer orden promediada por la población en estos datos. Está muy atenuado por nuestro 1 individuo en la muestra cuya felicidad es consistente con aquellos niveles de ingresos cercanos a la mediana. Si eliminamos a este individuo, la pendiente de la regresión de mínimos cuadrados es mucho mayor, pero la varianza del regresor se reduce, por lo que la inferencia sobre la asociación es aproximadamente la misma. La dificultad de hacer esto es que no preespecifiqué las condiciones en las que los individuos serían excluidos. Si otro investigador replicara el diseño de este estudio, tomaría una muestra de un promedio de un individuo de ingresos altos y moderadamente feliz, y obtendría resultados que no coincidían con mis resultados "recortados".

Si estuviéramos interesados ​​a priori en la asociación de felicidad con ingresos moderados, entonces deberíamos haber especificado previamente que, por ejemplo, "compararíamos a las personas que ganan menos de $ 100.000 ingresos familiares anuales". Entonces, eliminar el valor atípico nos hace estimar una asociación que no podemos describir, por lo tanto, los valores p no tienen sentido.

Por otro lado, se pueden eliminar los equipos médicos mal calibrados y las mentiras graciosas de encuestas autoinformadas. Cuanto más exactamente se puedan describir los criterios de exclusión antes de que tenga lugar el análisis real, más válidos y consistentes serán los resultados que producirá dicho análisis.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top

web tasarım