generalized-linear-model – ¿Por qué asumimos la familia exponencial en el contexto GLM?

Pregunta:

Cuando aprendí por primera vez sobre los modelos lineales generalizados, pensé que la suposición de que la variable dependiente sigue alguna distribución de la familia exponencial se hizo para simplificar los cálculos. Sin embargo, ahora leo sobre Vector GLM (VGLM). Los VGLM no requieren la suposición de que la variable dependiente sigue alguna distribución de la familia exponencial, pero permiten un conjunto de distribuciones mucho más amplio.

Entonces mi pregunta es: ¿POR QUÉ realmente necesitamos la suposición de distribución en los GLM?

Mis pensamientos hasta ahora: los GLM modelan la media de la familia exponencial asumida y, por lo tanto, solo tienen un predictor (este predictor puede tener un valor vectorial en el caso de una media de distribución con valores vectoriales). La varianza de la distribución depende de la media de alguna función y los dos primeros momentos especifican la distribución de forma única dentro del conjunto de todas las distribuciones de la familia exponencial. Por lo tanto, es suficiente especificar la función de enlace para especificar de forma única la distribución. Los VGLM, por otro lado, permiten más de un predictor, un predictor para cada parámetro. Por lo tanto, es posible especificar la distribución asumiendo primero la distribución de la variable dependiente y luego estimar los parámetros. Considere, por ejemplo, la distribución binomial negativa $ NB (r, \ mu) $. Los dos parámetros son y $ r $ (número de ensayos) y la media $ \ mu $ (tenga en cuenta que en esta formulación $ p = \ frac {\ mu} {\ mu + r} $). ¿Alguien puede verificar estos pensamientos o dar otra explicación?

Respuesta:

Cuando descubrí GLM también me pregunté por qué siempre se basó en la familia exponencial. Nunca he respondido claramente a esa pregunta. Pero…

Llamo a $ h $ el recíproco de la función de enlace. $ \ beta $ el parámetro.

Cuando aprendí por primera vez sobre los modelos lineales generalizados, pensé que la suposición de que la variable dependiente sigue alguna distribución de la familia exponencial se hizo para simplificar los cálculos.

Si. Lo usé con descenso de gradiente estocástico (SGD), y la regla de actualización de SGD (el gradiente) se hace especialmente simple en el caso de GLM canónico. Ver http://proceedings.mlr.press/v32/toulis14.pdf prop 3.1 y párrafo 3.1. Finalmente, todo funciona de una manera similar a los mínimos cuadrados (minimiza el promedio $ (Yh (\ beta X)) ^ 2 $) pero aún más simple. La interpretación de la regla de actualización es bastante simple. Para alguna muestra $ (x, y) $:

  • calcule lo que espera como media para $ y $ (que es $ h (\ beta x) $)
  • compárelo con $ y $ reales observados,
  • corrija su parámetro $ \ beta $ proporcionalidad a la diferencia (y $ x $)

Sin la familia exp y el enlace canónico, el error se multiplicaría por algo que dependa de $ x $ (y tal vez $ y $). Sería una especie de refinamiento de la idea básica: variar la intensidad de la corrección. Da diferentes pesos a las muestras. Con mínimos cuadrados, tienes que multiplicar por $ h '(\ beta x) $. Algunas pruebas prácticas mías en un caso con muchos datos mostraron que era menos bueno (por razones que soy incapaz de explicar).

Por lo tanto, es suficiente especificar la función de enlace para especificar de forma única la distribución.

Si de nuevo.

También la regresión logística preexistente y la regresión de Poisson encajan en el marco de GLM canónico. Probablemente una explicación más (histórica) del uso de la familia exp + enlace canónico.

Quizás, "por qué asumir la familia exp en GLM" es similar a "por qué asumir un ruido normal en la regresión lineal". Para buenas propiedades teóricas y cálculos simples … ¿Pero siempre importa tanto en la práctica? Los datos reales rara vez tienen ruido normal en los casos en que la regresión lineal todavía funciona muy bien.

Lo que fue fundamentalmente útil (para mí) sobre GLM es la diferencia con la regresión lineal transformada:

  • Regresión lineal transformada: $ E (h ^ {- 1} (Y)) = \ beta X $
  • GLM: $ E (Y) = h (\ beta X) $

Esto lo cambia todo:

  • Regresión lineal transformada: la estimación de la media de $ h ^ {- 1} (Y) $ (condicionalmente a cualquier función de $ X $) es insesgada.
  • GLM: la estimación de la media de $ Y $ (condicionalmente a cualquier función de $ X $) es insesgada.

No estoy familiarizado con VGLM, por lo que no puedo responder al respecto.

Leave a Comment

Your email address will not be published. Required fields are marked *

web tasarım