Pregunta:
Estoy tratando de entender la diferencia entre la selección de la muestra y la endogeneidad y, a su vez, cómo los modelos de Heckman (para tratar la selección de la muestra) difieren de las regresiones de variables instrumentales (para tratar la endogeneidad).
¿Es correcto decir que la selección de la muestra es una forma específica de endogeneidad, donde la variable endógena es la probabilidad de ser tratado?
Además, me parece que tanto los modelos de Heckman como la regresión IV son modelos de 2 etapas, donde la primera etapa predice la probabilidad de ser tratados; supongo que deben diferir en términos de lo que están haciendo empíricamente, sus objetivos y suposiciones. ¿pero cómo?
Respuesta:
Para responder a su primera pregunta, tiene razón en que la selección de la muestra es una forma específica de endogeneidad (consulte Antonakis et al.2010 para una buena revisión básica de la endogeneidad y los remedios comunes), sin embargo, no tiene razón al decir que la probabilidad de ser tratado es la variable endógena, ya que es la variable de tratamiento en sí misma ("asignación de tratamiento no aleatoria"), en lugar de la probabilidad de ser tratado, la que es endógena en la selección de la muestra. Recuerde que la endogeneidad se refiere a una situación en la que ha identificado incorrectamente una relación causal entre el factor X y el factor Y, cuando la "relación" observada se debe en realidad a otro factor Z que afecta tanto a X como a Y. Dicho de otra manera, dado un modelo de regresión :
$ y_i = \ beta_0 + \ beta_1x_i + … + \ epsilon_i $
La endogeneidad ocurre cuando uno o más de sus predictores está relacionado con el término de error en el modelo. Es decir, cuando $ Cov (x, \ epsilon) \ ne0 $.
Las causas comunes de endogeneidad incluyen:
- Variables omitidas (algunas cosas que simplemente no podemos medir)
- Motivación / elección
- Habilidad / talento
- Autoselección
- Error de medición (nos gustaría incluir $ x_j $, pero solo observamos $ x_j * $)
- Simultaneidad / bidireccionalidad (en niños menores de 5 años, la relación entre el indicador del estado nutricional “peso para la edad” y si el niño tuvo una enfermedad reciente puede ser simultánea.
Los diferentes tipos de problemas requieren soluciones ligeramente diferentes, que es donde radica la diferencia entre las correcciones de tipo IV y Heckman. Por supuesto, existen diferencias en la mecánica subyacente de estos métodos, pero la premisa es la misma: que es eliminar la endogeneidad, idealmente a través de una restricción de exclusión, es decir, uno o más instrumentos en el caso de IV o una variable que afecta la selección pero no el resultado en el caso de Heckman.
Para responder a su segunda pregunta, debe pensar en las diferencias en los tipos de limitaciones de datos que dieron lugar al desarrollo de estas soluciones. Me gusta pensar que el enfoque de variable instrumental (IV) se usa cuando una o más variables son endógenas, y simplemente no hay buenos proxies para pegar en el modelo para eliminar la endogeneidad, pero las covariables y los resultados se observan para todas las observaciones. Las correcciones de tipo Heckman, por otro lado, se utilizan cuando hay truncamiento, es decir, la información no se observa para aquellos en la muestra donde el valor de la variable de selección == 0.
El enfoque de variable instrumental (IV)
Piense en el ejemplo econométrico clásico para la regresión IV con el estimador de mínimos cuadrados en dos etapas (2SLS): el efecto de la educación sobre los ingresos.
$ Ingresos_i = \ beta_0 + \ beta_1OwnEd_i + \ epsilon_i $ (1)
En este caso, el nivel de logro educativo es endógeno porque está determinado en parte por la motivación y la capacidad del individuo, los cuales también afectan los ingresos de una persona. La motivación y la capacidad no se miden normalmente en encuestas familiares o económicas. Por lo tanto, la ecuación 1 se puede escribir para incluir explícitamente la motivación y la capacidad:
$ Ingresos_i = \ beta_0 + \ {\ beta_1OwnEd_i + \ beta_2Motiv_i + \ beta_3Abil_i \} + \ epsilon_i $ (2)
Dado que $ Motiv $ y $ Abil $ no se observan realmente, la Ecuación 2 se puede escribir como:
$ Ingresos_i = \ beta_0 + \ beta_1OwnEd_i + u_i $ (3),
donde $ u_i = \ beta_2Motiv_i + \ beta_3Abil_i + \ epsilon_i $ (4).
Por lo tanto, una estimación ingenua del efecto de la educación sobre los ingresos a través de MCO estaría sesgada. Esta parte ya la conoces.
En el pasado, las personas han utilizado la educación de los padres como instrumentos para el propio nivel de educación de la asignatura, ya que cumplen con los 3 requisitos para un instrumento válido ($ z $):
- $ z $ debe estar relacionado con el predictor endógeno – $ 𝐶𝑜𝑣 (𝑧, 𝑥) ≠ 0 $,
- $ z $ no puede estar directamente relacionado con el resultado – $ 𝐶𝑜𝑣 (𝑧, 𝑦) = 0 $, y
- $ z $ no se puede relacionar con la característica no observable (u) (es decir, $ z $ es exógena) – $ 𝐶𝑜𝑣 (𝑧, 𝑢) = 0 $
Cuando calcule la educación del sujeto ($ OwnEd $) utilizando la educación de los padres ($ MomEd $ y $ DadEd $) en la primera etapa y use el valor previsto de la educación ($ \ widehat {OwnEd} $) para estimar $ Ganancias $ en la segunda etapa, está (en términos muy simplistas), estimando $ Ganancias $ en función de la parte de $ OwnEd $ que no está determinada por la motivación / capacidad.
Correcciones tipo Heckman
Como hemos establecido anteriormente, la selección de muestras no aleatorias es un tipo específico de endogeneidad. En este caso, la variable omitida es cómo se seleccionaron las personas en la muestra. Normalmente, cuando tiene un problema de selección de muestra, su resultado se observa solo para aquellos para quienes la variable == 1
selección de muestra variable == 1
. Este problema también se conoce como "truncamiento incidental" y la solución se conoce comúnmente como corrección de Heckman. El ejemplo clásico en econometría es la oferta salarial de las mujeres casadas:
$ Salario_i = \ beta_0 + \ beta_1Educ_i + \ beta_2Experiencia_i + \ beta_3Experiencia ^ 2_i + \ epsilon_i $ (5)
El problema aquí es que $ Salario $ solo se observa para las mujeres que trabajaron por un salario, por lo que un estimador ingenuo estaría sesgado, ya que no sabemos cuál es la oferta salarial para quienes no participan en la fuerza laboral, la variable de selección $ s $. La ecuación 5 se puede reescribir para mostrar que está determinada conjuntamente por dos modelos latentes:
$ Salario_i ^ * = X \ beta ^ \ prime + \ epsilon_i $ (6)
$ LaborForce_i ^ * = Z \ gamma ^ \ prime + \ nu_i $ (7)
Es decir, $ Wage = Wage_i ^ * $ IFF $ LaborForce_i ^ *> 0 $ y $ Wage =. $ IFF $ LaborForce_i ^ * \ leq 0 $
Por lo tanto, la solución aquí es predecir la probabilidad de participación en la fuerza laboral en la primera etapa usando un modelo probit y la restricción de exclusión (los mismos criterios para instrumentos válidos se aplican aquí), calcular la razón de Mills inversa predicha ($ \ hat {\ lambda } $) para cada observación y, en la segunda etapa, estime la oferta salarial utilizando $ \ hat {\ lambda} $ como predictor en el modelo (Wooldridge 2009). Si el coeficiente de $ \ hat {\ lambda} $ es estadísticamente igual a cero, no hay evidencia de selección de muestra (endogeneidad) y los resultados de MCO son consistentes y se pueden presentar. Si el coeficiente de $ \ hat {\ lambda} $ es estadísticamente significativamente diferente de cero, deberá informar los coeficientes del modelo corregido.
Referencias
- Antonakis, John, Samuel Bendahan, Philippe Jacquart y Rafael Lalive. 2010. "Sobre la realización de afirmaciones causales: una revisión y recomendaciones". The Leadership Quarterly 21 (6): 1086-1120. doi: 10.1016 / j.leaqua.2010.10.010.
- Wooldridge, Jeffrey M. 2009. Introducción a la econometría: un enfoque moderno. 4ª ed. Mason, OH, EE.UU .: Suroeste, Cengage Learning.