regression – Literatura sobre $ \ ell_q $ LASSO, $ q <1 $

Pregunta:

No estoy seguro de cómo se llama $ \ ell_q $ -LASSO, pero aquí estoy hablando de la regresión LASSO, con $ \ | \ beta \ | _ {\ ell_q} $ regularización, $ q <1 $ . En la literatura popular, como Elements of Statistical Learning o Statistical Learning with Sparsity de Hastie et. al., puedo encontrar solo sus definiciones aproximadas con algunos gráficos y comentarios sobre cómo su no convexidad hace que su estimación sea problemática y computacionalmente ineficiente.

Sin embargo, estoy interesado en una discusión más profunda del enfoque, como sus propiedades de Oracle, el comportamiento asintótico con respecto a la selección de variables y la estimación de parámetros, y varios casos en los que el método no funciona. Hasta ahora, he probado casos simples a mano en experimentos de Monte Carlo y descubrí que es capaz de superar a $ \ ell_1 $ LASSO en varios casos por un margen significativo, por lo que supongo que debería haber propiedades sólidas en funcionamiento allí. Es decir, me gustaría entender por qué funciona bien para mí.

Mis preguntas :

  1. ¿Tiene este método un nombre oficial para facilitar la búsqueda bibliográfica?

  2. Si tiene enlaces a artículos con propiedades comprobadas, serán muy útiles para leer más.

  3. También me interesan mucho los contraejemplos, que podrían romper el método. (No puedo construirlos por mí mismo, ya que no pude encontrar suposiciones, bajo las cuales, digamos, $ \ ell_q $ -lasso garantizaría una selección de variables consistente). Por ejemplo, con $ \ ell_1 $ -lasso, se sabe que una multicorrelación significativa puede romper fácilmente la selección de variables consistentes. Al mismo tiempo, encuentro que $ \ ell_q $ -las mismo puede tratar con los mismos ejemplos sin problemas.

Nota: He mencionado la selección de variables en las preguntas solo como ejemplo, otras propiedades también son de interés.

Respuesta:

Frank y Friedman (1993) sugirieron la idea de estimaciones puente , con función de penalización $ P_B = \ lambda \ sum_j | \ alpha_j | ^ \ gamma $ , como paradigma para comprender la selección de subconjuntos y la regresión de crestas. El $ \ ell_0 $ -norm corresponde a los métodos de selección de subconjuntos, $ \ ell_1 $ es el LASSO y $ \ ell_2 $ es la regresión de la cresta. Señalaron que sería beneficioso estimar los parámetros $ \ lambda $ y $ \ gamma $ simultáneamente para ampliar la elección de posibles modelos, pero no desarrollaron más el método. El parámetro $ \ lambda $ controla el tamaño de las estimaciones ( $ \ hat \ alpha_j ^ B $ ) o la cantidad de contracción, mientras que el parámetro $ \ gamma $ determina las direcciones en las que se alinean los parámetros con respecto a los ejes de coordenadas.

Cuando $ \ gamma \ in (0,1) $ :

  • La función de penalización $ P_B = \ lambda \ sum_j | \ alpha_j | ^ \ gamma $ es cóncava. La siguiente figura muestra las funciones de penalización cóncavas (punteadas) en comparación con la función de penalización LASSO (sólido). Función de penalización

  • Algunos parámetros se establecen en cero y la contracción es inversamente proporcional al tamaño de los parámetros. La figura muestra la función de umbral $ \ hat \ alpha_j – sign (\ hat \ alpha_j) \ lambda \ gamma | \ hat \ alpha_j | ^ {\ gamma-1} $ , donde $ \ hat \ alpha_j $ son las estimaciones de MCO. Aquí, con $ \ lambda = 4 $ y $ \ gamma = 0.25 $ o $ \ gamma = 0.5 $ , los parámetros grandes permanecen bastante intactos por la contracción. Con LASSO (línea continua), la contracción es constante. Función de umbral

  • Es probable que se produzcan estimaciones en los ejes. La figura muestra bolas de norma en $ \ mathbb {R} ^ 2 $ (izquierda) y $ \ mathbb {R} ^ 3 $ (derecha) para $ \ gamma = 0.5 $ . Bolas de norma

Consulte las páginas 118-119 y 126-127 de Kirkland (2014) para ver una comparación de estas cifras con otros valores de $ \ gamma $ . Esta tesis de maestría también proporciona una descripción general de otros métodos de contracción.

Knight y Fu (2000) demostraron que las estimaciones puente son consistentes y tienen distribuciones normales asintóticas.

La idea principal detrás de las funciones de penalización cóncavas es que los parámetros grandes se penalizan menos de modo que las estimaciones resultantes sean casi insesgadas. Conozco otros 2 métodos de contracción que utilizan penalizaciones cóncavas y pueden ser de su interés:

  • Fan y Li (2001) propusieron SCAD, que fue el primer método de contracción que tenía la propiedad de oráculo. Aunque el LASSO adaptativo es un oráculo, el sesgo puede disminuir a un ritmo más rápido con SCAD.

  • Zhang (2010) propuso MCP, que sigue un enfoque similar al SCAD pero penaliza menos a los parámetros más pequeños.

A pesar de tener penalizaciones cóncavas que tampoco son diferenciables en cero, ambos proporcionan algoritmos eficientes para calcular la solución, incluso en configuraciones de alta dimensión cuando $ p \ geq n $ .

Leave a Comment

Your email address will not be published. Required fields are marked *

web tasarım