chi-squared-test – Selección de características usando chi cuadrado para características continuas

Pregunta:

Estoy viendo la selección de características univariadas. Un método que se describe a menudo es mirar los valores p para una prueba $ \ chi ^ 2 $ . Sin embargo, estoy confundido en cuanto a cómo funciona esto para variables continuas.

1. ¿Cómo puede funcionar la prueba $ \ chi ^ 2 $ para la selección de características para variables continuas? Siempre he pensado que esta prueba funciona para los recuentos. Me parece que tiene que agrupar los datos de alguna manera, pero los resultados dependen del agrupamiento que elija. También me interesa cómo funciona esto para una combinación de variables continuas y categóricas.

2. ¿Es un problema que esta prueba dependa de la escala? Mi segunda preocupación es que la prueba depende de la escala. Esto no es un problema para los recuentos, que no tienen unidades de medida, pero puede tener un gran impacto en la selección de características para las variables continuas que se miden en algunas unidades de medida (consulte el Ejemplo ).

Ejemplo

Mostrar la prueba depende de la escala para las variables con unidades de medida:

Veamos el ejemplo original de: http://scikit-learn.org/stable/modules/feature_selection.html

from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
iris = load_iris()
X, y = iris.data, iris.target
selector = SelectKBest(chi2, k=2)
selector.fit(X, y)
print(selector.pvalues_)
print(selector.get_support())

Producción:

[False False True True]
[4.47e-03 1.657e-01 5.94e-26 2.50e-15]

Ahora imaginemos que hemos registrado la primera y la tercera columna no en cm, sino en mm. Obviamente, esto no cambia la dependencia del tipo de clase en la longitud del sépalo y pétalo. Sin embargo, los valores p cambian fuertemente y, en consecuencia, las columnas seleccionadas cambian:

X[:, 0] = 10*X[:, 0]
X[:, 2] = 10*X[:, 2]
selector.fit(X, y)
print(selector.pvalues_)
print(selector.get_support())

Producción

[True False True False] 
[3.23e-024 1.66e-001 5.50e-253 2.50e-015]

Si también hubiera registrado la segunda columna en mm en lugar de cm, eso también me habría dado un valor p significativo.

Creo que esto tuvo que ver con el hecho de que el método no implementa ningún agrupamiento, sino que suma todos los valores y los compara con la suma esperada. Además, creo que el hecho de que el numerador en $ \ chi ^ 2 $ esté al cuadrado mientras que el denominador no se suma al problema.

Respuesta:

Creo que confundes los datos en sí (que pueden ser continuos) con el hecho de que cuando hablas de datos, en realidad hablas de muestras, que son discretas.

La prueba $ \ chi ^ 2 $ (en wikipedia y la selección del modelo por el criterio $ \ chi ^ 2 $ ) es una prueba para verificar la independencia de los datos muestreados. Es decir, cuando tiene dos (o más) fuentes de datos (es decir, características diferentes) y desea seleccionar solo características que son mutuamente independientes, puede probarlo rechazando la hipótesis Nula (es decir, las muestras de datos son dependientes) si el La probabilidad de encontrar tal muestra (bajo la hipótesis Nula), es decir, el valor p, es menor que algún valor umbral (p. ej., p <0.05).

Así que ahora, para sus preguntas,

  1. La prueba $ \ chi ^ 2 $ funciona solo con datos categóricos, ya que debe contar las ocurrencias de las muestras en cada categoría para usarla, pero como mencioné anteriormente, cuando la usa, en realidad tiene muestras en la mano , por lo que una cosa que puede hacer es dividir sus muestras en categorías basadas en umbrales (por ejemplo, $ cat_1: x \ in [th_1 <x <th_2], cat_2: x \ in [th_2 <x <th_3] $ , etc. ) y contar todas las muestras que caen en cada categoría.
  2. En cuanto a las escalas, obviamente debe usar las mismas escalas cuando discretiza sus muestras, de lo contrario no tendrá ningún sentido, pero cuando realice la prueba $ \ chi ^ 2 $ en sí, como ha señalado correctamente, se trata de recuentos, por lo que de todos modos no tendrán escalas.

Salud.

Leave a Comment

Your email address will not be published.

Scroll to Top

istanbul avukat

-

web tasarım