classification – Ventajas de Jeffries Matusita distancia

Pregunta:

Según un artículo que estoy leyendo, la distancia de Jeffries y Matusita se usa comúnmente. Pero no pude encontrar mucha información al respecto, excepto por la fórmula a continuación

JMD (x, y) = $ \ sqrt [2] {\ sum (\ sqrt [2] {x_i} – \ sqrt [2] {y_i}) ^ 2} $

Es similar a la distancia euclidiana excepto por la raíz cuadrada

E (x, y) = $ \ sqrt [2] {\ sum (x_i-y_i) ^ 2} $

Se afirma que la distancia JM es más confiable que la distancia euclidiana en términos de clasificación. ¿Alguien puede explicar por qué esta diferencia mejora la distancia JM?

Respuesta:

Algunas diferencias clave, que preceden a una explicación más detallada a continuación, son las siguientes:

  1. Fundamentalmente: la distancia de Jeffries-Matusita se aplica a las distribuciones, en lugar de a los vectores en general.
  2. La fórmula de distancia JM que cita anteriormente solo se aplica a los vectores que representan distribuciones de probabilidad discretas (es decir, vectores que suman 1).
  3. A diferencia de la distancia euclidiana, la distancia JM se puede generalizar a cualquier distribución para la que se pueda formular la distancia de Bhattacharrya.
  4. La distancia JM tiene, a través de la distancia de Bhattacharrya, una interpretación probabilística.

La distancia de Jeffries-Matusita, que parece ser particularmente popular en la literatura sobre percepción remota, es una transformación de la distancia de Bhattacharrya (una medida popular de la disimilitud entre dos distribuciones, denotada aquí como $ b_ {p, q} $) de la rango $ [0, \ inf) $ al rango fijo $ [0, \ sqrt {2}] $:

$$ JM_ {p, q} = \ sqrt {2 (1- \ exp (-b (p, q))} $$

Una ventaja práctica de la distancia JM, según este documento, es que esta medida "tiende a suprimir los valores de separabilidad altos, mientras que enfatiza demasiado los valores de separabilidad bajos".

La distancia de Bhattacharrya mide la disimilitud de dos distribuciones $ p $ y $ q $ en el siguiente sentido abstracto continuo: $$ b (p, q) = – \ ln \ int {\ sqrt {p (x) q (x)} } dx $$ Si las distribuciones $ p $ y $ q $ son capturadas por histogramas, representados por vectores de longitud unitaria (donde el elemento $ i $ ésimo es el recuento normalizado para $ i $ ésimo de $ N $ bins), esto se convierte en: $$ b (p, q) = – \ ln \ sum_ {i = 1} ^ {N} \ sqrt {p_i \ cdot q_i} $$ Y, en consecuencia, la distancia JM para los dos histogramas es: $$ JM_ {p, q} = \ sqrt {2 \ left (1- \ sum_ {i = 1} ^ {N} {\ sqrt {p_i \ cdot q_i}} \ right)} $$ Lo cual, teniendo en cuenta que para histogramas normalizados $ \ sum_ { i} {p_i} = 1 $, es la misma que la fórmula que proporcionó anteriormente: $$ JM_ {p, q} = \ sqrt {\ sum_ {i = 1} ^ {N} {\ left (\ sqrt {p_i } – \ sqrt {q_i} \ right) ^ 2}} = \ sqrt {\ sum_ {i = 1} ^ {N} {\ left (p_i -2 \ sqrt {p_i} \ sqrt {q_i} + q_i \ right )}} = \ sqrt {2 \ left (1- \ sum_ {i = 1} ^ {N} {\ sqrt {p_i \ cdot q_i}} \ right)} $$

Leave a Comment

Your email address will not be published. Required fields are marked *

web tasarım