mathematical-statistics – ¿Puede KL-Divergence ser mayor que 1?

Pregunta:

He estado trabajando en la creación de algunas estadísticas de prueba basadas en KL-Divergence,

\ begin {ecuación} D_ {KL} (p \ | q) = \ sum_i p (i) \ log \ left (\ frac {p (i)} {q (i)} \ right), \ end {ecuación}

Y terminé con un valor de $ 1.9 $ para mis distribuciones. Tenga en cuenta que las distribuciones admiten niveles de $ 140 $ K, por lo que no creo que sea razonable trazar las distribuciones completas aquí.

Lo que me pregunto es, ¿es posible tener una divergencia KL mayor que 1? Muchas de las interpretaciones que he visto de KL-Divergence se basan en un límite superior de 1. Si puede ir más allá de 1, ¿cuál es la interpretación de KL-Divergence más allá de 1?

Editar: sé que es una mala elección de referencia, pero el artículo de Wikipedia sobre la divergencia de KL sugiere que "una divergencia de Kullback-Leibler de 1 indica que las dos distribuciones se comportan de una manera tan diferente que la expectativa dada la primera distribución se acerca a cero". Pensé que estaba implícito que esto significaba que KL-Divergence estaba delimitado por encima de 1, pero es evidente que esto es un error en el artículo.

Respuesta:

La divergencia Kullback-Leibler es ilimitada. De hecho, dado que no hay límite inferior en los $ q (i) $ , no hay límite superior en los $ p (i) / q (i) $ . Por ejemplo, la divergencia de Kullback-Leibler entre un $ N normal (\ mu_1, \ sigma_1 ^ 2) $ y un $ N normal (\ mu_2, \ sigma_1 ^ 2) $ es $$ \ frac {1} {2 \ sigma_1 ^ {2}} (\ mu_1- \ mu_2) ^ 2 $$ que claramente no tiene límites.

Wikipedia [¡que se sabe que está equivocada!] Afirma de hecho

"… una divergencia Kullback-Leibler de 1 indica que las dos distribuciones se comportan de una manera tan diferente que la expectativa dada la primera distribución se acerca a cero".

que no tiene sentido (expectativa de qué función? ¿Por qué 1 y no 2?)

Una explicación más satisfactoria de la misma página de Wikipedia es que la divergencia Kullback-Leibler

"… se puede interpretar como la medición del número esperado de bits adicionales necesarios para codificar muestras de P utilizando un código optimizado para Q en lugar del código optimizado para P."

Leave a Comment

Your email address will not be published. Required fields are marked *

web tasarım