it.information-theory – Una pregunta sobre la dualidad conjugada convexa para la divergencia KL

Pregunta:

El conjugado convexo de una función, digamos, $ f: X \ mapsto \ mathbb {R} $ es una función $ f ^ *: X ^ * \ mapsto \ mathbb {R} $ definida como $$ f ^ * (x ^ *): = \ sup_ {x \ in X} ~ \ langle x, x ^ * \ rangle-f (x), $$ donde $ X ^ * $ es el dual topológico de $ X $ y $ \ langle \ cdot , \ cdot \ rangle $ es un emparejamiento dual entre $ X $ y $ X ^ * $.

La entropía relativa (también conocida como divergencia de Kullback-Leibler) $ D (\ cdot || Q): \ mathcal {P} (X) \ mapsto \ mathbb {R} ^ + $, se define para dos medidas de probabilidad $ P $ y $ Q $ (P << Q) como $$ D (P || Q) = \ int_XdP \ log \ frac {dP} {dQ}. $$

He estado tratando de calcular el conjugado convexo del mapa $ P \ mapsto D (P || Q) $ pero he fallado. Sé que la respuesta es $ \ log \ mathbb {E} _ {Q} [e ^ {f}] $ donde $ \ mathbb {E} _Q [\ cdot] $ es el operador de expectativa con respecto a la medida de probabilidad $ Q PS

Respuesta:

Para hacerlo más fácil, supongamos que $ X $ es finito, de tamaño $ n $ y asociemos la densidad de $ Q $ con un vector $ n $ -dimensional $ q $. Suponga también que $ q $ es positivo en todas partes; de lo contrario, reemplace $ X $ con el soporte de $ q $. Entonces el conjugado es $$ f ^ * _ q (x) = \ sup_p \ \ langle x, p \ rangle – \ sum_ {i = 1} ^ n {p_i \ log (p_i / q_i)}. $$ donde el supremo está por encima de la probabilidad simplex $ \ {p \ geq 0: \ sum_i p_i = 1 \} $. Dado que el simplex es compacto y la función dentro del supremum es continua, el supremum se logra en unos $ p $. Usando multiplicadores de Lagrange, obtienes que para un valor real $ \ lambda $ un $ p $ óptimo debe satisfacer $ x_i – 1 – \ log (p_i / q_i) = – \ lambda $ para todos los $ i $, lo que da $ p_i = q_ie ^ {x_i + \ lambda-1} $. Como $ 1 = \ sum_i p_i $, tenemos $ \ lambda – 1 = – \ log \ left (\ sum_i {q_i e ^ {x_i}} \ right) $. Sustituyendo, obtenemos $$ \ begin {align} f ^ * _ q (x) & = \ sum_i {q_i e ^ {x_i + \ lambda- 1} x_i} – \ sum_i {q_i e ^ {x_i + \ lambda-1} (x_i + \ lambda-1)} \\ & = – (\ lambda-1) \ sum_i {q_ie ^ {x_i + \ lambda-1}} \\ & = – (\ lambda-1) \ sum_i {p_i} \\ & = – (\ lambda-1) = \ log \ left (\ sum_i {q_i e ^ {x_i}} \ right), \ end {align} $$ que es exactamente el logaritmo de la expectativa de $ e ^ {x_i } $ menos de $ q $.

Leave a Comment

Your email address will not be published.

Scroll to Top

istanbul avukat

-

web tasarım