Divergencia de Kullback-Leibler

De testwiki
Ir a la navegación Ir a la búsqueda
Ilustración de la entropía relativa para dos distribuciones normales. La típica asimetría es claramente visible.

En teoría de la probabilidad y teoría de la información, la divergencia de Kullback-Leibler (KL)[1][2][3] (también conocida como divergencia de la información, ganancia de la información, entropía relativa o KLIC por sus siglas en inglés) es una medida no simétrica de la similitud o diferencia entre dos funciones de distribución de probabilidad P y Q. KL mide el número esperado de extra bits requeridos en muestras de código de P cuando se usa un código basado en Q, en lugar de un código basado en P. Generalmente P representa la "verdadera" distribución de los datos, observaciones, o cualquier distribución teórica. La medida Q generalmente representa una teoría, modelo, descripción o aproximación de P.

Aunque a menudo se considera como una métrica o distancia, la divergencia KL no lo es en realidad — por ejemplo, no es simétrica: la divergencia KL de P a Q no necesariamente es la misma KL de Q a P.

La divergencia KL es un caso especial de una clase más amplia de divergencias llamadas divergencias f. Fue originalmente introducida por Solomon Kullback y Richard Leibler en 1951 como la divergencia direccionada entre dos distribuciones. KL se puede derivar de la divergencia de Bregman.

Definición

Para distribuciones de probabilidad P y Q de una variable aleatoria discreta su divergencia KL se define como

DKL(PQ)=iP(i)lnP(i)Q(i).

En palabras, es el promedio ponderado de la diferencia logarítmica entre las probabilidades P y Q, donde el promedio se toma usando las probabilidades P. La divergencia KL solamente se define si P y Q suman 1 y si Q(i)>0 para cualquier i tal que P(i)>0. Si la cantidad 0ln0 aparece en la fórmula, se interpreta como cero.

Para distribuciones P y Q de una variable aleatoria continua, la divergencia KL se define como la integral:[4]

DKL(PQ)=p(x)lnp(x)q(x)dx,

donde p y q representan las densidades de P y Q.

Más generalmente, si P y Q son medidas de probabilidad sobre un conjunto X, y Q es absolutamente continua con respecto a P, entonces la divergencia Kullback–Leibler de P a Q se define como

DKL(PQ)=XlndQdPdP,

donde dQdP es la derivada de Radon-Nikodym de Q con respecto a P, y dado que la expresión al lado derecho existe.

De la misma manera, si P es absolutamente continua con respecto a Q, entonces

DKL(PQ)=XlndPdQdP=XdPdQlndPdQdQ,

lo cual se conoce como la entropía de P relativa a Q.

Continuando en este caso, si μ es cualquier medida en X para la cual p=dPdμ y q=dQdμ existe, entonces la divergencia Kullback–Leibler de P a Q está dada por

DKL(PQ)=Xplnpqdμ.

Los logaritmos en estas fórmulas se toman como en base 2 si la información se mide en unidades de bits, o en base e si la información se mide en nats. La mayoría de fórmulas relacionadas con la divergencia KL se mantienen independiente de la base logarítmica.

Nos referiremos a la divergencia de P a Q, aunque algunos autores la llaman la divergencia "de Q a P" y otros la divergencia "entre P y Q" (aunque note que no es simétrica). Se debe tener cuidado debido a la falta de estandarización en la terminología.

Propiedades

  • Es siempre positiva (puede probarse usando la desigualdad de Jensen).
  • Es nula si y sólo si P = Q.
  • No es simétrica (por lo que no se trata de una distancia).

Aplicaciones

Estadística

En estadística, la divergencia de Kullback-Leibler está íntimamente relacionada con el método de ajuste de distribuciones por máxima verosimilitud. En efecto, si se tienen observaciones x1,...,xn independientes de una variable aleatoria con función de densidad desconocida f y se tratan de ajustar dentro de una familia de funciones de densidad fλ, de acuerdo con la teoría de la máxima verosimilitud, se busca el parámetro λ que maximiza la función

Lλ=ilogfλ(xi),

que puede aproximarse (cuando n es grande) por

f(x)logfλ(x).

Restando dicha expresión del término constante

f(x)logf(x)

se obtiene

f(x)logf(x)f(x)logfλ(x)=f(x)logf(x)fλ(x),

que es la divergencia de Kullback-Leibler entre fλ y la distribución verdadera determinada por f. Es decir, maximizar la función de verosimilitud es (aproximadamente) equivalente a encontrar el parámetro λ que minimiza la divergencia de Kullback-Leibler entre la distribución real y la familia de distribuciones parametrizadas por dicho parámetro.

Referencias

Plantilla:Listaref

Enlaces externos

Plantilla:Control de autoridades

  1. Plantilla:Cita publicación
  2. S. Kullback (1959) Information theory and statistics (John Wiley and Sons, NY).
  3. Plantilla:Cita publicación
  4. C. Bishop (2006). Pattern Recognition and Machine Learning. p. 55.