Diferencia entre revisiones de «Campo aleatorio de Markov»

De testwiki
Ir a la navegación Ir a la búsqueda
imported>Mario Pasc
m Edición menor, corrección de errata: "faces" -> "fases"
 
(Sin diferencias)

Revisión actual - 22:26 2 feb 2025

En el ámbito de la física y la probabilidad, un Campo aleatorio de Markov (abreviado MRF por sus siglas en inglés), Red Markov o modelo gráfico no dirigido es un conjunto de variables aleatorias que poseen la propiedad de Markov descrito por un grafo no dirigido. Un MRF es similar a una red bayesiana en su representación de las dependencias entre variables aleatorias; la diferencia radica en que las redes bayesianas son dirigidas y acíclicas, mientras que en los MRF las redes son no dirigidas y pueden ser cíclicas. De esta manera, un MRF puede representar determinadas dependencias que una red bayesiana no puede (como dependencias cíclicas); por otro lado, existen dependencias que no puede representar (como dependencias inducidas). El grafo subyacente de un MRF puede ser finito o infinito.

Cuando la función de distribución conjunta de las variables aleatorias es estrictamente positiva, se le llama también campo aleatorio de Gibbs, porque, según el teorema Hammersley–Clifford, puede ser representado por una medida de Gibbs para un función de energía apropiada (localmente definida). El prototipico MRF es el modelo de Ising; de hecho, el MRF fue introducido como el entorno general para el modelo de Ising.[1] En el ámbito de la inteligencia artificial, un MRF suele usarse para modelar varias fases de algoritmos de procesamiento de imagen y visión por computadora.[2]

Definición

Dado un grafo no dirigido G=(V,E), un conjunto de variables aleatorias X=(Xv)vV indexadas por V constituyen un MRF con respecto a G si satisfacen las propiedades de Markov locales:

Propiedad de Markov dos a dos: dos variables no adyacentes cualesquiera son condicionalmente independientes dadas todas las demás variables:
XuXvXV{u,v}if {u,v}E
Propiedad local de Markov: una variable es condicionalmente independiente de todas las otras variables dadas sus vecinos:
XvXVcl(v)Xne(v)
donde ne(v) es el conjunto de los vecinos v, y cl(v)=vne(v) es la vecindad cerrada de v.
Propiedad global de Markov: dos subconjuntos de variables cualesquiera son condicionalmente independientes dado un subconjunto que las separa:
XAXBXS
donde todo camino de un nodo en A a un nodo en B pasa a través de S.

Las tres propiedades anteriores no son equivalentes: la primera es más débil que la segunda y esta es más débil que la tercera.

Factorización de un clique

Como las propiedades de Markov de una distribución de probabilidad arbitraria pueden ser difícil de establecer, una clase comúnmente usada de campos aleatorios de Markov son aquellos que pueden ser factorizados de acuerdo con el clique de la gráfica.

Dado un conjunto de variables aleatorias X=(Xv)vV, sea P(X=x) la probabilidad de una configuración de campo en particular x en X. Es decir, P(X=x) es la probabilidad de encontrar que las variables aleatorias X asuman el valor particular de x. Porque X es un conjunto, la probabilidad de x deben tomarse con respecto a una distribución conjunta de Xv.

Si esta densidad conjunta se puede factorizar sobre el clique de G:

P(X=x)=Ccl(G)ϕC(xC)

entonces X forma un campo aleatorio de Markov con respecto a G. cl(G) es el conjunto de cliques de G. La definición es equivalente si solo se utiliza el máximo de los cliques. Las funciones φC a veces se conocen como factores potenciales potencial del clique. La palabra potencial se aplica a menudo al logaritmo de φC. Esto se debe a que, en la estadística mecánica log(φC) tiene una interpretación directa como la energía potencial de la configuración xC.

A pesar de que algunos MRFs no factoricen (un ejemplo sencillo puede ser construido con un ciclo de 4 nodos), en algunos casos puede ser mostrado que son equivalentes bajo ciertas condiciones:[3]

Cuándo tal factorización existe, es posible de construir un grafo de factores para la red.

Modelo logístico

Cualquier MRF (con una densidad estrictamente positiva) puede ser reescrito como un modelo logístico con funciones de características fk tal que la distribución de probabilidad conjunta puede ser escrita:

P(X=x)=1Zexp(kwkfk(x{k}))

donde la notación

wkfk(x{k})=i=1Nkwk,ifk,i(x{k})

Es sencillamente un producto escalar sobre las configuraciones del campo, y Z es la función de partición:

Z=x𝒳exp(kwkfk(x{k})).

Aquí, 𝒳 denota el conjunto de todas las posible asignaciones de los valores de todas las variables aleatorias de la red. Usualmente, las funciones de características fk,i son definidas de forma que sean indicadoras de la configuración del clique, i.e. fk,i(x{k})=1 if x{k} corresponde a la i-ésima configuración posible del k-ésimo clique, o 0 en otro caso. Este modelo es equivalente al modelo descrito anteriormente (con factorización respecto a los cliques), si Nk=|dom(Ck)| es la cardinalidad del clique, y el peso correspondiente a una función fk,i se corresponde con el logaritmo del potencial del clique correspondiente, i.e. wk,i=logϕ(ck,i), donde ck,i la i-ésima configuración posible del k-ésimo clique, i.e. el i-ésimo valor en el dominio del clique Ck.

Como las propiedades de Markov de una distribución de probabilidad arbitraria pueden ser difíciles de establecer, una clase generalmente utilizada de MRF son los que pueden ser factorizados según los cliques del grafo.

La probabilidad P es llamada a menuda la medida de Gibbs. Esta representación de un MRF como un modelo logístico sólo es posible si todos los factores de un clique son no nulos, i.e. si a ninguno de los elementos de 𝒳 le está asignado una probabilidad de 0. Esto permite que se puedan aplicar técnicas del álgebra matricial.

La importancia de la función de partición Z es que muchos conceptos de la estadística mecánica, como la entropía, se pueden generalizar directamente al caso de redes de Markov, obteniendo de esta manera una comprensión intuitiva. Además, la función de partición permite la aplicación de métodos variacionales para la solución del problema: se puede aplicar una fuerza de a una o más variables aleatorias, y estudiar la forma en que cambia la red en respuesta a esta perturbación. Así, por ejemplo, uno puede añadir un término Jv, a cada vértice v del grafo, obteniéndose:

Z[J]=x𝒳exp(kwkfk(x{k})+vJvxv)

Formalmente diferenciando con respecto a Jv se obtiene el valor esperado de la variable aleatoria Xv asociada al vértice v:

E[Xv]=1ZZ[J]Jv|Jv=0.

Las funciones de correlación se calculan de la mima manera; la correlación de dos puntos es:

C[Xu,Xv]=1Z2Z[J]JuJv|Ju=0,Jv=0.

Los modelos logísticos son especialmente convenientes debido a su interpretación. Un modelo logístico provee una forma mucho más compacta de representar muchas distribuciones, especialmente cuando las variables tienen dominios muy grandes. También son convenientes porque su función de verosimilitud es convexa. Desafortunadamente, aunque la verosimilitud de la logística de una red de Markov es convexa, la evaluación de la verosimilitud o su gradiente para un modelo requiere del cálculo de inferencia en el modelo, lo cual es, generalmente, impracticable computacionalmente.

Ejemplos

MRF Gausiano

Una distribución normal multivariante forma un MRF con respecto a un grafo G=(V,E) si las aristas faltantes se corresponden con ceros en la matriz de precisión (la inversa de la matriz de covarianza):

X=(Xv)vV𝒩(μ,Σ)

Tal que:

(Σ1)uv=0if{u,v}E.[4]

Modelo Oculto de Markov

Los nodos X representan estados mientras que los nodos Y representan observaciones sobre esos estados

En el modelo oculto de Markov, el estado no es visible directamente, pero la observación, que depende del estado, es visible. Cada estado tiene una distribución de probabilidad sobre los posibles tokens de salida. Por lo tanto, la secuencia de tokens generada por un HMM proporciona información sobre la secuencia de estados.

Inferencia

Como en una red bayesiana se puede obtener la distribución condicional de un conjunto de nodos V={v1,,vi} dado otro conjunto de nodos W={w1,,wj} en el MRF, sumando sobre todas las posibles asignaciones de los uV,W; esto se llama inferencia exacta. Sin embargo esto es un problema NP-completo, y por tanto computacionalmente costoso para el caso general. Técnicas de aproximación como Monte Carlo sobre cadenas de Markov y propagación de creencias son más factibles en la práctica. Existen casos particulares de MRFs, como los árboles, que poseen algoritmos de inferencia polinomiales; encontrar estos casos particulares es un campo de investigación activo en la actualidad. Existen también subconjuntos de MRFs que permiten la inferencia del MAP o la asignación más verosímil, de manera eficiente; ejemplos de estos son las redes asociativas.[5][6] Otro subconjunto interesante es el de los modelos descomponibles (cuando el grafo es cordal): existiendo en este caso una forma cerrada para MLE, es posible descubrir una estructura consistente para cientos de variables.[7]

Referencias

Plantilla:Listaref Plantilla:Control de autoridades

  1. Markov Campos aleatorios y Sus Aplicaciones Plantilla:Wayback (PDF).
  2. Markov @Modeling de Campo aleatorio en Análisis de Imagen.
  3. "Gibbs Y Markov sistemas aleatorios con constreñimientos".
  4. Gaussiano Markov campos aleatorios: teoría y aplicaciones.
  5. Proceedings del Veinte-primera
  6. Utilizando Combinatorial Optimización dentro Max-Propagación de Creencia del Producto
  7. Scaling Registro-análisis lineal a dato alto dimensional (PDF).