Prior conjugada

De testwiki
Ir a la navegación Ir a la búsqueda

En la teoría bayesiana de la probabilidad, si la distribución posterior p(θx) pertenece a la misma familia de distribuciones de probabilidad que la distribución de probabilidad ''a priori'' p(θ), las distribuciones a priori y a posteriori se denominan entonces distribuciones conjugadas, y la a priori se denomina prior conjugada para la función de verosimilitud p(xθ).

Una prior conjugada es una conveniencia algebraica, que da una expresión de forma cerrada para la posterior; de lo contrario, puede ser necesaria la integración numérica. Además, las a priori conjugadas pueden ser más intuitivas al mostrar de forma más transparente cómo una función de verosimilitud actualiza una distribución a priori.

El concepto, así como el término "prior conjugada", fueron introducidos por Howard Raiffa y Robert Schlaifer en sus trabajos sobre la teoría bayesiana de la decisión.[1] Un concepto similar había sido descubierto independientemente por George Alfred Barnard.[2]

Ejemplo

La forma de prior conjugada puede determinarse generalmente mediante la inspección de la densidad de probabilidad o la función de masa de probabilidad de una distribución. Por ejemplo, consideremos una variable aleatoria que consiste en el número de aciertos s en n Ensayo Bernoulli con probabilidad desconocida de éxito q en [0,1]. Esta variable aleatoria seguirá la distribución binomial, con una función de masa de probabilidad de la forma: p(s)=(ns)qs(1q)ns

La prior conjugada habitual es la distribución beta con parámetros (α, β):

p(q)=qα1(1q)β1B(α,β)

Donde α y β se eligen para reflejar cualquier creencia o información existente (α=1 and β=1 daría una distribución uniforme y B(α,β) es la función Beta que actúa como constante normalizadora.

En este contexto, α y β se denominan "hiperparámetros" (parámetros a priori), para distinguirlos de los parámetros del modelo subyacente (aquí q).Una característica típica de los a priori conjugados es que la dimensionalidad de los hiperparámetros es uno mayor que la de los parámetros de la distribución original. Si todos los parámetros son valores escalares, entonces habrá un hiperparámetro más que parámetro; pero esto también se aplica a los parámetros con valores vectoriales y matriciales. (Véase el artículo general sobre la familia exponencial, y considérese también la distribución de Wishart, prior conjugado de la matriz de covarianza de una distribución normal multivariante, para un ejemplo en el que interviene una gran dimensionalidad).

Si muestreamos esta variable aleatoria y obtenemos s éxitos y f=ns fallos, entonces tenemos

P(s,fq=x)=(s+fs)xs(1x)f,P(q=x)=xα1(1x)β1B(α,β),P(q=xs,f)=P(s,fx)P(x)P(s,fy)P(y)dy=(s+fs)xs+α1(1x)f+β1/B(α,β)y=01((s+fs)ys+α1(1y)f+β1/B(α,β))dy=xs+α1(1x)f+β1B(s+α,f+β),

que es otra distribución Beta con parámetros (α+s,β+f). Esta distribución posterior podría utilizarse como prior para más muestras, y los hiperparámetros simplemente añadirían cada dato adicional a medida que se obtuviera.


Interpretaciones

Pseudo-observaciones

A menudo es útil pensar que los hiperparámetros de una distribución a priori conjugada corresponden a haber observado un cierto número de pseudo-observaciones con propiedades especificadas por los parámetros. Por ejemplo, los valores α y β de una distribución beta puede considerarse como correspondiente a α1 éxitos y β1 fallos si se utiliza el modo posterior para elegir un ajuste óptimo de los parámetros, o α éxitos y β fallos si se utiliza la media posterior para elegir un ajuste óptimo de los parámetros. En general, para casi todas las distribuciones a priori conjugadas, los hiperparámetros pueden interpretarse en términos de pseudo-observaciones. Esto puede ayudar a proporcionar intuición detrás de las ecuaciones de actualización a menudo desordenadas y ayudar a elegir hiperparámetros razonables para una prioridad.

Sistema dinámico

Se puede pensar en el condicionamiento prior conjugado como la definición de una especie de sistema dinámico (en tiempo discreto): a partir de un conjunto dado de hiperparámetros, los datos entrantes actualizan estos hiperparámetros, por lo que se puede ver el cambio en los hiperparámetros como una especie de "evolución temporal" del sistema, correspondiente al "aprendizaje". Comenzando en puntos diferentes se obtienen flujos diferentes a lo largo del tiempo. Esto vuelve a ser análogo al sistema dinámico definido por un operador lineal, pero hay que tener en cuenta que, dado que muestras diferentes conducen a inferencias diferentes, esto no depende simplemente del tiempo, sino más bien de los datos a lo largo del tiempo. Para enfoques relacionados, véase Estimación bayesiana recursiva y Asimilación de datos.

Ejemplo práctico

Supongamos que en su ciudad opera un servicio de alquiler de vehículos. Los conductores pueden dejar y recoger los carros en cualquier lugar dentro de los límites de la ciudad. Puedes encontrar y alquilar los carros usando una aplicación.

Supongamos que desea averiguar la probabilidad de encontrar un vehículo de alquiler a poca distancia de su domicilio a cualquier hora del día.

Durante tres días miras la aplicación y encuentras el siguiente número de coches a poca distancia de la dirección de tu casa: 𝐱=[3,4,1] Supongamos que los datos proceden de una distribución de Poisson. En ese caso, podemos calcular la estimación de máxima verosimilitud de los parámetros del modelo, que es λ=3+4+132.67. Utilizando esta estimación de máxima verosimilitud, podemos calcular la probabilidad de que haya al menos un coche disponible un día determinado: p(x>0|λ2.67)=1p(x=0|λ2.67)=12.670e2.670!0.93 Se trata de la distribución de Poisson que es la más probable que haya generado los datos observados 𝐱. Pero los datos también podrían proceder de otra distribución de Poisson, por ejemplo, una con λ=3, o λ=2, etc. De hecho, existe un número infinito de distribuciones de Poisson que podrían haber generado los datos observados. Con relativamente pocos puntos de datos, deberíamos estar bastante inseguros sobre qué distribución de Poisson exacta generó estos datos. Intuitivamente, deberíamos tomar una media ponderada de la probabilidad de p(x>0|λ) para cada una de esas distribuciones de Poisson, ponderadas según la probabilidad de cada una de ellas, dados los datos que hemos observado 𝐱. Generalmente, esta cantidad se conoce como distribución predictiva posterior p(x|𝐱)=θp(x|θ)p(θ|𝐱)dθ, donde x es un nuevo punto de datos, 𝐱 son los datos observados y θ son los parámetros del modelo. Utilizando el teorema de Bayes podemos expandir p(θ|𝐱)=p(𝐱|θ)p(θ)p(𝐱), por lo tanto, p(x|𝐱)=θp(x|θ)p(𝐱|θ)p(θ)p(𝐱)dθ. En general, esta integral es difícil de calcular. Sin embargo, si se elige una distribución prior conjugada p(θ),se puede derivar una expresión de forma cerrada. Esta es la columna de predicción posterior en las tablas siguientes.

Volviendo a nuestro ejemplo, si elegimos la distribución Gamma como nuestra distribución a priori sobre la tasa de las distribuciones Poisson, entonces la predictiva a posteriori es la distribución binomial negativa, como puede verse en la tabla siguiente. La distribución Gamma está parametrizada por dos hiperparámetros α,β que tenemos que elegir. Observando los gráficos de la distribución gamma, elegimos α=β=2, que parece ser una prioridad razonable para el número medio de coches. La elección de hiperparámetros a priori es inherentemente subjetiva y se basa en conocimientos previos. Dados los hiperparámetros a priori α y β podemos calcular los hiperparámetros posteriores α=α+ixi=2+3+4+1=10 y β=β+n=2+3=5 Dados los hiperparámetros posteriores, podemos finalmente calcular la predicción posterior de p(x>0|𝐱)=1p(x=0|𝐱)=1NB(0|10,11+5)0.84

Esta estimación mucho más conservadora refleja la incertidumbre en los parámetros del modelo, que la predicción posterior tiene en cuenta.

Tabla de distribuciones conjugadas

Sea n el número de observaciones. En todos los casos siguientes, se supone que los datos constan de n puntos x1,,xn(que serán vectores aleatorios en los casos multivariantes).

Si la función de verosimilitud pertenece a la familia exponencial, entonces existe una prior conjugada, a menudo también en la familia exponencial; véase Familia exponencial: Distribuciones conjugadas.

Cuando la función de verosimilitud es una distribución discreta

Verosimilitud Parámetros del modelo Distribución a priori conjugada Hiperparámetros a priori Hiperparámetros a posterioriPlantilla:Refn Interpretación de hiperparámetros Predicción a posterioriPlantilla:Refn
Bernoulli p (probabilidad) Beta α,β α+i=1nxi,β+ni=1nxi α éxitos, β fallasPlantilla:Refn p(x~=1)=αα+β
Binomio con número conocido de ensayos, m p (probabilidad) Beta α,β α+i=1nxi,β+i=1nNii=1nxi α éxitos, β fallasPlantilla:Refn BetaBin(x~|α,β)
(beta-binomio)
Binomio negativo con número de fallos conocido, r p (probabilidad) Beta α,β α+rn,β+i=1nxi α total de éxitos, β fallasPlantilla:Refn BetaNegBin(x~|α,β)

(beta-binomio negativo)

Poisson λ (rate) Gamma k,θ k+i=1nxi, θnθ+1 k total ocurrencias en intervalos 1θ NB(x~k,1θ+1)
(binomio negativo)
α,β Plantilla:Refn|α+i=1nxi, β+n α total ocurrencias en intervalos β NB(x~α,β1+β)
(binomio negativo)
Categórica p (vector de probabilidad), k (número de categorías; es decir, tamaño de p) Dirichlet αk α+(c1,,ck), donde ci es el número de observaciones de la categoría i αi ocurrencias de categoría iPlantilla:Refn p(x~=i)=αiiαi=αi+ciiαi+n
Multinomio p (vector de probabilidad), k (número de categorías; es decir, tamaño de p) Dirichlet αk α+i=1n𝐱i αi ocurrencias de categoría iPlantilla:Refn DirMult(𝐱~α)
(Dirichlet-multinomio)
Hipergeométrico con un tamaño de población total conocido, N M (número de miembros objetivo) Beta-binomio[3] n=N,α,β α+i=1nxi,β+i=1nNii=1nxi α éxitos, β fallasPlantilla:Refn
Geométrico p0 (probabilidad) Beta α,β α+n,β+i=1nxi α experimentos, β falla totalPlantilla:Refn

Cuando la función de verosimilitud es una distribución continua

Verosimilitud Parámetros del modelo Distribución a priori conjugada Hiperparámetros a priori Hiperparámetros a posterioriPlantilla:Refn Interpretación de hiperparámetros Predicción a posterioriPlantilla:Refn
Normal con varianza conocida σ2 μ (media) Normal μ0,σ02 11σ02+nσ2(μ0σ02+i=1nxiσ2),(1σ02+nσ2)1 la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales) 1/σ02 y con media muestral μ0 𝒩(x~|μ0,σ02+σ2)[4]
Normal con precisión conocida τ μ (media) Normal μ0,τ01 τ0μ0+τi=1nxiτ0+nτ,(τ0+nτ)1 la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales)τ0 y con media muestral μ0 𝒩(x~μ0,1τ0+1τ)[4]
Normal con media conocida μ σ2 (varianza) Gamma inverso α,βPlantilla:Refn α+n2,β+i=1n(xiμ)22 la varianza se estimo de observaciones 2α con varianza muestral β/α (es decir, con suma de desviaciones al cuadrado 2β, donde las desviaciones son respecto a la media conocida μ) t2α(x~|μ,σ2=β/α)[4]
Normal con media conocida μ σ2 (varianza) Chi cuadrado inverso escalado ν,σ02 ν+n,νσ02+i=1n(xiμ)2ν+n La varianza se estimó a partir de observaciones ν con varianza muestral σ02 tν(x~|μ,σ02)[4]
Normal con media conocida μ τ (precisión) Gamma α,βPlantilla:Refn α+n2,β+i=1n(xiμ)22 La precisión se estimó a partir de observaciones 2α con varianza muestral β/α (es decir, con suma de desviaciones al cuadrado 2β, donde las desviaciones son respecto a la media conocida μ) t2α(x~μ,σ2=β/α)[4]
NormalPlantilla:Refn μ y σ2

Suponiendo la intercambiabilidad

Gamma normal-inversa μ0,ν,α,β νμ0+nx¯ν+n,ν+n,α+n2,
β+12i=1n(xix¯)2+nνν+n(x¯μ0)22
  • x¯ es la media muestral
La media se estimó a partir de observaciones ν con media muestral μ0; la varianza se estimó a partir de observaciones 2α con media muestral μ0 y suma de desviaciones al cuadrado 2β t2α(x~μ,β(ν+1)να)[4]
Normal μ y τ

Suponiendo intercambiabilidad

Normal-gamma μ0,ν,α,β νμ0+nx¯ν+n,ν+n,α+n2,
β+12i=1n(xix¯)2+nνν+n(x¯μ0)22
  • x¯ es la media muestral
La media se estimó a partir de observaciones ν con media muestral μ0, la varianza se estimó a partir de observaciones 2α con media muestral μ0 y suma de desviaciones al cuadrado 2β t2α(x~μ,β(ν+1)αν)[4]
Multivariante normal con matriz de covarianza conocida Σ μ (vector medio) Normal multivariante μ0,Σ0 (Σ01+nΣ1)1(Σ01μ0+nΣ1𝐱¯),
(Σ01+nΣ1)1
  • 𝐱¯ es la media muestral
la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales)Σ01 y con media muestral μ0 𝒩(𝐱~μ0,Σ0+Σ)[4]
Multivariante normal con matriz de precisión conocida Λ μ (vector medio) Normal multivariante μ0,Λ0 (Λ0+nΛ)1(Λ0μ0+nΛ𝐱¯),(Λ0+nΛ)
  • 𝐱¯ es la media muestral
la media se estimó a partir de observaciones con precisión total (suma de todas las precisiones individuales)Λ0 y con media muestral μ0 𝒩(𝐱~μ0,Λ01+Λ1)[4]
Normal multivariante con media conocida μ Σ (matriz de covarianza) Wishart inverso ν,Ψ n+ν,Ψ+i=1n(𝐱𝐢μ)(𝐱𝐢μ)T La matriz de covarianza se estimó a partir de observaciones ν con suma de productos de desviación por paresΨ tνp+1(𝐱~|μ,1νp+1Ψ)[4]
Normal multivariante con media conocida μ Λ (matriz de precisión) Wishart ν,𝐕 n+ν,(𝐕1+i=1n(𝐱𝐢μ)(𝐱𝐢μ)T)1 La matriz de covarianza se estimó a partir de observaciones ν con suma de productos de desviación por pares 𝐕1 tνp+1(𝐱~μ,1νp+1𝐕1)[4]
Normal multivariante μ (vector medio) y Σ (matriz de covarianza) Wishart normal-inverso μ0,κ0,ν0,Ψ κ0μ0+n𝐱¯κ0+n,κ0+n,ν0+n,
Ψ+𝐂+κ0nκ0+n(𝐱¯μ0)(𝐱¯μ0)T
  • 𝐱¯ is the sample mean
  • 𝐂=i=1n(𝐱𝐢𝐱¯)(𝐱𝐢𝐱¯)T
la media se estimó a partir de observaciones κ0 con media muestral μ0; la matriz de covarianza se estimó a partir de las observaciones ν0 con media muestral μ0 y con suma de productos de desviación por paresΨ=ν0Σ0 tν0p+1(𝐱~|μ0,κ0+1κ0(ν0p+1)Ψ)[4]
Normal multivariante μ (vector medio) y Λ (matriz de precisión) Wishart normal μ0,κ0,ν0,𝐕 κ0μ0+n𝐱¯κ0+n,κ0+n,ν0+n,
(𝐕1+𝐂+κ0nκ0+n(𝐱¯μ0)(𝐱¯μ0)T)1
  • 𝐱¯ is the sample mean
  • 𝐂=i=1n(𝐱𝐢𝐱¯)(𝐱𝐢𝐱¯)T
la media se estimó a partir de observaciones κ0 con media muestral μ0; matriz de covarianza se estimó a partir de observaciones ν0 con media muestral μ0 y con suma de productos de desviación por pares 𝐕1 tν0p+1(𝐱~μ0,κ0+1κ0(ν0p+1)𝐕1)[4]
Uniforme U(0,θ) Pareto xm,k max{x1,,xn,xm},k+n k observaciones con valor máximo xm
Pareto con un mínimo conocido xm k (forma) Gamma α,β α+n,β+i=1nlnxixm α observaciones con sumaβ del orden de magnitud de cada observación (es decir, el logaritmo de la relación entre cada observación y el mínimo xm)
Weibull con forma β conocida θ (escala) Gamma inverso[3] a,b a+n,b+i=1nxiβ a observaciones con suma b de la potencia β de cada observación
Log-normal Igual que para la distribución normal después de aplicar el logaritmo natural a los datos para los hiperparámetros posteriores. Consulte Fink (1997, pp. 21-22) para ver los detalles.
Exponencial λ (tasa) Gamma α,βPlantilla:Refn α+n,β+i=1nxi α observaciones que suman β [5] Lomax(x~β,α)
(distribución Lomax)
Gamma con forma conocida α β (tasa) Gamma α0,β0 α0+nα,β0+i=1nxi α0/α observaciones que suman β0 CG(𝐱~α,α0,β0)=β(𝐱~|α,α0,1,β0)Plantilla:Refn
Gamma inversa con forma conocida α β (escala inversa) Gamma α0,β0 α0+nα,β0+i=1n1xi α0/αobservaciones que suman β0
Gamma con tasa β conocida α (forma) aα1βαcΓ(α)b a,b,c ai=1nxi,b+n,c+n b o c observaciones (b para estimar α, c para estimar β) con resultado a
Gamma α (forma), β (escala inversa) pα1eβqΓ(α)rβαs p,q,r,s pi=1nxi,q+i=1nxi,r+n,s+n α fue estimado de observaciones r con resultado p; β fue estimado de s observaciones con suma q
Beta α, β Γ(α+β)kpαqβΓ(α)kΓ(β)k p,q,k pi=1nxi,qi=1n(1xi),k+n α y β fueron estimado de k observaciones con resultado p y producto de los complementos q

Notas

Plantilla:Listaref

Véase también

Referencias

Plantilla:Control de autoridades