Estadística direccional

De testwiki
Revisión del 17:55 23 ene 2025 de imported>NayelisLorenzo (growthexperiments-addlink-summary-summary:3|0|0)
(difs.) ← Revisión anterior | Revisión actual (difs.) | Revisión siguiente → (difs.)
Ir a la navegación Ir a la búsqueda
La forma general de una proteína se puede parametrizar como una secuencia de puntos en la esfera unidad. Se muestran dos vistas del histograma esférico de dichos puntos para una gran colección de estructuras de proteínas. El tratamiento estadístico de dichos datos pertenece al ámbito de las estadísticas direccionales[1]

La estadística direccional (también estadística circular o estadística esférica) es la subdisciplina de la estadística que se ocupa de las direcciones (los vectores unitarios en el espacio euclídeo, Rn ), ejes (rectas desde el origen en Rn) o al movimiento de rotación en Rn. De manera más general, las estadísticas direccionales se ocupan de observaciones sobre variedades de Riemann compactas, incluida la variedad de Stiefel.

El hecho de que 0 grados y 360 grados sean ángulos idénticos, de modo que, por ejemplo, 180 grados no sea una media coherente para 2 grados y 358 grados, ilustra que se requieren métodos estadísticos especiales para el análisis de algunos tipos de datos (en este caso caso, datos angulares). Otros ejemplos de datos que pueden considerarse direccionales incluyen estadísticas que involucran períodos temporales (por ejemplo, horas del día, semanas, meses o años), direcciones de la brújula, ángulos diedros en moléculas, orientaciones o rotaciones entre otros.

Distribuciones circulares

Plantilla:AP

Cualquier función de densidad de probabilidad (FDP)  p(x) en la recta real puede ser "envuelta" alrededor de la circunferencia de un círculo de radio unitario.[2] Es decir, la FDP de la variable envuelta

θ=xw=xmod2π  (π,π]

es

pw(θ)=k=p(θ+2πk).

Este concepto se puede extender al contexto multivariado mediante una extensión de la suma simple a una cantidad de sumas F que cubren todas las dimensiones en el espacio de características:

pw(θ)=k1=kF=p(θ+2πk1𝐞1++2πkF𝐞F)

donde 𝐞k=(0,,0,1,0,,0)𝖳 es el k-ésimo vector de una base euclídea.

Las siguientes secciones muestran algunas distribuciones circulares relevantes.

Distribución circular de von Mises

Plantilla:AP

La distribución de von Mises es una distribución circular que, como cualquier otra distribución circular, puede considerarse como una envoltura de una determinada distribución de probabilidad lineal alrededor de una circunferencia. La distribución de probabilidad lineal subyacente para la distribución de von Mises es matemáticamente intratable; sin embargo, para fines estadísticos, no es necesario abordar la distribución lineal subyacente. La utilidad de la distribución de von Mises es doble: es la más manejable matemáticamente de todas las distribuciones circulares, lo que permite un análisis estadístico más simple, y es una aproximación cercana a la distribución normal envuelta, que, de manera análoga a la distribución normal lineal, es importante porque es el caso límite para la suma de un gran número de pequeñas desviaciones angulares. De hecho, la distribución de von Mises a menudo se conoce como distribución "normal circular" debido a su facilidad de uso y a su estrecha relación con la distribución normal envuelta (Fisher, 1993).

La FDP de la distribución de von Mises es:

f(θ;μ,κ)=eκcos(θμ)2πI0(κ) donde I0 es la función de Bessel modificada de orden 0.

Distribución uniforme circular

Plantilla:AP

La función de densidad de probabilidad (FDP) de la distribución circular uniforme viene dada por

U(θ)=12π.

También se puede considerar como κ=0 de la distribución de von Mises vista anteriormente.

Distribución normal envuelta

Plantilla:AP

La FDP de la distribución normal envuelta (NE) es:

NE(θ;μ,σ)=1σ2πk=exp[(θμ2πk)22σ2]=12πϑ(θμ2π,iσ22π)

donde μ y σ son la media y la desviación estándar de la distribución no envuelta, respectivamente y ϑ(θ,τ) es la función theta de Jacobi:

ϑ(θ,τ)=n=(w2)nqn2 donde weiπθ y qeiπτ.

Distribución de Cauchy envuelta

Plantilla:AP El pdf de la distribución de Cauchy envuelta (CE) es:

CE(θ;θ0,γ)=n=γπ(γ2+(θ+2πnθ0)2)=12πsinhγcoshγcos(θθ0)

donde γ es el factor de escala y θ0 es la posición máxima.

Distribución de Lévy envuelta

Plantilla:AP

La FDP de la distribución de Lévy envuelta (LE) es:

fLE(θ;μ,c)=n=c2πec/2(θ+2πnμ)(θ+2πnμ)3/2

donde el valor del sumando se toma como cero cuando θ+2πnμ0, c es el factor de escala y μ es el parámetro de ubicación.

Distribución normal proyectada

Plantilla:AP

La distribución normal proyectada es una distribución circular que representa la dirección de una variable aleatoria con distribución normal multivariada, obtenida por proyección radial de la variable sobre la esfera unitaria (n-1). Debido a esto, y a diferencia de otras distribuciones circulares comúnmente utilizadas, no es simétrica ni unimodal.

Distribuciones en variedades de dimensiones superiores

Tres conjuntos de puntos tomados de diferentes distribuciones de Kent en la esfera

También existen distribuciones en la esfera (como la distribución de Kent),[3] en la esfera N-dimensional (como la distribución de von Mises-Fisher),[4] o en un toro (como la distribución bivariada de von Mises).[5]

La matriz de distribución de von Mises-Fisher[6] es una distribución sobre una variedad de Stiefel, y se puede utilizar para construir distribuciones de probabilidad sobre matrices de rotación.[7]

La distribución de Bingham es una distribución sobre ejes en N dimensiones, o de manera equivalente, sobre puntos en la esfera (N − 1)-dimensional con las antípodas identificadas.[8] Por ejemplo, si N = 2, los ejes son rectas no dirigidas que pasan por el origen en el plano. En este caso, cada eje corta el círculo unitario en el plano (que es la esfera unidimensional) en dos puntos que son antípodas entre sí. Para N=4, la distribución de Bingham es una distribución en el espacio del cuaternión unidad (versores). Dado que un versor corresponde a una matriz de rotación, la distribución de Bingham para N=4 se puede utilizar para construir distribuciones de probabilidad en el espacio de las rotaciones, al igual que la distribución de la matriz de von Mises-Fisher.

Estas distribuciones se utilizan, por ejemplo, en geología,[9] en cristalografía[10] y en bioinformática.[1] [11] [12]

Momentos

Los momentos vectoriales sin procesar (o trigonométricos) de una distribución circular se definen como

mn=E(zn)=ΓP(θ)zndθ

donde Γ es cualquier intervalo de longitud 2π, P(θ) es la FDP de la distribución circular y z=eiθ. Dado que la integral P(θ) es la unidad y el intervalo de integración es finito, se deduce que los momentos de cualquier distribución circular son siempre finitos y están bien definidos.

Los momentos muestrales se definen de manera análoga como:

mn=1Ni=1Nzin.

El vector resultante de la población, la longitud y el ángulo medio se definen en analogía con los parámetros de muestra correspondientes:

ρ=m1
R=|m1|
θn=Arg(mn).

Además, las longitudes de los momentos superiores se definen como:

Rn=|mn|

mientras que las partes angulares de los momentos superiores son solo (nθn)mod2π. Las longitudes de todos los momentos estarán entre 0 y 1.

Medidas de localización y difusión

Se pueden definir varias medidas de tendencia central y de dispersión tanto para la población como para una muestra extraída de esa población.[13]

Tendencia central

Plantilla:VT

La medida de ubicación más común es la media circular. La media circular poblacional es simplemente el primer momento de la distribución, mientras que la media muestral es el primer momento de la muestra. La media muestral servirá como estimador insesgado de la media poblacional.

Cuando los datos están concentrados, la mediana y la moda pueden definirse por analogía con el caso lineal, pero para datos más dispersos o multimodales, estos conceptos no son útiles.

Dispersión

Plantilla:VT

Las medidas más comunes de propagación circular son:

  • Varianza circular: Para una muestra dada, la varianza circular se define como:
Var(z)=1R y para la población :Var(z)=1R Ambas tendrán valores entre 0 y 1.
  • Desviación estándar circular:
S(z)=ln(1/R2)=2ln(R) :S(z)=ln(1/R2)=2ln(R) con valores entre 0 e infinito.

Esta definición de la desviación estándar circular (en lugar de la raíz cuadrada de la varianza) es útil porque, para una distribución normal ajustada, es un estimador de la desviación estándar de la distribución normal subyacente. Por tanto, permitirá estandarizar la distribución circular como en el caso lineal, para valores pequeños de la desviación estándar. Esto también se aplica a la distribución de von Mises, que se aproxima mucho a la distribución normal envuelta. Téngase en cuenta que para S(z) pequeño, se tiene que S(z)2=2Var(z).

  • El Dispersión circular:
δ=1R22R2 :δ=1R22R2 con valores entre 0 e infinito.

Esta medida de dispersión resulta útil en el análisis estadístico de la varianza.

Distribución de la media

Dado un conjunto de N medidas zn=eiθn, el valor medio de z se define como:

z=1Nn=1Nzn

que puede expresarse como:

z=C+iS

donde

C=1Nn=1Ncos(θn)and S=1Nn=1Nsin(θn)

o, alternativamente como:

z=Reiθ

donde

R=C2+S2and θ=arctan(S/C).

La distribución del ángulo medio (θ) para una FDP circular P(θ) vendrá dada por:

P(C,S)dCdS=P(R,θ)dRdθ=ΓΓn=1N[P(θn)dθn]

donde Γ está sobre cualquier intervalo de longitud 2π y la integral está sujeta a la restricción de que S y C sean constantes o, alternativamente, que R y θ sean constantes.

El cálculo de la distribución de la media para la mayoría de las distribuciones circulares no es analíticamente posible, y para realizar un análisis de varianza se necesitan aproximaciones numéricas o matemáticas.[14]

El teorema del límite central se puede aplicar a la distribución de las medias muestrales. (artículo principal: Teorema del límite central para estadísticas direccionales). Se puede demostrar[14] que la distribución de [C,S] se aproxima a la distribución normal multivariada en el límite de un tamaño de muestra grande.

Pruebas de bondad de ajuste y significancia

Para datos cíclicos (por ejemplo, si están distribuidos uniformemente):

Véase también

Referencias

Plantilla:Listaref

Lecturas adicionales

Plantilla:Control de autoridades

  1. 1,0 1,1 Plantilla:Cite journal
  2. Bahlmann, C., (2006), Directional features in online handwriting recognition, Pattern Recognition, 39
  3. Kent, J (1982) The Fisher-Bingham distribution on the sphere. J Royal Stat Soc, 44, 71-80.
  4. Fisher, RA (1953) Dispersion on a sphere. Proc. Roy. Soc. London Ser. A., 217, 295-305
  5. Plantilla:Cite journal
  6. Plantilla:Cite journal
  7. Plantilla:Cite journal
  8. Plantilla:Cite journal
  9. Plantilla:Cite journal
  10. Plantilla:Cite journal
  11. Kent, J.T., Hamelryck, T. (2005). Using the Fisher-Bingham distribution in stochastic models for protein structure. In S. Barber, P.D. Baxter, K.V.Mardia, & R.E. Walls (Eds.), Quantitative Biology, Shape Analysis, and Wavelets, pp. 57-60. Leeds, Leeds University Press
  12. Plantilla:Cite journal
  13. Fisher, NI., Statistical Analysis of Circular Data, Cambridge University Press, 1993. Plantilla:ISBN
  14. 14,0 14,1 Plantilla:Cite book