Distribución empírica

De testwiki
Ir a la navegación Ir a la búsqueda

En estadística, una función de distribución empírica (comúnmente llamada función de distribución empírica, FDe) es la función de distribución asociada con una medida empírica de una muestra.[1] Esta función de distribución acumulativa es una función escalonada que salta 1/n en cada uno de los n valores dentro de la muestra empírica. Su valor en cualquier valor especificado de la variable medida es la fracción de observaciones de la variable medida que son menores o iguales al valor especificado.

La función de distribución empírica es una estimación de la función de distribución acumulativa que generó los puntos en la muestra. Esta función, converge con la probabilidad 1 a esa distribución subyacente a cuando n, de acuerdo con el teorema de Glivenko-Cantelli. Existen varios resultados para cuantificar la tasa de convergencia de la función de distribución empírica a la función de distribución acumulativa subyacente.

Definición

Sea (X1,,Xn) sean n variables aleatorias reales independientes e idénticamente distribuidas que se distribuyen según la función de distribución acumulativa F(t). En ese caso, la función de distribución empírica se define como[2][3]

Plantilla:Ecuación

donde 𝟏A es la función indicatriz de eventos A. Para un t fijo, la función indicatriz 𝟏Xit es una variable aleatoria de Bernoulli con el parámetro p=F(t); por lo tanto, nF^n(t) es una variable aleatoria binomial con media nF(t) y varianza nF(t)(1F(t)). Esto implica que F^n(t) es un estimador no sesgado para F(t).

Sin embargo, en algunos libros de texto, se define alternativamente como:

F^n(t)=1n+1i=1n𝟏Xit[4][5]

Media

La media de la distribución empírica es un estimador no sesgado de la media de la distribución de la población.

Plantilla:Ecuación

que se denota más comúnmente x¯

Varianza

La varianza de los tiempos de distribución empírica nn1 es un estimador imparcial de la varianza de la distribución poblacional, para cualquier distribución de X que tenga una varianza finita.

Plantilla:Ecuación

Error cuadrático medio

El error cuadrático medio para la distribución empírica es el siguiente.

Plantilla:Ecuación Donde θ^ es un estimador y θ un parámetro desconocido.

Cuantiles

Para cualquier número real a la notación a (léase "techo de a") denota el entero mínimo mayor o igual que a. Para cualquier número real a, la notación a (léase "piso de a") denota el entero mayor menor o igual que a.

Si nq no es un entero, entonces el q-th quantile es único y es igual a x(nq)

Si nq es un entero, entonces el cuantil q-th no es único y es cualquier número real x tal que Plantilla:Ecuación

Mediana empírica

Si n es impar, entonces la mediana empírica es el número

Plantilla:Ecuación

Si n es par, entonces la mediana empírica es el número

Plantilla:Ecuación

Propiedades asintóticas

Dado que la relación (n+1)/n se acerca a uno a medida que n tiende a infinito, las propiedades asintóticas de las dos definiciones que se dan arriba son las mismas. Además, por la ley fuerte de los números grandes, el estimador F^n(t) converge a F(t) cuando n casi con seguridad, para cada valor de t:[2]

Plantilla:Ecuación

por lo tanto, el estimador F^n(t) es consistente. Esta expresión establece que hay convergencia puntual de la función de distribución empírica a la verdadera función de distribución acumulativa. Un resultado más lógicamente fuerte, llamado el teorema de Glivenko-Cantelli, establece que la convergencia de hecho ocurre uniformemente sobre Plantilla:Math:[6]

Plantilla:Ecuación

La norma del suprmeo en esta expresión se llama estadística de Kolmogorov–Smirnov para la bondad del ajuste entre la distribución empírica F^n(t) y la verdadera función de distribución acumulativa asumida F. Puedne usarse otras normas como, por ejemplo, la norma L2, lo que da lugar a la estadística de Cramér-von Mises.

La distribución asintótica se puede caracterizar de varias maneras diferentes. En primer lugar, el teorema del límite central establece que pointwise, F^n(t) tiene una distribución asintóticamente normal con el estándar n tasa de convergencia:[2] {{ecuación|

n(F^n(t)F(t))  d  𝒩(0,F(t)(1F(t))).||left}

Este resultado se extiende por el teorema de Donsker, que afirma que el proceso empírico n(F^nF), visto como una función indexada por t, converge en distribución en el espacio de Skorokhod D[,+] al medio-cero proceso gaussiano GF=BF, donde Plantilla:Math es el puente Browniano estándar.[6] La estructura de covarianza de este proceso gaussiano es

Plantilla:Ecuación

La tasa uniforme de convergencia en el teorema de Donsker se puede cuantificar por el resultado conocido como incrustación húngara:[7]

Plantilla:Ecuación

Alternativamente, la tasa de convergencia de n(F^nF) también se puede cuantificar en términos del comportamiento asintótico de la suposición de esta expresión. El número de resultados existen en este lugar, por ejemplo, la desigualdad de Dvoretzky–Kiefer–Wolfowitz proporciona probabilidades limitadas en la cola de nF^nF:[7] Plantilla:Ecuación

De hecho, Kolmogorov demostró que si la función de distribución acumulativa F es continua, entonces la expresión nF^nF converge en distribución a B, que tiene la distribución de Kolmogorov que no depende de la forma de F.

Otro resultado, que se desprende de la ley del logaritmo iterado, es que[7]

Plantilla:Ecuación

y

Plantilla:Ecuación

Intervalos de confianza

Gráficos empíricos de CDF, CDF e intervalos de confianza para varios tamaños de muestra de distribución normal

Según desigualdad de Dvoretzky-Kiefer-Wolfowitz el intervalo que contiene el verdadero CDF, F(x), con probabilidad 1α se especifica como

Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de la distribución de Cauchy
Fn(x)εF(x)Fn(x)+ε where ε=ln2α2n.

De acuerdo con los límites anteriores, podemos trazar los intervalos empíricos CDF, CDF y Confidence para diferentes distribuciones utilizando cualquiera de las implementaciones estadísticas. A continuación se muestra la sintaxis de Statsmodel para trazar la distribución empírica.

Gráficos empíricos de CDF, CDF e intervalo de confianza para varios tamaños de muestra de distribución triangular

Implementación estadística

Una lista no exhaustiva de implementaciones de software de la función de distribución empírica es la siguiente:

  • En R software, calculamos una función empírica de distribución acumulativa, con varios métodos para trazar, imprimir y calcular con un objeto "ecdf".
  • En MATLAB podemos utilizar la gráfica de la función de distribución acumulativa empírica (cdf)
  • jmp de SAS, la gráfica CDF crea una gráfica de la función empírica de distribución acumulativa.
  • Minitab, crear un CDF empírico
  • Mathwave, podemos ajustar la distribución de probabilidad a nuestros datos
  • Dataplot, podemos trazar la gráfica empírica de CDF
  • Scipy Plantilla:Wayback, usando scipy.stats podemos trazar la distribución
  • Statsmodels, podemos usar statsmodels.distributions.empirical_distribution. ECDF
  • Matplotlib, podemos usar histogramas para trazar una distribución acumulativa
  • Seaborn, utilizando la función seaborn.ecdfplot
  • Plotly, usando la función plotly.express.ecdf
  • Excel, podemos trazar la gráfica empírica de CDF

Referencias

Plantilla:Listaref

Bibliografía

Plantilla:Control de autoridades

  1. Plantilla:Cite book
  2. 2,0 2,1 2,2 Plantilla:Cite book
  3. Plantilla:Cita web
  4. Coles, S. (2001) An Introduction to Statistical Modeling of Extreme Values. Springer, p. 36, Definición 2.4. Plantilla:ISBN.
  5. Madsen, H.O., Krenk, S., Lind, S.C. (2006) Métodos de seguridad estructural. Publicaciones Dover. págs. 148-149. Plantilla:ISBN
  6. 6,0 6,1 Plantilla:Cite book
  7. 7,0 7,1 7,2 Plantilla:Cite book