Varianza agrupada

De testwiki
Ir a la navegación Ir a la búsqueda

En estadística, la varianza agrupada (también conocida como combinada, compuesta, o varianza general) es un método para estimar la varianza de varias poblaciones diferentes cuando la media de cada población puede ser diferente, pero se puede suponer que la varianza de cada población es la misma.

Bajo el supuesto de varianzas poblacionales iguales, la varianza muestral agrupada proporciona una estimación de la varianza con precisión más alta que las varianzas muestrales individuales. Esta mayor precisión puede llevar a un aumento de la potencia estadística cuando se usa en el contraste de hipótesis que comparan las poblaciones, como la prueba t de Student.

La raíz cuadrada de un estimador de varianza agrupada se conoce como desviación estándar agrupada (o también como combinada, compuesta o desviación estándar general).

Motivación

En estadística, muchas veces, los datos se recopilan para una variable dependiente y, en un rango de valores para la variable independiente x. Por ejemplo, la observación del consumo de combustible podría estudiarse en función de la velocidad del motor mientras la carga del motor se mantiene constante. Si, para lograr una varianza pequeña en y, se requieren numerosas pruebas repetidas para cada valor de x, el costo de la prueba puede volverse prohibitivo. Las estimaciones razonables de varianza se pueden determinar utilizando el principio de varianza agrupada después de repetir cada prueba en una x particular solo unas pocas veces.

Definición y cálculo

Definición

La varianza agrupada es una estimación de la varianza común fija σ2 que subyace a varias poblaciones que poseen diferentes medias aritméticas.

Cálculo

Si las poblaciones están indexadas de acuerdo con i=1,,k, entonces la varianza sp2 agrupada puede ser calculada por la media ponderada

sp2=i=1k(ni1)si2i=1k(ni1)=(n11)s12+(n21)s22++(nk1)sk2n1+n2++nkk,

donde ni es el tamaño de la muestra de la población i y la varianza es

si2 = 1ni1j=1ni(yjyi)2.

El uso de los factores de ponderación (ni1) en lugar de ni proviene de la corrección de Bessel.

Variantes

La estimación de mínimos cuadrados no sesgada de σ2,

sp2=i=1k(ni1)si2i=1k(ni1),

y la estimación de probabilidad máxima sesgada

sp2=i=1k(ni1)si2i=1kni,

se utilizan en diferentes contextos. El primer indicador puede dar un sp2 no sesgado para estimar σ2 cuando los dos grupos comparten una variación de población igual. El último puede dar una sp2 más estadísticamente eficiente para estimar σ2 de forma parcial. Téngase en cuenta que las cantidades si2 en el lado derecho de ambas ecuaciones son las estimaciones no sesgadas.

Ejemplo

Considérese el siguiente conjunto de datos para y, obtenidos en varios niveles de la variable independiente x.

x y
1 31, 30, 29
2 42, 41, 40, 39
3 31, 28
4 23, 22, 21, 19, 18
5 21, 20, 19, 18,17

El número de ensayos, la media, la varianza y la desviación estándar se presentan en la siguiente tabla.

x n ymedia si2 si
1 3 30.0 1.0 1.0
2 4 40.5 1.67 1.29
3 2 29.5 4.5 2.12
4 5 20.6 4.3 2.07
5 5 19.0 2.5 1.58

Estas estadísticas representan la varianza y la desviación típica para cada subconjunto de datos en los diversos niveles de x. Si se puede asumir que los mismos fenómenos están generando errores experimentales en cada nivel de x, los datos anteriores se pueden "agrupar" para expresar una estimación única de varianza y desviación estándar. En cierto sentido, esto sugiere encontrar una varianza media o una desviación estándar entre los cinco resultados anteriores. Esta variación media se calcula ponderando los valores individuales con el tamaño del subconjunto para cada nivel de x. Así, la varianza agrupada se define por

sP2=(n11)s12+(n21)s22++(nk1)sk2(n11)+(n21)++(nk1)

donde n1, n2,. . ., nk son los tamaños de los subconjuntos de datos en cada nivel de la variable x, y s12, s22,. . ., sk2 son sus respectivas variaciones.

La varianza agrupada de los datos mostrados arriba es por lo tanto:

sp2=2.764

Efecto sobre la precisión

La varianza agrupada es una estimación cuando existe una correlación entre los conjuntos de datos agrupados o el promedio de los conjuntos de datos no es idéntico. Es menos precisa cuanto más distinta de cero sea la correlación o distante de los promedios entre los conjuntos de datos.

La variación de los datos para los conjuntos de datos que no se superponen es:

σX2=(i[(NXi1)σXi2+NXiμXi2][iNXi]μX2)iNXi1

Donde la media se define como:

μX=(iNXiμXi)iNXi

Dada una probabilidad máxima sesgada definida como:

sp2=i=1k(ni1)si2i=1kni,

Entonces, el error en la estimación de probabilidad máxima sesgada es:

Error=sp2σX2=i(NXi1)si2iNXi1iNXi1(i[(NXi1)σXi2+NXiμXi2][iNXi]μX2)

Asumiendo que N es grande y tal que:

iNXiiNXi1

entonces el error en la estimación se reduce a:

E=(i[NXiμXi2][iNXi]μX2)iNXi=μX2i[NXiμXi2]iNXi

O alternativamente:

E=[iNXiμXiiNXi]2i[NXiμXi2]iNXi=[iNXiμXi]2iNXii[NXiμXi2][iNXi]2

Agregación de datos de desviación estándar

En lugar de estimar la desviación estándar agrupada, a continuación se describe la forma de agregar de forma exacta la desviación estándar cuando hay más información estadística disponible.

Estadísticas poblacionales

Las poblaciones de una serie de conjuntos, que pueden superponerse, se calculan simplemente de la siguiente manera:

NXY=NX+NYNXY

Las poblaciones de conjuntos, que no se superponen, pueden calcularse de la siguiente manera:

XY=NXY=0NXY=NX+NY

Las desviaciones estándar de las subpoblaciones no superpuestas (Plantilla:Nowrap) se pueden agregar de la siguiente manera si se conoce el tamaño (real o relativo entre sí) y las medias de cada una:

μXY=NXμX+NYμYNX+NYσXY=NXσX2+NYσY2NX+NY+NXNY(NX+NY)2(μXμY)2

Por ejemplo, supóngase que se sabe que el hombre estadounidense promedio tiene una altura media de 70 pulgadas con una desviación estándar de tres pulgadas y que la mujer estadounidense promedio tiene una altura media de 65 pulgadas con una desviación estándar de dos pulgadas. También se asume que el número de hombres, N, es igual al número de mujeres. Entonces, la media y la desviación estándar de las alturas de los adultos estadounidenses podrían calcularse como

μ=N70+N65N+N=70+652=67.5σ=32+222+(7065)222=12.753.57

Para el caso más general de poblaciones no superpuestas M, X1 hasta XM, y población agregada X=iXi,

μX=iNXiμXiiNXiσX=iNXiσXi2iNXi+i<jNXiNXj(μXiμXj)2(iNXi)2,

donde

XiXj=, i<j.

Si se conoce el tamaño (real o relativo entre sí), la media y la desviación estándar de dos poblaciones superpuestas para las poblaciones, así como su intersección, entonces la desviación estándar de la población general aún se puede calcular de la siguiente manera:

μXY=1NXY(NXμX+NYμYNXYμXY)σXY=1NXY(NX[σX2+μX2]+NY[σY2+μY2]NXY[σXY2+μXY2])μXY2

Si se agregan dos o más conjuntos de datos uno a uno, la desviación estándar del resultado se puede calcular si se conoce la desviación estándar de cada conjunto de datos y la covarianza entre cada par de conjuntos de datos:

σX=iσXi2+2i,jcov(Xi,Xj)

Para el caso especial donde no existe una correlación entre ningún par de conjuntos de datos, entonces la relación se reduce a la raíz de la suma de cuadrados:

cov(Xi,Xj)=0,i<jσX=iσXi2.

Estadísticas basadas en muestras

Las desviaciones estándar de submuestras no superpuestas (Plantilla:Nowrap) se pueden agregar de la siguiente manera si se conocen el tamaño real y las medias de cada una de ellas:

μXY=1NXY(NXμX+NYμY)σXY=1NXY1([NX1]σX2+NXμX2+[NY1]σY2+NYμY2[NX+NY]μXY2)

Para el caso más general de los conjuntos de datos no superpuestos M, X1 hasta XM, y el conjunto de datos agregados X=iXi,

μX=1iNXi(iNXiμXi)σX=1iNXi1(i[(NXi1)σXi2+NXiμXi2][iNXi]μX2)

donde

XiXj=,i<j.

Si se conoce el tamaño, la media y la desviación estándar de dos muestras superpuestas para cada muestra, así como su intersección, la desviación estándar de la muestra agregada aún se puede calcular. En general,

μXY=1NXY(NXμX+NYμYNXYμXY)σXY=[NX1]σX2+NXμX2+[NY1]σY2+NYμY2[NXY1]σXY2NXYμXY2[NX+NYNXY]μXY2NXY1

Véase también

Referencias

Enlaces externos

Plantilla:Control de autoridades