Distancia de energia

La distancia de energía es una distancia estadística entre distribuciones de probabilidad. Si X y Y son dos vectores aleatorios independientes en R^d con funciones de distribución acumulada (cdf) F y G respectivamente, la distancia de energía entre las distribuciones F y G se define mediante la raíz cuadrada de

D^{2} (F, G) = 2 E ‖ X - Y ‖ - E ‖ X - X^{'} ‖ - E ‖ Y - Y^{'} ‖ \geq 0,

donde (X, X', Y, Y') son variables aleatorias independientes, siendo X y X' distribuidas de acuerdo a F, Y e Y' según G, $E$ es el operador esperanza, y || . || denota la norma euclidiana usual. La distancia de energía satisface todos los axiomas de una distancia, por tanto, la distancia de energía caracteriza la igualdad de distribuciones, esto es, D(F,G) = 0 si y sólo si F = G. La noción de distancia de fue introducida inicialmente en 1985 por Gábor J. Székely, quién demostró para el caso unidimensional la siguiente relación:

D^{2} (F, G) = \int_{- \infty}^{\infty} (F (x) - G (x))^{2} d x,

que muestra la equivalencia con la distancia de Harald Cramér.

Para una prueba elemental de esta equivalencia, véase por ejemplo Székely (2002).^[1]

En dimensiones más altas (p>1), como la distancia de energía es invariante ante rotaciónes, mientras la distancia de Cramér no lo es, el test estadístico asociado al problema de testear la igual de distribución entre dos muestras no es de distribución libre.

Generalización a espacios métricos

El concepto de distancia de energía puede generalizarse a un contexto más general de espacios métricos. Sea $(M, d)$ un espacio métrico con sigma álgebra de Borel $ℬ (M)$ . Denotemos mediante $𝒫 (M)$ denotar la colección de todas medidas de probabilidad en el espacio medible $(M, ℬ (M))$ . Si μ y ν son medidas de probabilidad en $𝒫 (M)$ , entonces la distancia de energía, entre los elementos aleatorios μ y ν, viene dado por la raíz cuadrada de

D^{2} (μ, ν) = 2 E [d (X, Y)] - E [d (X, X^{'})] - E [d (Y, Y^{'})] .

En general, la expresión anterior no es necesariamente positiva, por ello tenemos que introducir restricciones adicionales sobre la métrica, como que la métrica $(M, d)$ sea de tipo fuertemente negativo.^[2] Bajo estas condiciones, podemos caracterizar la igual de distribución entre las variables aleatorias, la distancia de energía es cero si y sólo si X=Y (en distribución). Todo espacios euclidianos e incluso, los espacios de Hilbert separables son de tipo fuertemente negativo.^[3]

En la literatura de los métodos kernels en el campo del aprendizaje de máquina, hay una equivalencia entre las distancias derivadas con los métodos kernel de incrustación y la distancia de energía.^[4]^[5] Esta equivalencia puede encontrarse tanto a nivel poblacional como muestral.

Estadístico de la distancia de energía

Un concepto estadístico relacionado, es el concepto del estadístico de la distancia de energía,^[6] acuñado por el profesor Gábor J. Székely en 1980, en diferentes conferencias tanto en su país natal de Hungría, como en distintas universidad norteamericanas: MIT, Yale, y Columbia. Este concepto está basado en la idea de la energía potencial del newton.^[7] La noción de la energía potencial estadística se basea en considerar las observaciones estadísticas como cuerpos celestiales, y ver el estadístico como una energía potencial estadística qué es cero sólo cuándo la hipótesis nula del estadístico de contraste es cierta. El estadístico de la distancia energía puede ser visto también como una distancia entre muestras aleatorias.

Constrastar la igual de distribución entre dos muestras aleatorias

Consideremos la hipótesis nula que las variables aleatorias, X e Y, tienen las mismas distribuciones de probabilidad: $μ = ν$ . Dadas dos muestras aleatorias de X e Y, respectivamente:

x_{1}, \dots, x_{n}

, e,

y_{1}, \dots, y_{m},

consideremos las siguientes medias aritméticas entre las distancias de los elementos muéstrales:

.

A := \frac{1}{n m} \sum_{i = 1}^{n} \sum_{j = 1}^{m} ‖ x_{i} - y_{j} ‖, B := \frac{1}{n^{2}} \sum_{i = 1}^{n} \sum_{j = 1}^{n} ‖ x_{i} - x_{j} ‖, C := \frac{1}{m^{2}} \sum_{i = 1}^{m} \sum_{j = 1}^{m} ‖ y_{i} - y_{j} ‖

La distancia de energía muestral se define mediante:

E_{n, m} (X, Y) := 2 A - B - C .

Uno puede probar que el estadístico muestral anterior se comparta como una verdadera distancia estadística entre los elementos muéstrales. En la práctica con fines de probar la consistencia del test estadístico asociado, consideramos el siguiente estadístico de contraste normalizado por el tamaño de la muestra de cada muestra:

T = \frac{n m}{n + m} E_{n, m} (X, Y) .

Como el estadístico de contraste se puede escribir como un V-estadístico, se puede probar que el estadístico anterior, converge distribucionalmente a una forma cuadrática de variables aleatorias normales e independientes entre sí. Bajo la hipótesis alternativa, el estadístico anterior diverge con probabilidad igual a 1. Esto muestra que el test estadístico asociado al estadístico de contraste anterior es ómnibus.^[8]

Bondad de ajuste

De acuerdo a las ideas de la distancia de energía, podemos definir un test de bondad de ajuste. En particular, el método de bondad de ajuste con la distancia de energía viene específicado mediante

Q_{n} = n (\frac{2}{n} \sum_{i = 1}^{n} E ‖ x_{i} - X ‖^{α} - E ‖ X - X^{'} ‖^{α} - \frac{1}{n^{2}} \sum_{i = 1}^{n} \sum_{j = 1}^{n} ‖ x_{i} - x_{j} ‖^{α}),

donde X y X' son variables aleatorias independientes e idénticamente distribuidos según la distribución especificada en la hipótesis nula, y $α \in (0, 2)$ . La condición para que el procedimiento de bondad de ajuste sea ómnibus es la existencia de momentos de orden $α$ en la variable aleatoria X. Bajo la hipótesis nula, la distribución asintótica de Q_n es de nuevo una forma cuadrática de variables aleatorias Gaussianas. Bajo una hipótesis alternativa, Qn diverge a infinito con probabilidad 1, y por tanto el estadístico de contraste define un test ómnibus.

En el caso relevante de testear si una distribución es gaussiana,^[9] el software necesario se encuentra públicamente disponible en el paquete de R energy.

Aplicaciones

Las aplicaciones de la distancia de energía incluyen entre otras:

Clustering Jerárquico (una generalización del método de Ward)^[10]^[11]
Métodos de bondad de ajuste de gaussanidad^[9]
Test de igualdad de distribución con dos o más muestras,^[12]^[13]
Detección de puntos de^[14]
Test de independencia estadística:
- Distancia de covarianza y correlación,^[15]
- Distancia de covarianza para procesos estocásticos.^[16]

Estadística robusta^[17]
Selección de genes^[18]
Microarray Análisis de datos ómicos^[19]
Análisis de estructura materiales^[20]
Morfométrico y análisis quimiometrico^[21]

Referencias

Plantilla:Listaref Plantilla:Control de autoridades

↑ E-Statistics: The energy of statistical samples (2002) PDF Plantilla:Wayback
↑ Klebanov, L. B. (2005) N-distances and their Applications, Karolinum Press, Charles University, Prague.
↑ Plantilla:Cita publicación
↑ Plantilla:Cita publicación
↑ Plantilla:Cita publicación
↑ G. J. Szekely and M. L. Rizzo (2013). Energy statistics: statistics based on distances. Journal of Statistical Planning and Inference Volume 143, Issue 8, August 2013, pp. 1249-1272.
↑ Székely, G.J. (2002) E-statistics: The Energy of Statistical Samples, Technical Report BGSU No 02-16.
↑ G. J. Szekely and M. L. Rizzo (2004). Testing for Equal Distributions in High Dimension, InterStat, Nov. (5). Reprint Plantilla:Wayback.
↑ ^9,0 ^9,1 Plantilla:Cita publicación Reprint Plantilla:Wayback
↑ Székely, G. J. and Rizzo, M. L. (2005) Hierarchical Clustering via Joint Between-Within Distances: Extending Ward's Minimum Variance Method, Journal of Classification, 22(2) 151–183
↑ Plantilla:Cita publicación "eprint".
↑ M. L. Rizzo and G. J. Székely (2010). DISCO Analysis: A Nonparametric Extension of Analysis of Variance, Annals of Applied Statistics Vol. 4, No. 2, 1034–1055. Plantilla:Arxiv
↑ Szekely, G. J. and Rizzo, M. L. (2004) Testing for Equal Distributions in High Dimension, InterStat, Nov. (5). Reprint Plantilla:Wayback.
↑ Plantilla:Cita publicación Preprint:TR534.
↑ Székely, G. J., Rizzo M. L. and Bakirov, N. K. (2007). "Measuring and testing independence by correlation of distances", The Annals of Statistics, 35, 2769–2794. Plantilla:Arxiv
↑ Székely, G. J. and Rizzo, M. L. (2009). "Brownian distance covariance", The Annals of Applied Statistics, 3/4, 1233–1308. Plantilla:Arxiv
↑ Klebanov L.B. A class of Probability Metrics and its Statistical Applications, Statistics in Industry and Technology: Statistical Data Analysis, Yadolah Dodge, Ed. Birkhauser, Basel, Boston, Berlin, 2002,241-252.
↑ Statistics and Data Analysis, 2006, 50, 12, 3619-3628Rui Hu, Xing Qiu, Galina Glazko, Lev Klebanov, Andrei Yakovlev Detecting intergene correlation changes in microarray analysis: a new approach to gene selection, BMCBioinformatics, Vol.10, 20 (2009), 1-15.
↑ Yuanhui Xiao, Robert Frisina, Alexander Gordon, Lev Klebanov, Andrei Yakovlev Multivariate Search for Differentially Expressed Gene Combinations BMC Bioinformatics, 2004, 5:164; Antoni Almudevar, Lev Klebanov, Xing Qiu, Andrei Yakovlev Utility of correlation measures in analysis of gene expression, In: NeuroRX, 2006, 3, 3, 384-395; Klebanov Lev, Gordon Alexander, Land Hartmut, Yakovlev Andrei A permutation test motivated by microarray data analysis
↑ Viktor Benes, Radka Lechnerova, Lev Klebanov, Margarita Slamova, Peter Slama Statistical comparison of the geometry of second-phase particles, Materials Characterization , Vol. 60 (2009 ), 1076 - 1081.
↑ E. Vaiciukynas, A. Verikas, A. Gelzinis, M. Bacauskiene, and I. Olenina (2015) Exploiting statistical energy test for comparison of multiple groups in morphometric and chemometric data, Chemometrics and Intelligent Laboratory Systems, 146, 10-23.

[1] E-Statistics: The energy of statistical samples (2002) PDF Plantilla:Wayback

[klebanov-2] Klebanov, L. B. (2005) N-distances and their Applications, Karolinum Press, Charles University, Prague.

[3] Plantilla:Cita publicación

[4] Plantilla:Cita publicación

[5] Plantilla:Cita publicación

[6] G. J. Szekely and M. L. Rizzo (2013). Energy statistics: statistics based on distances. Journal of Statistical Planning and Inference Volume 143, Issue 8, August 2013, pp. 1249-1272.

[Székely,_G.J._2002-7] Székely, G.J. (2002) E-statistics: The Energy of Statistical Samples, Technical Report BGSU No 02-16.

[8] G. J. Szekely and M. L. Rizzo (2004). Testing for Equal Distributions in High Dimension, InterStat, Nov. (5). Reprint Plantilla:Wayback.

[SR2005-9] 9,0 ^9,1 Plantilla:Cita publicación Reprint Plantilla:Wayback

[10] Székely, G. J. and Rizzo, M. L. (2005) Hierarchical Clustering via Joint Between-Within Distances: Extending Ward's Minimum Variance Method, Journal of Classification, 22(2) 151–183

[11] Plantilla:Cita publicación "eprint".

[12] M. L. Rizzo and G. J. Székely (2010). DISCO Analysis: A Nonparametric Extension of Analysis of Variance, Annals of Applied Statistics Vol. 4, No. 2, 1034–1055. Plantilla:Arxiv

[13] Szekely, G. J. and Rizzo, M. L. (2004) Testing for Equal Distributions in High Dimension, InterStat, Nov. (5). Reprint Plantilla:Wayback.

[14] Plantilla:Cita publicación Preprint:TR534.

[15] Székely, G. J., Rizzo M. L. and Bakirov, N. K. (2007). "Measuring and testing independence by correlation of distances", The Annals of Statistics, 35, 2769–2794. Plantilla:Arxiv

[16] Székely, G. J. and Rizzo, M. L. (2009). "Brownian distance covariance", The Annals of Applied Statistics, 3/4, 1233–1308. Plantilla:Arxiv

[17] Klebanov L.B. A class of Probability Metrics and its Statistical Applications, Statistics in Industry and Technology: Statistical Data Analysis, Yadolah Dodge, Ed. Birkhauser, Basel, Boston, Berlin, 2002,241-252.

[18] Statistics and Data Analysis, 2006, 50, 12, 3619-3628Rui Hu, Xing Qiu, Galina Glazko, Lev Klebanov, Andrei Yakovlev Detecting intergene correlation changes in microarray analysis: a new approach to gene selection, BMCBioinformatics, Vol.10, 20 (2009), 1-15.

[19] Yuanhui Xiao, Robert Frisina, Alexander Gordon, Lev Klebanov, Andrei Yakovlev Multivariate Search for Differentially Expressed Gene Combinations BMC Bioinformatics, 2004, 5:164; Antoni Almudevar, Lev Klebanov, Xing Qiu, Andrei Yakovlev Utility of correlation measures in analysis of gene expression, In: NeuroRX, 2006, 3, 3, 384-395; Klebanov Lev, Gordon Alexander, Land Hartmut, Yakovlev Andrei A permutation test motivated by microarray data analysis

[20] Viktor Benes, Radka Lechnerova, Lev Klebanov, Margarita Slamova, Peter Slama Statistical comparison of the geometry of second-phase particles, Materials Characterization , Vol. 60 (2009 ), 1076 - 1081.

[21] E. Vaiciukynas, A. Verikas, A. Gelzinis, M. Bacauskiene, and I. Olenina (2015) Exploiting statistical energy test for comparison of multiple groups in morphometric and chemometric data, Chemometrics and Intelligent Laboratory Systems, 146, 10-23.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

Distancia de energia

Sumario

Generalización a espacios métricos

Estadístico de la distancia de energía

Constrastar la igual de distribución entre dos muestras aleatorias

Bondad de ajuste

Aplicaciones

Referencias

Menú de navegación

Distancia de energia

Generalización a espacios métricos

Estadístico de la distancia de energía

Constrastar la igual de distribución entre dos muestras aleatorias

Bondad de ajuste

Aplicaciones

Referencias

Menú de navegación

Buscar