Teorema de aproximación universal

De testwiki
Ir a la navegación Ir a la búsqueda

Los teoremas de aproximación universal en la teoría matemática de las redes neuronales artificiales, son teoremas [1][2] de la siguiente forma: Plantilla:Cita Esto es, la familia de redes neuronales es densa en ese espacio funcional.

La versión más difundida establece que las redes neuronales prealimentadas con funciones de activación no-polinómicas son densas en el espacio de las funciones continuas entre dos espacios euclidianos, con respecto a la topología de convergencia compacta.

  • Los teoremas de aproximación universal son teoremas de existencia: Simplemente afirman que existe una tal secuencia ϕ1,ϕ2,f y no proveen manera alguna para efectivamente hallar una secuencia de esas características. Tampoco garantizan que algún método, como por ejemplo la retropropagación, pueda realmente encontrar una secuencia tal. Cualquier método de búsqueda en el espacio de las redes neuronales, incluido el de retropropagación, podría o no hallar una secuencia convergente (en efecto, es posible que la retropropagación quede atascada en un óptimo local).
  • Los teoremas de aproximación universal son teoremas de límite: Simplemente afirman que para toda función f y para un criterio de cercanía ϵ>0, si hay suficientes neuronas en una red neuronal, entonces existe una red neuronal con ese número de neuronas que aproxima a f dentro del margen ϵ. No existe garantía de que algún tamaño finito, digamos 10 000 neuronas, sea suficiente.

Contexto

Las redes neuronales artificiales son combinaciones de múltiples funciones matemáticas simples que implementan funciones más complejas, que típicamente transforman vectores de componentes reales en vectores de componentes reales. Los espacios de funciones multivariables que se pueden implementar por medio de una red se encuentran determinados por la estructura de la red, el conjunto de funciones simples en cuestión, así como por sus parámetros multiplicativos. Se han dedicado grandes esfuerzos teóricos a la caracterización de estos espacios funcionales.

La mayoría de los teoremas de aproximación universal perteneces a una de estas dos clases. La primera de ellas cuantifica la capacidad aproximadora de las redes neuronales con un número arbitrario de neuronas artificiales (el caso de "ancho arbitrario"), mientras que la segunda se centra en el caso del número arbitrario de capas ocultas, cada una de las cuales contiene un número limitado de neuronas (el caso de "profundidad arbitraria"). Además de estas dos clases, también existen teoremas de aproximación universal para redes neuronales con un número acotado de capas ocultas, cada una de las cuales contiene un número limitado de neuronas (caso de "profundidad acotada y ancho acotado").

Historia

Ancho arbitrario

Los primeros ejemplos fueron para el caso de ancho arbitrario. En 1989, Plantilla:Ill efectuó la prueba para funciones de activación sigmoides.[3] También en 1989, Kurt Hornik, Maxwell Stinchcombe y Halbert White mostraron que las redes neuronales prealimentadas multicapas con no más que una capa oculta son aproximadores universales.[1] En 1991, Hornik también mostró[4] que no es la elección específica de la función activadora, sino más bien la propia arquitectura prealimentada multicapas la que le otorga a las redes neuronales su potencial función como aproximadores universales. Moshe Leshno et al, en 1993,[5] y luego Allan Pinkus, en 1999,[6] mostraron que la propiedad de aproximación universal es equivalente a que la función de activación sea no-polinómica.

Profundidad arbitraria

El caso de profundidad arbitraria también fue estudiado por varios autores tales como Gustaf Gripenberg en 2003,[7] Dmitry Yarotsky,[8] Zhou Lu et al en 2017,[9] Boris Hanin y Mark Sellke en 2018,[10] los que se centraron en las redes neuronales con función de activación ReLU. En 2020, Patrick Kidger y Terry Lyons[11] extendieron esos resultados al caso de redes neuronales con funciones activadoras generales como p.ej. tanh, GeLU o Swish.

Un caso especial de profundidad arbitraria consiste en que cada componente de la composición provenga de un conjunto finito de aplicaciones. En 2024, Cai[12] construyó un conjunto finito de aplicaciones, denominado "vocabulario", tal que cualquiera función continua se pudiera aproximar componiendo una secuencia con elementos de este vocabulario. Esto se asemeja al concepto de composicionalidad en lingüística, que consiste en la idea de que un vocabulario finito de elementos básicos se puede combinar por vía de una gramática para expresar un rango infinito de significados.

Profundidad y ancho acotados

El caso de profundidad y ancho acotados fue estudiado primero por Maiorov y Pinkus en 1999.[13] Ellos demostraron que existe una función de activación analítica sigmoidal tal que las redes neuronales de dos capas ocultas dotadas con ella sean aproximadores universales.

Guliyev e Ismailov[14] construyeron una función de activación sigmoidal lisa que provee la propiedad de aproximación universal para redes neuronales prealimentadas de dos capas ocultas con menos unidades en sus capas ocultas.

Los mismos autores[15] construyeron redes de una sola capa oculta de ancho acotado que siguen siendo aproximadores universales para funciones de una sola variable. Sin embargo esto no se aplica a las funciones multivariadas.

Shen et.al.[16] obtuvieron información cuantitativa precisa acerca de la profundidad y el ancho requeridos para aproximar una función objetivo por medio de redes neuronales ReLU profundas y anchas.

Límites cuantitativos

La cuestión del ancho mínimo requerido para la universalidad fue estudiada primero en 2021, cuando Park et al obtuvieron el ancho mínimo requerido para una aproximación universal de las funciones de Lp usando redes neuronales prealimentadas con funciones de activación ReLU.[17] Resultados similares y que pueden aplicarse directamente a las redes neuronales residuales también se obtuvieron el mismo año por Paulo Tabuada y Bahman Gharesifard empleando argumentos de teoría del control.[18][19] En 2023, Cai obtuvo el límite de ancho mínimo óptimo para la aproximación universal.[20]

Para el caso de profundidad arbitraria, Leonie Papon y Anastasis Kratsios derivaron estimaciones explícitas de profundidad dependientes de la regularidad de la función objetivo y de la función de activación.[21]

Redes de Kolmogorov

El teorema de representación de Kolmogórov-Arnold es similar en su tónica. De hecho, para ciertas familias de redes neuronales se puede aplicar directamente el teorema de Kolmogorov-Arnold obteniendo un teorema de aproximación universal. Plantilla:Ill demostró que una red neuronal de tres capas puede aproximar cualquiera función continua de variable múltiple.[22] Este resultado fue extendido al caso discontinuo por Vugar Ismailov.[23] En 2024, Ziming Liu y sus coautores presentaron una aplicación práctica.[24]

Variantes

Entre los teoremas de aproximación universal existen variantes con funciones de activación discontinuas,[5] dominios no compactos,[11][25] redes certificables,[26] redes neuronales aleatorias,[27] así como redes con arquitecturas y topologías alternativas.[11][28]

La propiedad de aproximación universal de las redes de ancho acotado se ha estudiado como caso dual de los resultados clásicos en materia de aproximación universal para redes de profundidad acotada. Para dimensiones de entrada dx y dimensiones de salida dy, el ancho mínimo requerido para la aproximación universal de las funciones Lp es exactamente max{dx + 1, dy} (para una red ReLU). Más en general, esto también rige si se emplean tanto ReLU como una función de activación por tramos.[17]

Las aproximaciones universales de funciones de grafos (o más bien de [[Isomorfismo de grafos |clases de isomorfismos de grafos]]) por medio de las conocidas redes neuronales gráficas pueden hacerse tan discrininativas como la prueba Weisfeiler–Leman de isomorfismo de grafos.[29] En 2020,[30] se estableció un teorema de aproximación universal por Brüel-Gabrielsson, demostrando que la representación como grafos con ciertas propiedades inyectivas injective es suficiente para la aproximación universal de funciones de grafos acotados y para una aproximación universal restringida para grafos no acotados, junto a un método 𝒪(|V||E|) en tiempo de ejecución, que exhibió resultados punta en una colección de pruebas de desempeño (donde V y E son los conjuntos de nodos and aristas del grafo respectivamente).

También existe una variedad de resultados entre espacios no euclidianos[31] y otras arquitecturas comúnmente usadas, así como, más en general, conjuntos algorítmicamente generados de funciones, tales como la arquitectura de redes neuronales convolucionales (RCN),[32][33] funciones de base radial,[34] o redes neuronales con propiedades específicas.[35][36]

El caso de ancho arbitrario

En una seguidilla de artículos de los años de 1980 y 1990, por Plantilla:Ill y Plantilla:Ill etc., se establecieron varios teoremas de aproximación universal para un ancho arbitrario y profundidad acotada.[37][3][38][4] Véanse reseñas en [39][40][6] Este es el que más frecuentemente se ha citado:Plantilla:Teorema

Además, ciertas funciones no-continuas de activación pueden usarse para aproximar una función sigmoide, lo que entonces permite aplicar este teorema a aquellas funciones. Por ejemplo, puede usarse la función escalonada. En particular, esto demuestra que una red de perceptrones con una única capa oculta de ancho infinito puede aproximar funciones arbitrarias.

Una tal función f también puede aproximarse por medio de una red de profundidad mayor usando la misma construcción para la primera capa y aproximando la función de identidad por medio de capas posteriores.

Plantilla:Demostración

En esta prueba no se ha especificado cómo podría usarse una función de rampa para aproximar funciones arbitrarias en C0(n,). Un esbozo de prueba consiste en que se puede primero construir primero funciones de protuberancia plana, hacer una intersección de ellas para obtener funciones de protuberancia esféricas que aproximen la función delta de Dirac y luego usar estas últimas para aproximar funciones arbitrarias en C0(n,).[41] Las pruebas originales, tales como la realizada por Cybenko, usan métodos del análisis funcional, incluyendo los teoremas de representación de Hahn-Banach y de Plantilla:Ill.

Nótese también que solo se requiere que la red neuronal aproxime la función en un conjunto compacto K. La prueba no describe cómo se extrapolaría la función fuera de esa región.

El problema con los polinomios puede removerse al permitir que las salidas de las capas ocultas puedan multiplicarse (las "redes pi-sigma"), obteniéndose la generalización:[38] Plantilla:Teorema

El caso de profundidad arbitraria

Las versiones «duales» del teorema consideran redes de ancho acotado y profundidad arbitraria. Una variante del teorema de aproximación universal fue demostrado para el caso de profundidad arbitraria por Zhou Lu et al. en 2017.[9] Ellos mostraron que las redes de ancho n + 4 con funciones de activación ReLU pueden aproximar cualquiera función Lebesgue-integrable sobre un espacio de entrada n-dimensional con respecto a la distancia L1 si se permite que crezca la profundidad de la red. También se mostró que si el ancho es menor o igual a n, este poder general para aproximar cualquiera función Lebesgue integrable se perdía. En el mismo artículo[9] se mostró que las redes ReLU de ancho n + 1 son suficientes para aproximar cualquiera función continua con una entrada n-dimensional.[42] El siguiente refinamiento debido a Park et al[43] especifica el ancho mínimo óptimo para el que una aproximación de este tipo es posible.

Plantilla:Teorema

En suma, el resultado central de[11] arroja el siguiente teorema de aproximación universal para redes con ancho acotado (véase también[7] para el primer resultado de este tipo).

Plantilla:Teorema

Se han establecido ciertas condiciones necesarias para el caso de ancho acotado y profundidad arbitraria, pero sigue existiendo una brecha entre las condiciones suficientes y necesarias.[9][10][44]

El caso de profundidad y ancho acotados

El primer resultado sobre las capacidades de aproximación de redes neuronales con un número acotado de capas, cada una de las cuales contiene un número limitado de neuronas artificiales, fue obtenido por Maiorov y Pinkus.[13] Su notable resultado reveló que tales redes pueden ser aproximadores universales y que para lograr esta propiedad bastan dos capas ocultas. Plantilla:Teorema

Este es un resultado de existencia. Sostiene que existen funciones de activación que proveen la propiedad de aproximación universal para redes de profundidad y ancho acotados. Empleando ciertas técnicas algorítmicas y de programación de ordenadores, Guliyev e Ismailov eficientemente construyeron tales funciones de activación dependientes de un parámetro numérico. El algoritmo desarrollado permite computar instantáneamente las funciones de activación en cualquier punto de la recta real. Para el algoritmo y el código computacional correspondiente véase [14] El resultado teórico se puede formular como sigue. Plantilla:Teorema

Aquí “σ: es λ-estrictamente creciente en algún conjunto X” quiere decir que existe una función estrictamente creciente u:X tal que |σ(x)u(x)|λ para todo xX. Claramente, una función λ-creciente se comporta igual que una función creciente usual a medida que λ se hace pequeño. En la terminología de "profundidad-ancho", este teorema dice que para ciertas funciones de activación las redes de profundidad-2 y ancho-2 son aproximadores universales para funciones de una variable y las redes de profundidad-3 y ancho-(2d+2) son aproximadores universales para funciones de d variables (d>1).

Véase también

Referencias

Plantilla:Listaref

Plantilla:Control de autoridades

  1. 1,0 1,1 Plantilla:Cita publicación
  2. Balázs Csanád Csáji (2001) Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary
  3. 3,0 3,1 Plantilla:Cita publicación
  4. 4,0 4,1 Plantilla:Cita publicación
  5. 5,0 5,1 Plantilla:Cita publicación
  6. 6,0 6,1 Plantilla:Cita publicación
  7. 7,0 7,1 Plantilla:Cita publicación
  8. Plantilla:Cita publicación
  9. 9,0 9,1 9,2 9,3 Plantilla:Cita publicación
  10. 10,0 10,1 Plantilla:Cite arXiv
  11. 11,0 11,1 11,2 11,3 Plantilla:Cite conference
  12. Plantilla:Cita publicación
  13. 13,0 13,1 Plantilla:Cita publicación
  14. 14,0 14,1 Plantilla:Cita publicación
  15. Plantilla:Cita publicación
  16. Plantilla:Cita publicación
  17. 17,0 17,1 Plantilla:Cite conference
  18. Plantilla:Cite conference
  19. Plantilla:Cita publicación
  20. Plantilla:Cita publicación
  21. Plantilla:Cita publicación
  22. Plantilla:Cita publicación
  23. Plantilla:Cita publicación
  24. Plantilla:Cite arXiv
  25. Plantilla:Cita publicación
  26. Plantilla:Cite conference
  27. Plantilla:Cita publicación
  28. Plantilla:Cite conference
  29. Plantilla:Cite conference
  30. Plantilla:Cite conference
  31. Plantilla:Cite conference
  32. Plantilla:Cita publicación
  33. Plantilla:Cita publicación
  34. Plantilla:Cita publicación
  35. Plantilla:Cita publicación
  36. Plantilla:Cita publicación
  37. Plantilla:Cita publicación
  38. 38,0 38,1 Plantilla:Cita publicación
  39. Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. Plantilla:Isbn.
  40. Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
  41. Plantilla:Cita publicación
  42. Hanin, B. (2018). Approximating Continuous Functions by ReLU Nets of Minimal Width. arXiv preprint arXiv:1710.11278.
  43. Plantilla:Cita publicación
  44. Plantilla:Cite conference