Problema de desvanecimiento de gradiente

De testwiki
Revisión del 19:25 14 dic 2024 de imported>Silviaanac (recupero referencia)
(difs.) ← Revisión anterior | Revisión actual (difs.) | Revisión siguiente → (difs.)
Ir a la navegación Ir a la búsqueda

En aprendizaje de máquinas, el problema de desvanecimiento de gradiente es una dificultad encontrada para entrenar redes neuronales artificiales mediante métodos de aprendizaje basados en descenso estocástico de gradientes y de retropropagación. En tales métodos, cada uno de los pesos de la red neuronal recibe una actualización proporcional a la derivada parcial de la función de error con respecto al peso actual en cada iteración de entrenamiento.

El problema es que, en algunos casos, el gradiente se irá desvaneciendo a valores muy pequeños, impidiendo eficazmente el peso de cambiar su valor. En el caso peor, esto puede impedir que la red neuronal continúe su entrenamiento. Como ejemplo de la causa del problema, funciones de activación tradicionales como la función de la tangente hiperbólica tienen gradientes en la gama (-1, 1), y la retropropagación computa gradientes por la regla de la cadena. Esto tiene el efecto de multiplicar n de estos números pequeños para computar gradientes de las "capas" de frente en una red de n capas, significando que el gradiente (señal de error) disminuye exponencialmente con n mientras las capas de frente se entrenan muy despacio.

La retropropagación permitió a los investigadores entrenar redes neuronales supervisadas profundas desde un inicio con muy poco éxito. La tesis de diploma de 1991 de Hochreiter identificó formalmente la razón de este fracaso en el "problema de desvanecimiento de gradiente", lo cual no sólo afectará a las redes prealimentadas de muchas capas, sino también a las redes recurrentes. Estas últimas se entrenan por desdoblamiento en redes neuronales prealimentadas muy profundas, donde se crea una capa nueva cada vez que se da un paso en la secuencia de entrada por la red.[1][2][3][4]

Cuando se usan funciones de activación cuyas derivadas pueden tomar valores más grandes, uno de los riesgos es encontrar el denominado problema de gradiente explosivo.

Modelos prototípicos

Esta sección se basa en el artículo On the difficulty of training Recurrent Neural Networks de Pascanu, Mikolov y Bengio.[5]

Modelo de red recurrente

Una red recurrente genérica tiene estados ocultos h1,h2,..., entradas u1,u2,... y salidas x1,x2,.... Se parametriza con θ, de modo que el sistema evoluciona como(ht,xt)=F(ht1,ut,θ)A menudo, la salida xt es una función de ht, como en xt=G(ht). El problema del gradiente que desaparece ya se presenta claramente cuando xt=ht, por lo que simplificamos nuestra notación al caso especial:xt=F(xt1,ut,θ)Ahora, tomemos su forma diferencial:dxt=θF(xt1,ut,θ)dθ+xF(xt1,ut,θ)dxt1=θF(xt1,ut,θ)dθ+xF(xt1,ut,θ)(θF(xt2,ut1,θ)dθ+xF(xt2,ut1,θ)dxt2)==(θF(xt1,ut,θ)+xF(xt1,ut,θ)θF(xt2,ut1,θ)+)dθEntrenar la red requiere definir una función de pérdida a minimizar. Sea L(xT,u1,...,uT)Plantilla:Refn entonces minimizarla mediante descenso de gradiente da como resultadoPlantilla:NumBlkΔθ=η[xL(xT)(θF(xt1,ut,θ)+xF(xt1,ut,θ)θF(xt2,ut1,θ)+)]Tdonde η es la tasa de aprendizaje.

El problema del gradiente que desaparece/explota surge debido a multiplicaciones repetidas, de la formaxF(xt1,ut,θ)xF(xt2,ut1,θ)xF(xt3,ut2,θ)

Ejemplo: red recurrente con activación sigmoide

Para un ejemplo concreto, consideremos una red recurrente típica definida por

xt=F(xt1,ut,θ)=Wrecσ(xt1)+Winut+bdonde θ=(Wrec,Win) es el parámetro de la red, σ es la función sigmoide,Plantilla:Refn aplicada a cada coordenada del vector por separado, y b es el vector de sesgo.

Entonces, xF(xt1,ut,θ)=Wrecdiag(σ(xt1)), y por lo tanto xF(xt1,ut,θ)xF(xt2,ut1,θ)xF(xtk,utk+1,θ)=Wrecdiag(σ(xt1))Wrecdiag(σ(xt2))Wrecdiag(σ(xtk))Dado que |σ|1, la norma de operador de la multiplicación anterior está acotada por Wreck. Así, si el radio espectral de Wrec es γ<1, entonces para valores grandes de k, la multiplicación anterior tiene una norma de operador acotada superiormente por γk0. Este es el problema prototípico del gradiente que desaparece.

El efecto de un gradiente que desaparece es que la red no puede aprender efectos a largo plazo. Recordemos la Ecuación (Plantilla:EquationNote):θL=xL(xT,u1,...,uT)(θF(xt1,ut,θ)+xF(xt1,ut,θ)θF(xt2,ut1,θ)+)Los componentes de θF(x,u,θ) son solo componentes de σ(x) y u, por lo que si ut,ut1,... están acotados, entonces θF(xtk1,utk,θ) también está acotado por algún M>0, y por lo tanto los términos en θL decaen como Mγk. Esto significa que, efectivamente, θL se ve afectado solo por los primeros términos O(γ1) en la suma.

Si γ1, el análisis anterior no funciona del todo.Plantilla:Refn Para el problema prototípico del gradiente que explota, el siguiente modelo es más claro.

Modelo de sistemas dinámicos

Diagrama de bifurcación de la red recurrente de una sola neurona. El eje horizontal es b, y el eje vertical es x. La curva negra es el conjunto de equilibrios estables e inestables. Nótese que el sistema exhibe histeresis, y puede ser usado como una memoria de un bit.

Siguiendo a (Doya, 1993),[6] consideremos esta red recurrente de una sola neurona con activación sigmoide:xt+1=(1ϵ)xt+ϵσ(wxt+b)+ϵwutEn el límite de ϵ pequeño, la dinámica de la red se convierte endxdt=x(t)+σ(wx(t)+b)+wu(t)Consideremos primero el caso autónomo, con u=0. Establezcamos w=5.0 y variemos b en [3,2]. A medida que b disminuye, el sistema tiene un punto estable, luego tiene 2 puntos estables y 1 punto inestable, y finalmente vuelve a tener 1 punto estable. Explícitamente, los puntos estables son (x,b)=(x,ln(x1x)5x).

Ahora consideremos Δx(T)Δx(0) y Δx(T)Δb, donde T es lo suficientemente grande como para que el sistema se haya estabilizado en uno de los puntos estables.

Si (x(0),b) coloca el sistema muy cerca de un punto inestable, entonces una pequeña variación en x(0) o b haría que x(T) se mueva de un punto estable a otro. Esto hace que Δx(T)Δx(0) y Δx(T)Δb sean ambos muy grandes, un caso del gradiente que explota.

Si (x(0),b) coloca el sistema lejos de un punto inestable, entonces una pequeña variación en x(0) no tendría efecto en x(T), haciendo que Δx(T)Δx(0)=0, un caso del gradiente que desaparece.

Nótese que en este caso, Δx(T)Δbx(T)b=(1x(T)(1x(T))5)1 no decae a cero ni explota hasta el infinito. De hecho, es el único gradiente bien comportado, lo que explica por qué las investigaciones iniciales se centraron en aprender o diseñar sistemas de redes recurrentes que pudieran realizar cálculos a largo plazo (como devolver la primera entrada que ven al final de un episodio) modelando sus atractores estables.[7]

Para el caso general, la intuición sigue siendo válida (Figuras 3, 4 y 5).[5]

Modelo geométrico

Continuemos usando la red de una sola neurona mencionada, fijando w=5,x(0)=0.5,u(t)=0, y consideremos una función de pérdida definida por L(x(T))=(0.855x(T))2. Esto produce un paisaje de pérdida bastante patológico: a medida que b se acerca a 2.5 desde arriba, la pérdida se aproxima a cero, pero tan pronto como b cruza 2.5, la cuenca del atractor cambia y la pérdida salta a 0.50.Plantilla:Refn

En consecuencia, intentar entrenar b mediante descenso de gradiente "chocaría con una pared en el paisaje de pérdida" y causaría un gradiente que explota. Una situación ligeramente más compleja se grafica en,[5] Figura 6.

Véase también

Notas

Plantilla:Listaref

Referencias

Plantilla:Listaref

Enlaces externos

Plantilla:Traducido ref

Plantilla:Control de autoridades

  1. S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991.
  2. S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
  3. Plantilla:Cita publicación
  4. Pascanu, Razvan; Mikolov, Tomas; Bengio, Yoshua (2012-11-21). "On the difficulty of training Recurrent Neural Networks". arXiv:1211.5063 [cs.LG].
  5. 5,0 5,1 5,2 Plantilla:Cita web
  6. Plantilla:Cite book
  7. Plantilla:Cite journal