Unidades recurrentes cerradas

De testwiki
Revisión del 19:50 3 ene 2025 de imported>Aosbot (Añadiendo Control de autoridades)
(difs.) ← Revisión anterior | Revisión actual (difs.) | Revisión siguiente → (difs.)
Ir a la navegación Ir a la búsqueda

Las unidades recurrentes cerradas (GRU, por sus siglas en inglés) son un mecanismo de compuerta en redes neuronales recurrentes, introducido en 2014 por Kyunghyun Cho et al.[1] La GRU es como una memoria a largo plazo (LSTM, por sus siglas en inglés) con un mecanismo de compuerta para introducir u olvidar ciertas características,[2] pero carece de vector de contexto o compuerta de salida, lo que resulta en menos parámetros que la LSTM.[3] El rendimiento de la GRU en determinadas tareas de modelado de música polifónica, modelado de señales de voz y procesamiento de lenguaje natural fue similar al de la LSTM.[4][5] Las GRU demostraron que la compuerta es útil en general, y el equipo de Bengio no llegó a ninguna conclusión concreta sobre cuál de las dos unidades de compuerta era mejor.[6][7]

Arquitectura

Existen diversas variaciones de la unidad de compuerta completa, en la que la compuerta se realiza utilizando el estado oculto anterior y el sesgo en diversas combinaciones, y una forma simplificada denominada unidad de compuerta mínima.[8]

El operador denota el producto Hadamard en lo siguiente:

Unidad totalmente cerrada

Inicialmente, para t=0, el vector de salida es h0=0.

zt=σ(Wzxt+Uzht1+bz)rt=σ(Wrxt+Urht1+br)h^t=ϕ(Whxt+Uh(rtht1)+bh)ht=(1zt)ht1+zth^t
Unidad Recurrente Cerrada, versión totalmente cerrada

Variables (d denota el número de características de entrada y e el número de características de salida):

  • xtd: vector de entrada
  • hte: vector de salida
  • h^te: vector de activación candidato
  • zt(0,1)e: actualizar el vector de puerta
  • rt(0,1)e: resetear vector puerta
  • Wd×e, Ue×e and be: matrices de parámetros y vectores que deben aprenderse durante el entrenamiento.

Funciones de activación

Son posibles funciones de activación alternativas, siempre que: σ(x)[0,1].

Tipo 1

Se pueden crear formas alternativas cambiando zt y rt.[9]

  • Tipo 1, cada puerta depende sólo del estado oculto anterior y del sesgo.
    zt=σ(Uzht1+bz)rt=σ(Urht1+br)
  • Tipo 2, cada puerta depende sólo del estado oculto anterior.
    zt=σ(Uzht1)rt=σ(Urht1)
Tipo 2
  • Tipo 3, cada puerta se calcula utilizando sólo el sesgo.
zt=σ(bz)rt=σ(br)

Unidad mínima cerrada

Tipo 3

La unidad mínima cerrada (MGU) es similar a la unidad de compuerta completa, salvo que el vector de compuerta de actualización y reinicio se fusiona en una compuerta de olvido. Esto también implica que la ecuación para el vector de salida debe cambiarse:[10]

ft=σ(Wfxt+Ufht1+bf)h^t=ϕ(Whxt+Uh(ftht1)+bh)ht=(1ft)ht1+fth^t

Variables

  • xt: vector de entrada
  • ht: vector de salida
  • h^t: vector de activación candidato
  • ft: vector de olvido
  • W, U y b: matrices de parámetros y vector

Unidad recurrente ligera

La unidad recurrente activada por luz (LiGRU)[4] elimina la puerta de reinicio, sustituye tanh por la activación ReLU y aplica la normalización por lotes (BN):

zt=σ(BN(Wzxt)+Uzht1)h~t=ReLU(BN(Whxt)+Uhht1)ht=ztht1+(1zt)h~t

La LiGRU se ha estudiado desde una perspectiva bayesiana.[11] Este análisis dio lugar a una variante denominada unidad recurrente bayesiana ligera (LiBRU), que mostró ligeras mejoras sobre la LiGRU en tareas de reconocimiento del habla.

Referencias

Plantilla:Listaref Plantilla:Control de autoridades