Unidades recurrentes cerradas
Las unidades recurrentes cerradas (GRU, por sus siglas en inglés) son un mecanismo de compuerta en redes neuronales recurrentes, introducido en 2014 por Kyunghyun Cho et al.[1] La GRU es como una memoria a largo plazo (LSTM, por sus siglas en inglés) con un mecanismo de compuerta para introducir u olvidar ciertas características,[2] pero carece de vector de contexto o compuerta de salida, lo que resulta en menos parámetros que la LSTM.[3] El rendimiento de la GRU en determinadas tareas de modelado de música polifónica, modelado de señales de voz y procesamiento de lenguaje natural fue similar al de la LSTM.[4][5] Las GRU demostraron que la compuerta es útil en general, y el equipo de Bengio no llegó a ninguna conclusión concreta sobre cuál de las dos unidades de compuerta era mejor.[6][7]
Arquitectura
Existen diversas variaciones de la unidad de compuerta completa, en la que la compuerta se realiza utilizando el estado oculto anterior y el sesgo en diversas combinaciones, y una forma simplificada denominada unidad de compuerta mínima.[8]
El operador denota el producto Hadamard en lo siguiente:
Unidad totalmente cerrada
Inicialmente, para , el vector de salida es .

Variables ( denota el número de características de entrada y el número de características de salida):
- : vector de entrada
- : vector de salida
- : vector de activación candidato
- : actualizar el vector de puerta
- : resetear vector puerta
- , and : matrices de parámetros y vectores que deben aprenderse durante el entrenamiento.
- : El original es una función logística.
- : El original es una tangente hiperbólica.
Son posibles funciones de activación alternativas, siempre que: .

Se pueden crear formas alternativas cambiando y .[9]
- Tipo 1, cada puerta depende sólo del estado oculto anterior y del sesgo.
- Tipo 2, cada puerta depende sólo del estado oculto anterior.

- Tipo 3, cada puerta se calcula utilizando sólo el sesgo.
Unidad mínima cerrada

La unidad mínima cerrada (MGU) es similar a la unidad de compuerta completa, salvo que el vector de compuerta de actualización y reinicio se fusiona en una compuerta de olvido. Esto también implica que la ecuación para el vector de salida debe cambiarse:[10]
Variables
- : vector de entrada
- : vector de salida
- : vector de activación candidato
- : vector de olvido
- , y : matrices de parámetros y vector
Unidad recurrente ligera
La unidad recurrente activada por luz (LiGRU)[4] elimina la puerta de reinicio, sustituye tanh por la activación ReLU y aplica la normalización por lotes (BN):
La LiGRU se ha estudiado desde una perspectiva bayesiana.[11] Este análisis dio lugar a una variante denominada unidad recurrente bayesiana ligera (LiBRU), que mostró ligeras mejoras sobre la LiGRU en tareas de reconocimiento del habla.
Referencias
Plantilla:Listaref Plantilla:Control de autoridades
- ↑ Plantilla:Cita publicación
- ↑ Plantilla:Cita publicación
- ↑ Plantilla:Cita web
- ↑ 4,0 4,1 Plantilla:Cita publicación
- ↑ Plantilla:Cita publicación
- ↑ Plantilla:Cita publicación
- ↑ Plantilla:Cita publicación
- ↑ Plantilla:Cita publicación
- ↑ Plantilla:Cita publicación
- ↑ Plantilla:Cita publicación
- ↑ Plantilla:Cita publicación