Unidades recurrentes cerradas

Las unidades recurrentes cerradas (GRU, por sus siglas en inglés) son un mecanismo de compuerta en redes neuronales recurrentes, introducido en 2014 por Kyunghyun Cho et al.^[1] La GRU es como una memoria a largo plazo (LSTM, por sus siglas en inglés) con un mecanismo de compuerta para introducir u olvidar ciertas características,^[2] pero carece de vector de contexto o compuerta de salida, lo que resulta en menos parámetros que la LSTM.^[3] El rendimiento de la GRU en determinadas tareas de modelado de música polifónica, modelado de señales de voz y procesamiento de lenguaje natural fue similar al de la LSTM.^[4]^[5] Las GRU demostraron que la compuerta es útil en general, y el equipo de Bengio no llegó a ninguna conclusión concreta sobre cuál de las dos unidades de compuerta era mejor.^[6]^[7]

Arquitectura

Existen diversas variaciones de la unidad de compuerta completa, en la que la compuerta se realiza utilizando el estado oculto anterior y el sesgo en diversas combinaciones, y una forma simplificada denominada unidad de compuerta mínima.^[8]

El operador $⊙$ denota el producto Hadamard en lo siguiente:

Unidad totalmente cerrada

Inicialmente, para $t = 0$ , el vector de salida es $h_{0} = 0$ .

\begin{matrix} z_{t} & = σ (W_{z} x_{t} + U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ (W_{r} x_{t} + U_{r} h_{t - 1} + b_{r}) \\ {\hat{h}}_{t} & = ϕ (W_{h} x_{t} + U_{h} (r_{t} ⊙ h_{t - 1}) + b_{h}) \\ h_{t} & = (1 - z_{t}) ⊙ h_{t - 1} + z_{t} ⊙ {\hat{h}}_{t} \end{matrix}

Unidad Recurrente Cerrada, versión totalmente cerrada

Variables ( $d$ denota el número de características de entrada y $e$ el número de características de salida):

$x_{t} \in ℝ^{d}$ : vector de entrada
$h_{t} \in ℝ^{e}$ : vector de salida
${\hat{h}}_{t} \in ℝ^{e}$ : vector de activación candidato
$z_{t} \in (0, 1)^{e}$ : actualizar el vector de puerta
$r_{t} \in (0, 1)^{e}$ : resetear vector puerta
$W \in ℝ^{d \times e}$ , $U \in ℝ^{e \times e}$ and $b \in ℝ^{e}$ : matrices de parámetros y vectores que deben aprenderse durante el entrenamiento.

Funciones de activación

$σ$ : El original es una función logística.
$ϕ$ : El original es una tangente hiperbólica.

Son posibles funciones de activación alternativas, siempre que: $σ (x) \in [0, 1]$ .

Se pueden crear formas alternativas cambiando $z_{t}$ y $r_{t}$ .^[9]

Tipo 1, cada puerta depende sólo del estado oculto anterior y del sesgo.
$\begin{matrix} z_{t} & = σ (U_{z} h_{t - 1} + b_{z}) \\ r_{t} & = σ (U_{r} h_{t - 1} + b_{r}) \end{matrix}$
Tipo 2, cada puerta depende sólo del estado oculto anterior.
$\begin{matrix} z_{t} & = σ (U_{z} h_{t - 1}) \\ r_{t} & = σ (U_{r} h_{t - 1}) \end{matrix}$

Tipo 3, cada puerta se calcula utilizando sólo el sesgo.

\begin{matrix} z_{t} & = σ (b_{z}) \\ r_{t} & = σ (b_{r}) \end{matrix}

Unidad mínima cerrada

La unidad mínima cerrada (MGU) es similar a la unidad de compuerta completa, salvo que el vector de compuerta de actualización y reinicio se fusiona en una compuerta de olvido. Esto también implica que la ecuación para el vector de salida debe cambiarse:^[10]

\begin{matrix} f_{t} & = σ (W_{f} x_{t} + U_{f} h_{t - 1} + b_{f}) \\ {\hat{h}}_{t} & = ϕ (W_{h} x_{t} + U_{h} (f_{t} ⊙ h_{t - 1}) + b_{h}) \\ h_{t} & = (1 - f_{t}) ⊙ h_{t - 1} + f_{t} ⊙ {\hat{h}}_{t} \end{matrix}

Variables

$x_{t}$ : vector de entrada
$h_{t}$ : vector de salida
${\hat{h}}_{t}$ : vector de activación candidato
$f_{t}$ : vector de olvido
$W$ , $U$ y $b$ : matrices de parámetros y vector

Unidad recurrente ligera

La unidad recurrente activada por luz (LiGRU)^[4] elimina la puerta de reinicio, sustituye tanh por la activación ReLU y aplica la normalización por lotes (BN):

\begin{matrix} z_{t} & = σ (BN (W_{z} x_{t}) + U_{z} h_{t - 1}) \\ {\tilde{h}}_{t} & = ReLU (BN (W_{h} x_{t}) + U_{h} h_{t - 1}) \\ h_{t} & = z_{t} ⊙ h_{t - 1} + (1 - z_{t}) ⊙ {\tilde{h}}_{t} \end{matrix}

La LiGRU se ha estudiado desde una perspectiva bayesiana.^[11] Este análisis dio lugar a una variante denominada unidad recurrente bayesiana ligera (LiBRU), que mostró ligeras mejoras sobre la LiGRU en tareas de reconocimiento del habla.

Referencias

Plantilla:Listaref Plantilla:Control de autoridades

[1] Plantilla:Cita publicación

[2] Plantilla:Cita publicación

[3] Plantilla:Cita web

[:0-4] 4,0 ^4,1 Plantilla:Cita publicación

[5] Plantilla:Cita publicación

[6] Plantilla:Cita publicación

[7] Plantilla:Cita publicación

[8] Plantilla:Cita publicación

[9] Plantilla:Cita publicación

[10] Plantilla:Cita publicación

[11] Plantilla:Cita publicación

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

Unidades recurrentes cerradas

Sumario

Arquitectura

Unidad totalmente cerrada

Unidad mínima cerrada

Unidad recurrente ligera

Referencias

Menú de navegación

Unidades recurrentes cerradas

Arquitectura

Unidad totalmente cerrada

Unidad mínima cerrada

Unidad recurrente ligera

Referencias

Menú de navegación

Buscar