Regresión Ridge

De testwiki
Ir a la navegación Ir a la búsqueda

La regresión Ridge (también llamada regresión cresta) es un método de estimación de los coeficientes de modelos de regresión múltiple en escenarios en los que las variables independientes están muy correlacionadas.[1] Se ha utilizado en muchos campos, como la econometría, la química y la ingeniería.[2] También conocido como regularización de Tíjonov, en honor a Andrey Tikhonov, es un método de regularización de problemas mal planteados.Plantilla:Refn Es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal, que se produce comúnmente en modelos con un gran número de parámetros.[3] En general, el método proporciona una mayor eficiencia en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (ver compensación sesgo-varianza).[4]

La teoría fue introducida por primera vez por Hoerl y Kennard en 1970 en sus artículos de Technometrics "Ridge regressions: biased estimation of nonorthogonal problems" y "Ridge regressions: applications in nonorthogonal problems",[1][5][6] resultado de diez años de investigación en el campo del análisis de crestas.[7]

La regresión Ridge se desarrolló como una posible solución a la imprecisión de los estimadores de mínimos cuadrados cuando los modelos de regresión lineal tienen algunas variables independientes multicolineales (altamente correlacionadas) mediante la creación de un estimador de regresión de cresta (RR). Esto proporciona una estimación más precisa de los parámetros de la cresta, ya que su varianza y estimador cuadrático medio son a menudo más pequeños que los estimadores mínimos cuadrados derivados anteriormente.[2][8]

Descripción general

En el caso más sencillo, el problema de una matriz de momentos casi sinular 𝐗𝖳𝐗 se alivia añadiendo elementos positivos a las diagonales, con lo que disminuye su número de condición. De forma análoga al estimador de mínimos cuadrados ordinarios, el estimador de cresta simple viene dado por:

β^R=(𝐗𝖳𝐗+λ𝐈)1𝐗𝖳𝐲

Donde 𝐲 es la regresión, 𝐗 es la matriz de diseño, 𝐈 es la matriz de identidad, y el parámetro ridge λ0 sirve como constante que desplaza las diagonales de la matriz de momentos.[9] Puede demostrarse que este estimador es la solución al problema de mínimos cuadrados sujeto a la restricción β𝖳β=c, que puede expresarse como un Lagrangiano:

minβ(𝐲𝐗β)𝖳(𝐲𝐗β)+λ(β𝖳βc)

que muestra que λ no es más que el multiplicador de Lagrange de la restricción.[10] Típicamente, λ se elige según un criterio heurístico, de modo que la restricción no se satisfará exactamente. Concretamente en el caso de λ=0, en el que la restricción no es vinculante, el estimador de cresta se reduce a mínimos cuadrados ordinarios. A continuación se analiza un enfoque más general de la regularización de Tíjonov.

Historia

La regularización de Tíjonov se inventó de forma independiente en muchos contextos diferentes. Se dio a conocer ampliamente a través de su aplicación a ecuaciones integrales en los trabajos de Andrey Tikhonov[11][12][13][14][15] y David L. Phillips.[16] Algunos autores utilizan el término regularización Tíjonov-Phillips. El caso de dimensión finita fue expuesto por Arthur E. Hoerl, que adoptó un enfoque estadístico,[17] y por Manus Foster, que interpretó este método como un filtro de Wiener-Kolmogorov (Kriging).[18] Siguiendo a Hoerl, se conoce en la literatura estadística como regresión ridge,[19] llamada así por el análisis ridge ("ridge" se refiere a la trayectoria desde el máximo restringido).[20]

Regularización de Tíjonov

Supongamos que para una matriz conocida A y el vector 𝐛, queremos encontrar un vector 𝐱 de forma que:

A𝐱=𝐛,

donde 𝐱 y 𝐛 pueden ser de diferentes tamaños y A puede no ser cuadrado.

El enfoque estándar es la regresión lineal por mínimos cuadrados ordinarios. Sin embargo, si ninguna 𝐱 satisface la ecuación o más de una 𝐱 lo satisface, es decir, la solución no es única, se dice que el problema está mal planteado. En tales casos, la estimación por mínimos cuadrados ordinarios conduce a un sistema de ecuaciones sobredeterminado o, más a menudo, subdeterminado. La mayoría de los fenómenos del mundo real tienen el efecto de filtros de paso bajo en la dirección de avance, donde A mapea 𝐱 hacia 𝐛. Por lo tanto, al resolver el problema inverso, el mapeado inverso funciona como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido (los valores propios / valores singulares son mayores en la cartografía inversa donde eran menores en la cartografía directa). Además, los mínimos cuadrados ordinarios anulan implícitamente todos los elementos de la versión reconstruida de 𝐱 que está en el espacio nulo de A, en lugar de permitir que un modelo se utilice como prior para 𝐱. Los mínimos cuadrados ordinarios buscan minimizar la suma de los residuos al cuadrado, que puede escribirse de forma compacta como:

A𝐱𝐛22,

donde 2 es la norma euclidiana.

Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:

A𝐱𝐛22+Γ𝐱22

para una matriz de Tíjonov convenientemente elegida Γ. En muchos casos, esta matriz se elige como múltiplo escalar de la matriz identidad Γ=αI, dando preferencia a las soluciones con normas más pequeñas; esto se conoce como regularización Plantilla:Math .[21] En otros casos, pueden utilizarse operadores de paso alto (por ejemplo, un operador de diferencia o un operador de Fourier ponderado) para imponer la suavidad si se cree que el vector subyacente es mayoritariamente continuo. Esta regularización mejora el condicionamiento del problema, permitiendo así una solución numérica directa. Una solución explícita, denotada por x^ es dado por

x^=(A𝖳A+Γ𝖳Γ)1A𝖳𝐛.

El efecto de la regularización puede variar en función de la escala de la matriz Γ. Para Γ=0 se reduce a la solución por mínimos cuadrados no regularizada, siempre que (ATA)-1 exista.

La regularización de Plantilla:Math se utiliza en muchos contextos aparte de la regresión lineal, como la clasificación con regresión logística o máquinas de vectores de soporte,[22] y la factorización de matrices.[23]

Aplicación a los resultados de ajuste existentes

Dado que la Regularización de Tíjonov simplemente añade un término cuadrático a la función objetivo en los problemas de optimización, es posible hacerlo después de que se haya producido la optimización no regularizada. Por ejemplo, si el problema anterior con Γ=0 se obtiene la solución x^0 la solución en presencia de Γ0 puede expresarse como sigue:

x^=Bx^0,

con la "matriz de regularización" B=(A𝖳A+Γ𝖳Γ)1A𝖳A

Si el ajuste de parámetros viene acompañado de una matriz de covarianza de las incertidumbres estimadas de los parámetros V0 entonces la matriz de regularización será

B=(V01+Γ𝖳Γ)1V01,

y el resultado regularizado tendrá una nueva covarianza

V=BV0B𝖳.

En el contexto de ajustes de verosimilitud arbitrarios, esto es válido, siempre que la aproximación cuadrática de la función de verosimilitud sea válida. Esto significa que, siempre que la perturbación del resultado no regularizado sea pequeña, se puede regularizar cualquier resultado que se presente como un punto de mejor ajuste con una matriz de covarianza. No se necesita un conocimiento detallado de la función de verosimilitud subyacente.[24]

Regularización de Tikhonov generalizada

Para distribuciones normales multivariantes generales para 𝐱 y el error de los datos, se puede aplicar una transformación de las variables para reducir al caso anterior. De forma equivalente, se puede buscar un 𝐱 para minimizar:

A𝐱𝐛P2+𝐱𝐱0Q2,

donde se usó 𝐱Q2 para representar la norma ponderada al cuadrado 𝐱𝖳Q𝐱 (compárese con la distancia de Mahalanobis). En la interpretación bayesiana P es la matriz de covarianza inversa de 𝐛, 𝐱0 es el valor esperado de 𝐱, y Q es la matriz de covarianza inversa de 𝐱. La matriz de Tíjonov viene dada entonces como una factorización de la matriz Q=Γ𝖳Γ (por ejemplo, la factorización de Cholesky) y se considera un filtro de blanqueamiento.

Este problema generalizado tiene una solución óptima 𝐱* que puede escribirse explícitamente mediante la fórmula

𝐱*=(A𝖳PA+Q)1(A𝖳P𝐛+Q𝐱0),

o equivalentemente, cuando Q no es una matriz nula:

𝐱*=𝐱0+(A𝖳PA+Q)1(A𝖳P(𝐛A𝐱0)).

Regularización de Lavrentyev

En algunas situaciones, se puede evitar el uso de la transposición A𝖳 a propuesta de Mikhail Lavrentyev.[25] Por ejemplo, si A es simétrica positiva definida, es decir A=A𝖳>0, también lo es su inversa A1, que puede utilizarse para establecer la norma ponderada al cuadrado 𝐱P2=𝐱𝖳A1𝐱 en la regularización generalizada de Tikhonov, lo que lleva a minimizar:

A𝐱𝐛A12+𝐱𝐱0Q2

o, lo que es lo mismo, hasta un término constante,

𝐱𝖳(A+Q)𝐱2𝐱𝖳(𝐛+Q𝐱0).

Este problema de minimización tiene una solución óptima 𝐱* que puede escribirse explícitamente mediante la fórmula

𝐱*=(A+Q)1(𝐛+Q𝐱0),

que no es sino la solución del problema generalizado de Tikhonov donde A=A𝖳=P1.

La regularización de Lavrentyev, si procede, es ventajosa respecto a la regularización original de Tikhonov, ya que la matriz de Lavrentyev A+Q puede estar mejor condicionada, es decir, tener un número de condición menor, en comparación con la matriz de Tikhonov A𝖳A+Γ𝖳Γ.

Regularización en el espacio de Hilbert

Normalmente, los problemas lineales discretos mal condicionados son el resultado de la discretización de ecuaciones integrales, y se puede formular una regularización de Tíjonov en el contexto original de dimensión infinita. En lo anterior podemos interpretar A como operador compacto en espacios de Hilbert, y x y b como elementos del dominio y rango de A. El operador A*A+Γ𝖳Γ es entonces un operador autoadjunto acotado invertible.

Relación con la descomposición de valores singulares y el filtro de Wiener

Con Γ=αI esta solución de mínimos cuadrados puede analizarse de forma especial mediante la descomposición de valores singulares. Dada la descomposición del valor singular:

A=UΣV𝖳

con valores singulares σi, la solución regularizada de Tikhonov puede expresarse como

x^=VDU𝖳b,

donde D tiene valores diagonales

Dii=σiσi2+α2

y es cero en el resto. Esto demuestra el efecto del parámetro de Tikhonov en el número de condición del problema regularizado. Para el caso generalizado, puede obtenerse una representación similar utilizando una descomposición generalizada de valores singulares.[26]

Por último, está relacionado con el filtro de Wiener:

x^=i=1qfiui𝖳bσivi,

donde los pesos Wiener son fi=σi2σi2+α2 y q es el rango de A.

Determinación del factor de Tijonov

El parámetro óptimo de regularización α suele ser desconocida y, a menudo, en los problemas prácticos se determina mediante un método ad hoc. Un posible enfoque se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques son el principio de discrepancia, la validación cruzada, el método de la curva en L,[27] la máxima verosimilitud restringida y el estimador insesgado del riesgo predictivo. Grace Wahba demostró que el parámetro óptimo, en el sentido de la validación cruzada dejando uno fuera minimiza.[28][29]

G=RSSτ2=Xβ^y2[Tr(IX(X𝖳X+α2I)1X𝖳)]2,

donde RSS es la suma residual de cuadrados, y τ es el número efectivo de grados de libertad.

Utilizando la descomposición SVD anterior, podemos simplificar la expresión anterior:

RSS=yi=1q(uib)ui2+i=1qα2σi2+α2(uib)ui2,

RSS=RSS0+i=1qα2σi2+α2(uib)ui2,

y

τ=mi=1qσi2σi2+α2=mq+i=1qα2σi2+α2.

Relación con la formulación probabilística

La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gaussianas) una matriz de covarianza CM que representa las incertidumbres a priori sobre los parámetros del modelo, y una matriz de covarianza CD que representan las incertidumbres sobre los parámetros observados.[30] En el caso especial de que estas dos matrices sean diagonales e isótropas, CM=σM2I y CD=σD2I y, en este caso, las ecuaciones de la teoría inversa se reducen a las ecuaciones anteriores, con α=σD/σM.

Interpretación bayesiana

Plantilla:Further Aunque a primera vista la elección de la solución de este problema regularizado pueda parecer artificial, y de hecho la matriz Γ parece bastante arbitrario, el proceso puede justificarse desde un punto de vista bayesiano.[31] Obsérvese que para un problema mal planteado hay que introducir necesariamente algunos supuestos adicionales para obtener una solución única. Estadísticamente, la distribución de probabilidad ''a priori'' de x a veces se considera una distribución normal multivariante. En aras de la simplicidad, se parte de los siguientes supuestos: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación típica σx. Los datos también están sujetos a errores, y los errores en b también se suponen independientes con media y desviación típica nulas σb. Bajo estos supuestos, la solución regularizada por Tikhonov es la solución más probable dados los datos y la distribución a priori de x según el teorema de Bayes.[32]

Si el supuesto de normalidad se sustituye por los supuestos de homocedasticidad e incorrelación de errores, y si se sigue suponiendo que la media es cero, el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo.

Véase también

  • El estimador LASSO es otro método de regularización en estadística

Notas

Plantilla:Listaref

Referencias

Plantilla:Listaref

Lectura adicional

Plantilla:Control de autoridades