Suma residual de cuadrados

De testwiki
Ir a la navegación Ir a la búsqueda

En estadística e inteligencia artificial, la suma residual de cuadrados (RSS), también conocida como suma de residuos cuadrados (SSR) o suma de cuadrados de estimación de errores (SSE), es la suma de los cuadrados de residuos (desviaciones predichas a partir de valores empíricos reales). de datos). Es una medida de la discrepancia entre los datos y un modelo de estimación, como una regresión lineal. Un RSS pequeño indica un ajuste estrecho del modelo a los datos. Se utiliza como criterio de optimización en la selección de parámetros y la selección de modelos .

En general, suma total de cuadrados = suma explicada de cuadrados + suma residual de cuadrados. Para ver una prueba de esto en el caso de mínimos cuadrados ordinarios (OLS) multivariante, consulte partición en el modelo OLS general .

Una variable explicativa

En un modelo con una sola variable explicativa (explanatory variable en inglés), RSS viene dado por:[1]

RSS=i=1n(yif(xi))2

donde y i es el i -ésimo valor de la variable a predecir, x i es el i -ésimo valor de la variable explicativa, y f(xi) es el valor pronosticado de y i (también denominado yi^ ). En un modelo de regresión lineal simple estándar, yi=α+βxi+εi, donde α y β son coeficientes, y y x son la regresora y la regresora, respectivamente, y ε es el término de error . La suma de los cuadrados de los residuos es la suma de los cuadrados de ε^i ; es decir

RSS=i=1n(ε^i)2=i=1n(yi(α^+β^xi))2

donde α^ es el valor estimado del término constante α y β^ es el valor estimado del coeficiente de pendiente β .

Expresión matricial para la suma residual de cuadrados OLS - MCO

El modelo de regresión general con n observaciones y k explicadores (explanators en inglés), el primero de los cuales es un vector unitario constante cuyo coeficiente es el intercepto de la regresión, es

y=Xβ+e

donde y es un vector n × 1 de observaciones de variables dependientes, cada columna de la matriz n × k , X es un vector de observaciones en uno de los k explicadores, β es un vector k × 1 de coeficientes verdaderos, y e es un vector n × 1 de los errores subyacentes verdaderos. El estimador de mínimos cuadrados ordinarios para β es

Xβ^=y
XTXβ^=XTy
β^=(XTX)1XTy.

El vector residual e^ = yXβ^=yX(XTX)1XTy ; entonces la suma residual de los cuadrados es:

RSS=e^Te^=e^2,

(equivalente al cuadrado de la norma de residuos). En su totalidad:

RSS=yTyyTX(XTX)1XTy=yT[IX(XTX)1XT]y=yT[IH]y,

donde H es la matriz sombrero, o la matriz de proyección en regresión lineal.

Relación con la correlación producto-momento de Pearson

La línea de regresión de mínimos cuadrados está dada por

y=ax+b,

donde b=y¯ax¯ y a=SxySxx, donde Sxy=i=1n(x¯xi)(y¯yi) y Sxx=i=1n(x¯xi)2.

Por lo tanto,

RSS=i=1n(yif(xi))2=i=1n(yi(axi+b))2=i=1n(yiaxiy¯+ax¯)2=i=1n(a(x¯xi)(y¯yi))2=a2Sxx2aSxy+Syy=SyyaSxy=Syy(1Sxy2SxxSyy)

donde Syy=i=1n(y¯yi)2.

La correlación producto-momento de Pearson está dada por r=SxySxxSyy; por lo tanto, RSS=Syy(1r2).

Véase también

Referencias

Plantilla:Listaref

Bibliografía

Plantilla:Control de autoridades