Regresión ordinal

De testwiki
Ir a la navegación Ir a la búsqueda

En estadística, la regresión ordinal (también llamada "clasificación ordinal") es un tipo de análisis de regresión que se utiliza para predecir una variable ordinal, es decir, una variable cuyo valor existe en una escala arbitraria donde solo el orden relativo entre diferentes valores es significativo. Puede considerarse un problema intermedio entre regresión y clasificación.[1][2] Ejemplos de regresión ordinal son logit ordenado y probit ordenado. La regresión ordinal aparece a menudo en las ciencias sociales, por ejemplo, en la modelización de los niveles de preferencia humanos (en una escala de, digamos, 1–5 para "muy deficiente" a "excelente"), así como en la recuperación de información. En el aprendizaje automático, la regresión ordinal también se puede llamar aprendizaje de clasificación.[3]

Modelos lineales para regresión ordinal

La regresión ordinal se puede realizar utilizando un modelo lineal generalizado (GLM) que se ajusta tanto a un vector de coeficientes como a un conjunto de umbrales a un conjunto de datos. Supongamos que uno tiene un conjunto de observaciones, representada por vectores de longitud p Plantilla:Math a través de Plantilla:Math, con respuestas asociadas y 1 a través de yn, donde cada Yi es una variable ordinal en una escala 1, ..., K . Por simplicidad, y sin pérdida de generalidad, asumimos que y es un vector no decreciente, es decir, Plantilla:Mvar. A estos datos, se ajusta un vector de coeficiente de longitud p w y un conjunto de umbrales Plantilla:Math con la propiedad de que Plantilla:Math. Este conjunto de umbrales divide la recta numérica real en K segmentos disjuntos, correspondientes a los K niveles de respuesta.

El modelo ahora se puede formular como

Pr(yi|𝐱)=σ(θi𝐰𝐱)

o, la probabilidad acumulada de que la respuesta y sea como máximo i viene dada por una función Plantilla:Mvar (la función de enlace inverso) aplicada a una función lineal de x. Existen varias opciones para Plantilla:Mvar; la función logística

σ(θi𝐰𝐱)=11+e(θi𝐰𝐱)

da el modelo logit ordenado, mientras que el uso de la función probit da el modelo probit ordenado. Una tercera opción es usar una función exponencial

σ(θi𝐰𝐱)=exp(exp(θi𝐰𝐱))

que da el modelo de riesgos proporcionales.[4]

Modelo de variable latente

La versión probit del modelo anterior se puede justificar asumiendo la existencia de una variable latente de valor real (cantidad no observada) Plantilla:Mvar, determinada por[5]

y*=𝐰𝐱+ε

donde Plantilla:Mvar se distribuye normalmente con media cero y varianza unitaria, condicionada a x. La variable de respuesta y resulta de una "medición incompleta" de Plantilla:Mvar, donde uno solo determina el intervalo en el que cae Plantilla:Mvar:

y={1ify*θ1,2ifθ1<y*θ2,3ifθ2<y*θ3KifθK1<y*.

Definiendo Plantilla:Math y Plantilla:Math, lo anterior se puede resumir como Plantilla:Math si y solo si Plantilla:Math.

A partir de estos supuestos, se puede derivar la distribución condicional de Plantilla:Mvar comoPlantilla:R

P(y=k|𝐱)=P(θk1<y*θk|𝐱)=P(θk1<𝐰𝐱+εθk)=Φ(θk𝐰𝐱)Φ(θk1𝐰𝐱)

donde Plantilla:Math es la función de distribución acumulativa de la distribución normal estándar y asume el papel de la función de enlace inverso σ. La probabilidad logarítmica del modelo para un solo ejemplo de entrenamiento xi, yi ahora puede expresarse comoPlantilla:R

log(𝐰,θ|𝐱i,yi)=k=1K[yi=k]log[Φ(θk𝐰𝐱i)Φ(θk1𝐰𝐱i)]]

(usando el corchete de Iverson Plantilla:Math.) La probabilidad logarítmica del modelo logit ordenado es análoga, usando la función logística en lugar de Plantilla:Math.[6]

Modelos alternativos

En el aprendizaje automático, se han propuesto alternativas a los modelos de regresión ordinal de variables latentes. Un resultado temprano fue PRank, una variante del algoritmo del perceptrón que encontró múltiples hiperplanos paralelos que separaban los distintos rangos; su salida es un vector de peso w y un vector ordenado de K −1 umbrales Plantilla:Math, como en los modelos ordenados logit/probit. La regla de predicción para este modelo es generar el rango más pequeño k tal que Plantilla:Math.[7]

Otros métodos se basan en el principio de aprendizaje de gran margen que también subyace a las máquinas de vectores de soporte.[8][9]

Rennie y Srebro dan otro enfoque, quienes, al darse cuenta de que "incluso evaluar la probabilidad de un predictor no es sencillo" en los modelos logit ordenado y probit ordenados, proponen ajustar modelos de regresión ordinal adaptando funciones de pérdida comunes de la clasificación (como la pérdida de bisagra y la pérdida de registro) al caso ordinal[10]

Software

ORCA (Algoritmos de clasificación y regresión ordinal) es un marco Octave/MATLAB que incluye un amplio conjunto de métodos de regresión ordinal.[11]

Los paquetes R que proporcionan métodos de regresión ordinal incluyen MASS[12] y Ordinal.[13]

Véase también

Referencias

Plantilla:Listaref

Lecturas adicionales

Plantilla:Control de autoridades