Aprendizaje Ockham

De testwiki
Ir a la navegación Ir a la búsqueda

En la teoría del aprendizaje computacional, el aprendizaje Ockham (u Occam) es un modelo de aprendizaje algorítmico en el que el objetivo del alumno es obtener una representación sucinta de los datos de entrenamiento recibidos. Está estrechamente relacionado con el aprendizaje probablemente aproximadamente correcto (PAC), en el que el alumno se evalúa en función de su poder predictivo de un conjunto de pruebas.

La aprendibilidad de Ockham implica aprendibilidad de PAC, y para una amplia variedad de clases de conceptos, lo contrario también es cierto: La capacidad de aprendizaje PAC implica la capacidad de aprendizaje Ockham.

Introducción

El aprendizaje Ockham debe su nombre a la navaja de Ockham, un principio según el cual, en igualdad de condiciones, una explicación más corta de los datos observados debería ser preferible a una explicación más larga. La teoría del aprendizaje de Occam es una justificación formal y matemática de este principio. Blumer et al.[1] demostraron por primera vez que el aprendizaje de Occam implica el aprendizaje PAC, que es el modelo estándar de aprendizaje en la teoría del aprendizaje computacional. En otras palabras, la parsimonia (de la hipótesis de salida) implica poder predictivo.

Definición del aprendizaje Ockham

La concisión de un concepto c en la clase de concepto 𝒞 puede expresarse mediante la longitud size(c) de la cadena de bits más corta que puede representar c en 𝒞. El aprendizaje Ockham relaciona la concisión de los resultados de un algoritmo de aprendizaje con su capacidad de predicción sobre datos desconocidos.

Dejemos que 𝒞 y sean clases de conceptos que contienen conceptos objetivo e hipótesis, respectivamente. Entonces, para las constantes α0 y 0β<1, un algoritmo de aprendizaje L es un algoritmo Ockham (α,β) para 𝒞 usando dado un conjunto S={x1,,xm} de m muestras etiquetados según un concepto c𝒞, L genera una hipótesis h de forma que:

  • h es consistente con c en S (es decir, h(x)=c(x),xS ), y
  • size(h)(nsize(c))αmβ [1][2]

Donde n es la longitud máxima de cualquier muestra xS. Un algoritmo de Ockham se denomina eficiente si se ejecuta en tiempo polinomial en n, m y size(c). Decimos una clase de concepto 𝒞 es aprendizaje de Ockham con respecto a una hipótesis de clase si existe un algoritmo Ockham eficiente para 𝒞 usando .

La relación entre Ockham y el aprendizaje PAC

El aprendizaje de Ockham implica el aprendizaje de PAC, como muestra el siguiente teorema de Blumer, et al:[2]

Teorema (el aprendizaje de Ockham implica el aprendizaje de PAC)

Dejemos L sea un algoritmo Ockham (α,β) eficiente para C usando H. Entonces existe allí una contante a>0 de forma que para cualquier 0<ϵ,δ<1, para cualquier distribución 𝒟, dando:

ma(1ϵlog1δ+((nsize(c))α)ϵ)11β)muestras extraídas de D y etiquetados según un concepto c𝒞 de una extensión de n bits cada uno, el algoritmo L dará como resultado una hipótesis h de forma que error(h)ϵ tendrá una probabilidad de por lo menos 1δ.

Aquí, error(h) es con respecto al concepto c y distribución D. Esto implica que el algoritmo L es también un aprendiz de PAC para la clase de conceptos C usando hipótesis clase H.

Una formulación ligeramente más general es la siguiente:

Teorema (el aprendizaje de Ockham implica el aprendizaje PAC, versión cardinalidad)

Tenemos 0<ϵ,δ<1. Dejemos que L sea un algoritmo tal que, dando m muestras extraída de una distribución fija pero desconocida 𝒟 y etiquetadas según un concepto c𝒞 de longitud de n bits cada uno, produce una hipótesis hn,m que es coherente con las muestras etiquetadas.

Entonces, existe una constante b de forma que log|n,m|bϵmlog1δ, entonces L garantiza la salida de una hipótesis hn,m de forma que error(h)ϵ tiene una probabilidad de por lo menos 1δ.

Aunque los teoremas anteriores muestran que el aprendizaje Ockham es suficiente para el aprendizaje PAC, no dicen nada sobre la necesidad. Board y Pitt demuestran que, para una amplia variedad de clases conceptuales, el aprendizaje Ockham es de hecho necesario para el aprendizaje PAC.[3] Demostraron que para cualquier clase conceptual que sea polinomialmente cerrada bajo listas de excepciones, el aprendizaje PAC implica la existencia de un algoritmo Ockham para esa clase conceptual. Las clases conceptuales que son polinomialmente cerradas bajo listas de excepciones incluyen fórmulas booleanas, circuitos, autómatas finitos deterministas, listas de decisión, árboles de decisión y otras clases conceptuales definidas geométricamente.

Un concepto clase C es polinómicamente cerrado bajo listas de excepciones si existe un algoritmo en tiempo polinómico A de forma tal que, cuando se le da la representación de un concepto c𝒞 y una lista finita de E excepciones genera una representación de un concepto c𝒞 de forma que los conceptos c y c coinciden excepto en el set E.

Prueba de que el aprendizaje Ockham implica el aprendizaje de PAC

Primero probamos la versión de la cardinalidad. Llamamos hipótesis h mala si resulta en error(h)ϵ, donde nuevamente error(h) es con respecto al concepto real c y la distribución subyacente D. La probabilidad de que un conjunto de muestras S es consistente con h es a lo mucho (1ϵ)m, por la independencia de las muestras. Por el límite de unión, la probabilidad de que exista una hipótesis mala en n,m es a lo mucho |n,m|(1ϵ)m, que es menor que δ si resulta log|n,m|O(ϵm)log1δ. Con esto concluye la demostración del segundo teorema anterior.

Utilizando el segundo teorema, podemos demostrar el primero. Como tenemos el algoritmo de Ockham (α,β) esto significa que cualquier hipótesis emitida por L puede representarse como máximo por (nsize(c))αmβ bits, y por lo tanto, log|n,m|(nsize(c))αmβ. Esto es menor a O(ϵm)log1δ si establecemos ma(1ϵlog1δ+((nsize(c))α)ϵ)11β)para una constante a>0. Así, por el Teorema de la versión de la cardinalidad, L dará como resultado una hipótesis coherente h con una probabilidad de por lo menos 1δ. Con esto concluye la demostración del primer teorema anterior.

Mejora de la complejidad de las muestras para problemas comunes

Aunque el aprendizaje de Ockham y PAC son equivalentes, el marco de Ockham puede utilizarse para producir límites más ajustados en la complejidad muestral de problemas clásicos, incluyendo conjunciones,[2] conjunciones con pocas variables relevantes,[4] y listas de decisión.[5]

Extensiones

Los algoritmos de Ockham también han demostrado tener éxito para el aprendizaje PAC en presencia de errores,[6][7] conceptos probabilísticos,[8] aprendizaje de funciones[9] y ejemplos markovianos no independientes.[10]

Véase también

Referencias

Plantilla:Reflist

Plantilla:Control de autoridades