Aprendizaje activo (aprendizaje automático)

De testwiki
Ir a la navegación Ir a la búsqueda

El aprendizaje activo es un caso especial de aprendizaje automático en el que un algoritmo de aprendizaje puede interactuar de manera interactiva con un usuario (u otra fuente de información) para etiquetar nuevos puntos de datos con las salidas deseadas.[1][2][3] En la literatura estadística, a veces también se le llama diseño experimental óptimo.[4] La fuente de información también se llama profesor u oráculo.

Existen situaciones en las que los datos sin etiquetar son abundantes pero la etiquetación manual es costosa. En dicho escenario, los algoritmos de aprendizaje pueden consultar activamente al usuario/profesor para obtener etiquetas. Este tipo de aprendizaje supervisado iterativo se llama aprendizaje activo. Dado que el aprendiz elige los ejemplos, el número de ejemplos necesarios para aprender un concepto a menudo puede ser mucho menor que el necesario en el aprendizaje supervisado normal. Con este enfoque, existe el riesgo de que el algoritmo sea abrumado por ejemplos poco informativos. Los desarrollos recientes se dedican al aprendizaje activo de múltiples etiquetas,[5] al aprendizaje activo híbrido[6] y al aprendizaje activo en un contexto de una sola pasada (en línea),[7] combinando conceptos del campo del aprendizaje automático (por ejemplo, conflicto e ignorancia) con políticas de aprendizaje adaptativo e incremental en el campo del aprendizaje automático en línea.

Los proyectos de aprendizaje activo a gran escala pueden beneficiarse de marcos de crowdsourcing como Amazon Mechanical Turk, que incluyen a muchos seres humanos en el ciclo de aprendizaje activo.

Definiciones

Sea Plantilla:Mvar el conjunto total de todos los datos en consideración. Por ejemplo, en un problema de ingeniería de proteínas, Plantilla:Mvar incluiría todas las proteínas conocidas que tienen una cierta actividad interesante y todas las proteínas adicionales que se puedan querer probar para esa actividad.

Durante cada iteración, i, Plantilla:Mvar se divide en tres subconjuntos:

  • 𝐓K,i: Puntos de datos cuya etiqueta es conocida.
  • 𝐓U,i: Puntos de datos cuya etiqueta es desconocida.
  • 𝐓C,i: Un subconjunto de 𝐓U,i que se elige para ser etiquetado.

La mayor parte de la investigación actual en aprendizaje activo se centra en el mejor método para elegir los puntos de datos para 𝐓C,i.

Escenarios

  • Síntesis de consulta de membresía (en inglés: Membership Query Synthesis): El aprendiz genera su propia instancia a partir de una distribución natural subyacente. Por ejemplo, si el conjunto de datos son imágenes de humanos y animales, el aprendiz podría enviar una imagen recortada de una pierna al profesor y preguntar si este apéndice pertenece a un animal o un humano. Esto es particularmente útil si el conjunto de datos es pequeño.[8]
  • Muestreo basado en fondo (en inglés: Pool-Based Sampling): En este escenario se toman instancias de todo el conjunto de datos y se les asigna un puntaje de confianza, una medida de cuán bien el aprendiz "comprende" los datos. Luego, el sistema selecciona las instancias para las cuales tiene menos confianza y consulta al profesor las etiquetas.
  • Muestreo selectivo basado en flujo (en inglés: Stream-Based Selective Sampling): Se examina cada punto de datos no etiquetado, uno a la vez, con la máquina evaluando el grado de informatividad de cada elemento según sus parámetros de consulta. El aprendiz decide por sí mismo si asignar una etiqueta o consultar al profesor para cada punto de datos.

Estrategias de consulta

Los algoritmos para determinar cuáles puntos de datos deben ser etiquetados pueden organizarse en varias categorías diferentes, según su propósito:[1]

  • Equilibrar exploración y explotación (en inglés: Balance exploration and explotation): la elección de ejemplos para etiquetar se ve como un dilema entre la exploración y la explotación en la representación del espacio de datos. Esta estrategia gestiona este compromiso al modelar el problema de aprendizaje activo como un problema de bandit contextual. Por ejemplo, Bouneffouf et al.[9] proponen un algoritmo secuencial llamado Muestreo Activo de Thompson (en inglés: Active Thompson Sampling, ATS), que, en cada ronda, asigna una distribución de muestreo en el conjunto de datos, extrae un punto de esta distribución y consulta al oráculo para la etiqueta de este punto de muestra.
  • Cambio esperado en el modelo (en inglés: Expected model change): etiquetar aquellos puntos que cambiarían más el modelo actual.
  • Reducción del error esperado (en inglés: Expected error reduction): etiquetar aquellos puntos que reducirían más el error de generalización del modelo.
  • Exploración del Gradiente Exponenciado para Aprendizaje Activo (en inglés: Exponentiated Gradient Exploration for Active Learning): En este documento,[9] el autor propone un algoritmo secuencial llamado gradiente exponenciado (EG)-activo que puede mejorar cualquier algoritmo de aprendizaje activo mediante una exploración aleatoria óptima.
  • Muestreo aleatorio (en inglés: Random sampling): se selecciona una muestra al azar.[10]
  • Muestreo incierto (en inglés: Uncertainty sampling): etiquetar aquellos puntos para los cuales el modelo actual tiene menos certeza sobre cuál debería ser la salida correcta.
    1. Muestreo de Entropía (en inglés: Entropy sampling): se utiliza la fórmula de entropía en cada muestra y se considera que la muestra con la entropía más alta es la menos segura.[10]
    2. Muestreo de Margen (en inglés: Margin sampling): se considera que la muestra con la menor diferencia entre las dos probabilidades de clase más altas es la más incierta.[10]
    3. Muestreo Menos Confiable (en inglés: Least Confident Sampling): se considera que la muestra con la menor mejor probabilidad es la más incierta.[10]
  • Consulta por comité (en inglés: Query by committee): se entrenan varios modelos con los datos etiquetados actuales y votan por la salida de los datos no etiquetados; se etiquetan aquellos puntos en los que el "comité" está en desacuerdo en mayor medida.
  • Consulta desde subespacios o particiones diversos (en inglés: Querying from diverse subspaces or partitions):[11] cuando el modelo subyacente es un conjunto de árboles, los nodos hoja pueden representar particiones (superpuestas) del espacio de características original. Esto ofrece la posibilidad de seleccionar instancias de particiones no superpuestas o mínimamente superpuestas para etiquetar.
  • Reducción de la varianza (en inglés: Variance reduction): etiquetar aquellos puntos que minimizarían la varianza de la salida, que es uno de los componentes del error.
  • Predicción Conforme (en inglés: Conformal prediction): predice que un nuevo punto de datos tendrá una etiqueta similar a los puntos de datos antiguos de alguna manera especificada y utiliza el grado de similitud dentro de los ejemplos antiguos para estimar la confianza en la predicción.[12]
  • Trayecto del más lejano primero con desajuste (en inglés: Mismatch-first farthest-traversal): el criterio de selección principal es el desajuste de predicción entre el modelo actual y la predicción del vecino más cercano. Se dirige a los puntos de datos incorrectamente predichos. El segundo criterio de selección es la distancia a los datos seleccionados previamente, el más lejano primero. Su objetivo es optimizar la diversidad de datos seleccionados.[13]
  • Estrategias de Etiquetado Centradas en el Usuario (en inglés: User Centered Labeling Strategies): el aprendizaje se lleva a cabo aplicando la reducción de dimensionalidad a gráficos y figuras como gráficos de dispersión. Luego se le pide al usuario que etiquete los datos compilados (categóricos, numéricos, puntuaciones de relevancia, relación entre dos instancias).[14]

Se han estudiado una amplia variedad de algoritmos que se encuadran en estas categorías.[1][4]

Hiperplano marginal mínimo

Algunos algoritmos de aprendizaje activo se basan en máquinas de soporte vectorial (SVM) y aprovechan la estructura de la SVM para determinar qué puntos de datos deben etiquetarse. Tales métodos generalmente calculan el margen, W de cada dato no etiquetado en 𝐓U,i y tratan W como una distancia n-dimensional desde ese dato hasta el hiperplano separador.

Los métodos de Hiperplano marginal mínimo asumen que los datos con el valor más pequeño de W son aquellos sobre los cuales la SVM tiene más incertidumbre y, por lo tanto, deberían colocarse en 𝐓C,i para ser etiquetados. Otros métodos similares, como el Hiperplano marginal máximo, eligen datos con el valor más grande de W. Los métodos de compensación eligen una combinación de los valores más pequeños y más grandes de W.

Véase también

Referencias

Plantilla:Control de autoridades