Aprendizaje por refuerzo multiagente

De testwiki
Ir a la navegación Ir a la búsqueda
Dos equipos rivales de agentes se enfrentan en un experimento MARL

El aprendizaje por refuerzo de multiagente es un subcampo del aprendizaje por refuerzo . Se centra en estudiar el comportamiento de múltiples agentes de aprendizaje que conviven en un entorno compartido.[1] Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses.

Definición

De manera similar al aprendizaje por refuerzo de un solo agente, el aprendizaje por refuerzo de múltiples agentes se modela como una forma de proceso de decisión de Markov (MDP) . Por ejemplo:

  • Un conjunto S de estados ambientales.
  • Un set 𝒜i de acciones para cada uno de los agentes iI={1,...,N} .
  • Pa(s,s)=Pr(st+1=sst=s,at=a) es la probabilidad de transición (en el tiempo t ) del estado s a estado s bajo acción conjunta a .
  • Ra(s,s) es la recompensa conjunta inmediata después de la transición de s a s con acción conjunta a .

En escenarios con información perfecta, como los juegos de ajedrez y Go, el MDP sería totalmente observable. En entornos con información imperfecta, especialmente en aplicaciones del mundo real como los automóviles autónomos, cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual.

Cooperación versus competencia

Cuando varios agentes actúan en un entorno compartido, sus intereses pueden estar alineados o desalineados.

Escenarios de competición pura

Cuando dos agentes están jugando un juego de suma cero, están en pura competencia entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Debido a que cada agente solo puede ganar a expensas del otro agente, se eliminan muchas complejidades.

Entornos de cooperación pura

En escenarios de pura cooperación todos los agentes obtienen recompensas idénticas.

En entornos de pura cooperación, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen en "convenciones" específicas cuando se coordinan entre sí.

Configuraciones de suma mixta

En este escenario de suma mixta, cada uno de los cuatro agentes intenta alcanzar un objetivo diferente. El éxito de cada agente depende de que los otros agentes despejen su camino, aunque no estén directamente incentivados para ayudarse entre sí.[2]

La mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia.

Dilemas sociales

Al igual que en la teoría de juegos, gran parte de la investigación en MARL gira en torno a dilemas sociales

Mientras que la investigación de la teoría de juegos podría centrarse en los equilibrios de Nash y cuál sería una política ideal para un agente, la investigación de MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de prueba y error.

Dilemas sociales secuenciales

Los dilemas sociales como el dilema del prisionero, la caza del pollo y del ciervo son "juegos de matriz". Cada agente realiza solo una acción de una elección de dos acciones posibles.


Aplicaciones

El aprendizaje por refuerzo de múltiples agentes se ha aplicado a: Plantilla:Lista de columnas

Limitaciones

Existen algunas dificultades inherentes al aprendizaje por refuerzo profundo multiagente.[3] El entorno ya no es estacionario, por lo que se viola la propiedad de Markov.

Software

Existen varias herramientas y marcos para trabajar con entornos de aprendizaje reforzado multiagente: Plantilla:Lista de columnas

Referencias

Plantilla:Listaref

Plantilla:Control de autoridades