Aprendizaje por refuerzo multiagente

El aprendizaje por refuerzo de multiagente es un subcampo del aprendizaje por refuerzo . Se centra en estudiar el comportamiento de múltiples agentes de aprendizaje que conviven en un entorno compartido.[1] Cada agente está motivado por sus propias recompensas y realiza acciones para promover sus propios intereses.
Definición
De manera similar al aprendizaje por refuerzo de un solo agente, el aprendizaje por refuerzo de múltiples agentes se modela como una forma de proceso de decisión de Markov (MDP) . Por ejemplo:
- Un conjunto de estados ambientales.
- Un set de acciones para cada uno de los agentes .
- es la probabilidad de transición (en el tiempo ) del estado a estado bajo acción conjunta .
- es la recompensa conjunta inmediata después de la transición de a con acción conjunta .
En escenarios con información perfecta, como los juegos de ajedrez y Go, el MDP sería totalmente observable. En entornos con información imperfecta, especialmente en aplicaciones del mundo real como los automóviles autónomos, cada agente accedería a una observación que solo tiene parte de la información sobre el estado actual.
Cooperación versus competencia
Cuando varios agentes actúan en un entorno compartido, sus intereses pueden estar alineados o desalineados.
Escenarios de competición pura
Cuando dos agentes están jugando un juego de suma cero, están en pura competencia entre sí. Muchos juegos tradicionales como el ajedrez y el Go entran en esta categoría, al igual que las variantes para dos jugadores de juegos modernos como StarCraft . Debido a que cada agente solo puede ganar a expensas del otro agente, se eliminan muchas complejidades.
Entornos de cooperación pura
En escenarios de pura cooperación todos los agentes obtienen recompensas idénticas.
En entornos de pura cooperación, a menudo hay un número arbitrario de estrategias de coordinación y los agentes convergen en "convenciones" específicas cuando se coordinan entre sí.
Configuraciones de suma mixta

La mayoría de los escenarios del mundo real que involucran a múltiples agentes tienen elementos tanto de cooperación como de competencia.
Dilemas sociales
Al igual que en la teoría de juegos, gran parte de la investigación en MARL gira en torno a dilemas sociales
Mientras que la investigación de la teoría de juegos podría centrarse en los equilibrios de Nash y cuál sería una política ideal para un agente, la investigación de MARL se centra en cómo los agentes aprenderían estas políticas ideales mediante un proceso de prueba y error.
Dilemas sociales secuenciales
Los dilemas sociales como el dilema del prisionero, la caza del pollo y del ciervo son "juegos de matriz". Cada agente realiza solo una acción de una elección de dos acciones posibles.
Aplicaciones
El aprendizaje por refuerzo de múltiples agentes se ha aplicado a: Plantilla:Lista de columnas
Limitaciones
Existen algunas dificultades inherentes al aprendizaje por refuerzo profundo multiagente.[3] El entorno ya no es estacionario, por lo que se viola la propiedad de Markov.
Software
Existen varias herramientas y marcos para trabajar con entornos de aprendizaje reforzado multiagente: Plantilla:Lista de columnas