in

GeekyGeeky ¡Pero qué c...!¡Pero qué c...! Una moneríaUna monería

Inteligencias artificiales colaboran y compiten jugando al escondite

Aprendieron un par de trucos que sorprendieron a los investigadores

OpenAI

Adaptarse a las reglas y aplicar nuevas estrategias es fundamental para vencer en cualquier juego, pero esto se vuelve mucho más interesante cuando los jugadores son agentes de inteligencia artificial. La gente de OpenAI decidió enfrentar a múltiples agentes en un clásico juego de escondite. A medida que el equipo de «buscadores» comenzó a acumular éxitos, el equipo que debía esconderse incorporó el uso de herramientas para lograr su objetivo, e incluso aprendió a «secuestrar» los recursos de su oponente.

Ya sabemos que las inteligencias artificiales pueden pintar cuadros, clonar voces, inventar rostros, envejecer a la gente y desnudar actrices. Pero la forma en la que cometen errores y aprenden de ellos es lo que nos hace regresar una y otra vez. Por supuesto, tienen ventajas contundentes como no comer, no dormir, y entrenar millones de veces al día, sin embargo, la evolución de su habilidad es lenta, y no les queda más opción que seguir ese largo camino.

La verdadera pregunta es: ¿Qué pueden lograr cuando llegan al final? Cooperación. Aplicación estratégica de recursos. Explotación de reglas establecidas. La gente de OpenAI lo llama «Uso Emergente de Herramientas a partir de Interacción Multi-Agente», pero creo que será mucho mejor si los observas en acción:



El escenario es sencillo: Dos equipos de agentes enfrentados en un juego de escondite. El sistema de recompensas se basa en puntos positivos y negativos, +1 para «encontrar/escapar», o -1 si «no encuentran nada/son vistos». Con una acumulación inicial de victorias por parte de los buscadores (rojo), el equipo azul comenzó a utilizar y fijar bloques para tapar las entradas, creando un escondite colaborativo. Después de varias generaciones, los buscadores también aprendieron a usar herramientas, moviendo rampas para saltar la pared y localizar a sus oponentes.

Esta estrategia fue infalible por millones de rondas, hasta que el equipo azul comprendió que si robaba las rampas antes de cerrar el refugio, los buscadores no podrían cruzar la pared. OpenAI no le dio a los equipos ninguna clase de incentivación para desarrollar semejante comportamiento. Cada vez que un equipo aprende una nueva habilidad, se crea un punto de presión adicional para el rival, quien de un modo u otro debe adaptarse.



La última fase del entrenamiento movió a los agentes a un espacio más abierto, donde el equipo azul estaría obligado a construir su propio refugio. Los agentes azules alejaron a las rampas del mapa y las fijaron allí, obteniendo así una total libertad para fabricar un espacio cerrado y aislar a los buscadores. ¿Qué hizo el equipo rojo de agentes buscadores? Aprendió a «surfear» sobre las cajas.

El experimento de OpenAI es un fabuloso ejemplo del aprendizaje por refuerzo. Los agentes entrenaron contra sí mismos, y contra versiones anteriores aplicando un algoritmo de auto-juego. A pesar de la relativa simplicidad de las reglas en este mundo de escondite, los agentes se las arreglaron para desarrollar estrategias inteligentes a pura competencia, colaboración, e interacción entre ellos.


Sitio oficial: Haz clic aquí


Reportar

¿Qué te pareció?

Escrito por Lisandro Pardo

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

SCP-701

Los archivos Creepypasta de la SCP: SCP-701

ImageNet Roulette

ImageNet Roulette: Entérate lo que «piensa» de ti una red neural