Sonic the Hedgehog 2

Principales herramientas/plataformas de aprendizaje de refuerzo en 2022

¿Qué es el aprendizaje por refuerzo?

El aprendizaje por refuerzo es uno de los subcampos del aprendizaje automático. Implica acciones apropiadas para maximizar las recompensas bajo ciertas circunstancias. Es utilizado por varios programas y máquinas para determinar la acción óptima a tomar en un caso dado. El aprendizaje por refuerzo no tiene soluciones correctas o incorrectas; en cambio, el agente de refuerzo decide qué se debe hacer para completar la tarea. Esto contrasta con el aprendizaje supervisado, donde los datos de entrenamiento incluyen una clave de solución y el modelo se entrena con esas respuestas. Era obligatorio obtener conocimiento de su experiencia sin conjuntos de datos de entrenamiento.

Puntos principales del aprendizaje por refuerzo

  • Entrada: La entrada debe representar el punto de partida del modelo.
  • Salidas: Hay tantas salidas posibles como diferentes formas de resolver un problema en particular.
  • Formación: La formación se basa en la entrada. Los usuarios elegirán si premiar o penalizar el modelo en función de su estado de devolución.
  • Los modelos nunca dejan de aprender.
  • El mejor curso de acción se selecciona en función del beneficio más significativo.

Hay dos categorías distintas de refuerzo:

positivo –

El refuerzo positivo es cuando un evento que resulta de un determinado comportamiento se fortalece y se vuelve más frecuente. En otras palabras, influye en el comportamiento de una buena manera.

Estos son los beneficios del aprendizaje por refuerzo:

  • Mejorar el rendimiento
  • Conservar cambio por tiempo prolongado
  • El resultado puede verse atenuado por el estado de sobrecarga causado por el sobrerreforzamiento.

Negativo –

El refuerzo negativo refuerza el comportamiento al detener o evitar las condiciones negativas.

Los beneficios del aprendizaje por refuerzo incluyen:

  • Mejorar el comportamiento
  • Mostrar desdén por el nivel de desempeño requerido
  • Solo ofrece recursos suficientes para cumplir con el comportamiento mínimo.
Principales herramientas/plataformas/bibliotecas de aprendizaje por refuerzo
Gimnasio OpenAI

La plataforma preferida para crear y comparar modelos de aprendizaje por refuerzo, OpenAI Gym, es totalmente compatible con bibliotecas informáticas avanzadas como TensorFlow. Un entorno de simulación de IA enriquecido basado en Python admite la formación de agentes que utilizan videojuegos tradicionales como Atari y otras disciplinas como la robótica y la física utilizando herramientas como los simuladores Gazebo y MuJoCo.

Además, el entorno del gimnasio proporciona API para alimentar observaciones y recompensar a los agentes. Una nueva plataforma llamada Gym Retro, creada por OpenAI, acaba de estar disponible. Tiene 58 escenarios diferentes y distintos de los videojuegos Sonic the Hedgehog, Sonic the Hedgehog 2 y Sonic 3. Los desarrolladores de juegos de IA y los entusiastas del aprendizaje por refuerzo pueden inscribirse en este desafío.

TensorFlow

Más de 95 000 desarrolladores utilizan la renombrada biblioteca de código abierto de Google todos los días en varios campos, incluidos la robótica, los chatbots inteligentes y el procesamiento del lenguaje natural. TensorLayer, la extensión de TensorFlow creada por la comunidad, ofrece un módulo RL muy querido que es fácil de adaptar y armar para resolver problemas prácticos de aprendizaje automático.

La comunidad de TensorFlow admite el desarrollo de marcos en los lenguajes más utilizados, incluidos Python, C, Java, JavaScript y Go. Para habilitar el aprendizaje automático en la plataforma de Apple, Google y el equipo de TensorFlow están trabajando para desarrollar una versión compatible con Swift.

Difícil

Con menos líneas de código y una ejecución más rápida, Keras simplifica la implementación de redes neuronales. Se centra en la arquitectura del modelo y ofrece a los desarrolladores senior y científicos clave una interfaz de alto nivel para el marco informático de alto tensor TensorFlow. Por lo tanto, si ya tiene un modelo RL integrado en TensorFlow, simplemente seleccione el marco Keras y aplique su aprendizaje a los desafíos de aprendizaje automático relevantes.

Laboratorio de mente interior

La plataforma 3D de Google con personalización para la investigación de inteligencia artificial basada en agentes se llama DeepMind Lab. Se utiliza para comprender cómo los agentes artificiales autónomos adquieren habilidades complejas en un entorno vasto e inadvertido. DeepMind ganó popularidad después de que el programa AlphaGo derrotara a los jugadores humanos a principios de 2016. El equipo de DeepMind se concentró en los fundamentos básicos de la IA, incluido el desarrollo de un único sistema de IA respaldado por técnicas de vanguardia y aprendizaje de refuerzo de distribución, desde sus tres centros en Londres, Canadá y Francia.

Pytorch

Otra biblioteca de aprendizaje profundo muy conocida utilizada por muchos investigadores de aprendizaje por refuerzo es Pytorch, que Facebook pone a disposición del público. En una competencia reciente de Kaggle, a los 10 primeros finalistas les gustó casi universalmente. Los practicantes de RL lo usan sabiamente para realizar experimentos en la creación de agentes basados ​​en políticas y para desarrollar nuevas aventuras debido a su red neuronal dinámica y su potente aceleración de GPU. Playing GridWorld es uno de esos locos proyectos de investigación en los que Pytorch desbloquea su potencial utilizando técnicas conocidas de RL como los gradientes de políticas y el método actor-crítico simplificado.

Dopamina Google

La dopamina es para reforzar el aprendizaje de qué son los códigos de trucos para los videojuegos. La dopamina es básicamente un atajo a la práctica de la vida real. Está diseñado para ayudar a los investigadores a presentar resultados rápidamente cuando se utiliza RL. Está basado en Tensorflow, aunque no es un producto de Google.

La dopamina se esfuerza por ser adaptable, confiable y repetible. La primera iteración se enfoca en admitir el agente Rainbow de GPU único de última generación que se usa para jugar juegos de Atari 2600 (Hessel et al., 2018). (Bellemare et al., 2013). Se requiere una configuración complicada y una serie de procesos para codificar RL. Con la ayuda de la dopamina, puedes superarlo.

Agente reactivo de Facebook

Reagent, anteriormente conocido como Horizon, intenta entrenar modelos RL en un contexto por lotes. Este framework está completamente basado en PyTorch, al igual que Facebook. La preparación de datos es el primer paso en un flujo de trabajo asistido por un marco. La implementación en tiempo real, no la experimentación rápida, es el objetivo de Reagent.

La literatura oficial enumera los seis algoritmos principales con los que puede trabajar, pero con un poco de imaginación, hay espacio para un crecimiento significativo. Los marcos se concentran en flujos de trabajo completos, y su uso podría dar buenos resultados. El principal problema es que no hay un instalador de pip, lo cual es un desafío al usar este marco. El documento oficial y el código fuente están disponibles aquí.

huscarli

Huskarl se basa en TensorFlow y Keras y significa “guerrero” en nórdico antiguo. A la lista de marcos de RL de acceso abierto, esta es la última incorporación. Huskarl promete ser modular y rápido para crear prototipos. Huskarl, que es muy intensivo en computación, facilita el uso de múltiples núcleos de CPU para computación paralela. Una de las principales causas de la creación rápida de prototipos es esta.

Huskarl es compatible con Unity3d para entornos multiagente y gimnasios Open AI, que explicaremos en breve. Actualmente, solo se pueden usar unos pocos algoritmos, pero muchos más están en progreso.

OpenSpiel DeepMind

Uno de los contribuyentes más frecuentes a las pilas de aprendizaje de código abierto es DeepMind. Incluso en 2019, DeepMind de Alphabet lanzó OpenSpiel, un marco de aprendizaje reforzado centrado en el juego. Este marco consta de una colección de entornos y algoritmos que pueden respaldar la investigación sobre el aprendizaje por refuerzo general, especialmente cuando se aplica al juego. Además de herramientas para explorar y planificar en el juego, OpenSpiel también ofrece herramientas para estudiar dinámicas de aprendizaje y otras métricas de evaluación ampliamente utilizadas.

El marco admite más de 20 tipos diferentes de juegos de un solo agente y de múltiples agentes, como juegos secuenciales, cooperativos, de suma cero y de una sola vez. Es decir, además de juegos con estrictos requisitos de turnos, juegos de subasta, juegos de matriz y juegos de movimiento simultáneo, así como juegos perfectos (donde los participantes tienen un conocimiento muy bueno de todos los eventos que han ocurrido mientras tomaban decisiones) y juegos de información imperfecta ( donde las decisiones se toman simultáneamente).

Agentes TF TensorFlow

El marco TF-Agents para TensorFlow se creó como un paradigma de infraestructura de código abierto para admitir el desarrollo de algoritmos RL paralelos. Para facilitar a los usuarios el desarrollo e implementación de algoritmos, el marco ofrece una variedad de componentes que corresponden a los elementos esenciales de un problema de RL.

Todos los entornos del marco se crean utilizando un proceso único de Python. La plataforma emula dos entornos simultáneos en lugar de realizar una sola observación y ejecutar cálculos de red neuronal por lotes. Como resultado, el motor TensorFlow ahora puede paralelizar cálculos sin sincronización humana.

Fibra AI de Uber

La necesidad de recursos informáticos está aumentando junto con la cantidad de proyectos de aprendizaje automático. Uber AI presentó Fiber, una biblioteca basada en Python que funciona con clústeres de computadoras, para ayudar a resolver este problema. El objetivo inicial de desarrollar Fiber era respaldar iniciativas de cómputo paralelo a gran escala dentro de Uber.

Al igual que los módulos multiprocesador ipyparallel, spark y Python estándar, Fiber es el iPython para la computación paralela. La fibra se divide en tres capas: capa de clúster, capa de backend y capa de API, para ejecutarse en diferentes sistemas de administración de clústeres. Según la investigación de Uber AI, Fiber se desempeña mejor que sus competidores para trabajos más cortos.

Fiber es hábil en el manejo de fallas en la piscina. Las nuevas colas de tareas relacionadas con lotes, las colas de resultados y las tablas pendientes se crean al mismo tiempo. Cada nueva tarea se ingresa en una línea y se distribuye entre trabajadores y procesos maestros. Un usuario selecciona un trabajo de la cola y realiza su función. Se agrega una entrada a la tabla pendiente después de completar una tarea de la cola de tareas.

pyqlearning

La biblioteca Pyqlearning Python se utiliza para implementar RL. Enfatiza Q-Network multiagente y Q-Learning. Pyqlearning ofrece elementos de diseño en lugar de una “caja negra” de vanguardia para el usuario final. Puede crear algoritmos de búsqueda de información, como rastreadores web o GameAI. Como resultado, usar esta biblioteca es un desafío.

Entrenador RL Pelatih

El marco de aprendizaje por refuerzo de Python con algoritmos avanzados se llama Entrenador de aprendizaje por refuerzo (Coach) por Intel AI Lab.

Ofrece un conjunto de API fáciles de usar para probar nuevos algoritmos de RL. La sección de la biblioteca es modular e incluye algoritmos, entornos y diseños de redes neuronales. Por lo tanto, es relativamente fácil ampliar y reutilizar los componentes existentes.

setaRL

Con MushroomRL, puede usar las bibliotecas populares de Python para la computación de tensores y la evaluación comparativa de RL, gracias al diseño modular de la biblioteca.

Proporciona algoritmos de RL profundos y técnicas de RL estándar para permitir experimentos de RL. El concepto de MushroomRL es proporcionar una interfaz estándar a través de la cual se pueden ejecutar la mayoría de los algoritmos de RL con el mínimo esfuerzo.

Please Don't Forget To Join Our 5,000+ ML Subreddit

Referencia:

  • https://www.geeksforgeeks.org/what-is-reinforcement-learning/
  • https://hub.packtpub.com/tools-for-reinforcement-learning/
  • https://medium.com/the-research-nest/top-frameworks-to-explore-reinforcement-learning-b543aaf496e8
  • https://analyticsindiamag.com/top-5-open-source-reinforcement-learning-frameworks/
  • https://neptune.ai/blog/the-best-tools-for-reinforcement-learning-in-python


Prathamesh Ingle es consultor de redacción de contenido en MarktechPost. Es Ingeniero Mecánico y trabaja como Analista de Datos. También es un profesional certificado en IA y científico de datos con interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances con sus aplicaciones en la vida real.


About the author

HOLANEWS

Leave a Comment

%d bloggers like this: