Se realizará la implementación y evaluación de algoritmos destacados de aprendizaje reforzado, centrándose en aquellos de Espacios Continuos como TD3 (Twin Delayed Deep Deterministic Policy Gradient) y DDPG (Deep Deterministic Policy Gradient) A lo largo de este proceso, se analizará exhaustivamente el rendimiento de estos algoritmos en términos de convergencia, estabilidad y eficiencia en la exploración. El objetivo principal es ofrecer una evaluación comparativa sólida y una comprensión profunda de cómo estos algoritmos se comportan en diferentes entornos.
David Cocero Quintanilla