Programa del Curso
Introducción
- Aprendizaje a través del refuerzo positivo
Elements de Reinforcement Learning
Términos importantes (Acciones, Estados, Recompensas, Política, Valor, Valor Q, etcétera).
Descripción general de los métodos de soluciones tabulares
Creación de un agente software
Comprensión de los enfoques basados en valores, políticas y modelos
Trabajar con el Proceso de Decisión de Markov (MDP)
Cómo las políticas definen la forma de comportarse de un agente
Uso de métodos de Monte Carlo
Aprendizaje de Diferencias Temporales
Ping de paso n Bootstrap
Métodos de solución aproximada
Predicción en política con aproximación
Control en política con aproximación
Métodos fuera de la política con aproximación
Descripción de los seguimientos de elegibilidad
Uso de métodos de gradiente de políticas
Resumen y conclusión
Requerimientos
- Experiencia con el aprendizaje automático
- Programming experiencia
Audiencia
- Científicos de datos