Bilkent University

EEE 548 Reinforcement Learning and Dynamic Programming

Markov chains. Markov decision processes. Dynamic programming: policy iteration, value iteration. Model-free reinforcement learning: Monte Carlo, Temporal Difference, Q- learning. Policy gradient methods. Model-based reinforcement learning: classical multi- armed bandits, stochastic multi-armed bandits, adversarial multi-armed bandits. Credit units: 3 ECTS Credit units: 5.

Autumn Semester (Muhammed Ömer Sayın)

Bilkent University Main Page

Last regenerated automatically on May 10, 2024 by OAC - Online Academic Catalog Software

Online Academic Catalog

Undergraduate and Graduate Programs 2023-2024

EEE 548 Reinforcement Learning and Dynamic Programming