Bilkent University

EEE 448 Reinforcement Learning and Dynamic Programming

Markov chains. Markov decision processes. Dynamic programming: policy iteration, value iteration. Model-free reinforcement learning: Monte Carlo, Temporal Difference, Q- learning. Policy gradient methods. Model-based reinforcement learning: classical multi- armed bandits, stochastic multi-armed bandits, adversarial multi-armed bandits. Credit units: 3 ECTS Credit units: 5, Prerequisite: (MATH 250 or MATH 255 or MATH 230) and (MATH 220 or MATH 224 or MATH 225 or MATH 241).

Bilkent University Main Page

Last regenerated automatically on August 12, 2025 by OAC - Online Academic Catalog Software

Online Academic Catalog

Undergraduate and Graduate Programs 2024-2025

EEE 448 Reinforcement Learning and Dynamic Programming