週次 |
授課內容 |
第1週 |
Class Introduction & Reinforcement Learning Overview |
第2週 |
Python Review & Software Development Best Practices |
第3週 |
Markov Decision Processes (MDPs) |
第4週 |
Dynamic Programming - Prediction & Control |
第5週 |
Monte Carlo Methods |
第6週 |
Temporal Difference Learning |
第7週 |
n-Step Temporal Difference Methods |
第8週 |
Supervised learning, Neural networks & PyTorch |
第9週 |
On-policy Prediction with Function Approximation |
第10週 |
Control with Value Function Approximation |
第11週 |
Policy Gradient Methods |
第12週 |
Actor-Critic Methods |
第13週 |
Evolutionary Algorithms |
第14週 |
Rollout Algorithms, Off-policy AC, Multiagent |
第15週 |
Class Review |
第16週 |
Final presentation preparation |
第17週 |
Final project presentations |
第18週 |
Final project presentations (continued) |