Reinforcement Learning Exercises

This folder contains my implementations of RL algorithms, exercises and examples from Reinforcement Learning: An Introduction (Sutton & Barto), primarily as runnable Jupyter notebooks and Python scripts.

Sample outputs

The files/ directory contains a few representative figures generated by the notebooks.

Cliff Walking (TD control)

Racetrack (Monte Carlo control)

Windy Gridworld (TD control)

N Step TD methods (Windy Gridworld)

Notebooks

ch_2_Bandits.ipynb
ch_4_DP_p1_grid_problem.ipynb
ch_4_DP_p2_car_rental.ipynb
ch_4_DP_p3_gambler.ipynb
ch_5_MC_p1_racetrack.ipynb
ch_6_TD_p1_random_walk.ipynb
ch_6_TD_p2_windy_gridworld.ipynb
ch_6_TD_p3_cliff_walking.ipynb
ch_7_ns_TD_p1_random_walk.ipynb
ch_7_ns_TD_p2_windy_gridworld.ipynb

toc.py is a small helper script to keep a lightweight table-of-contents for this folder.

Running

Open any notebook in VS Code or Jupyter and run cells top-to-bottom.
If you use a virtual environment, install the usual scientific stack (e.g., numpy, matplotlib).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Reinforcement Learning Exercises

Contents

Sample outputs

Cliff Walking (TD control)

Racetrack (Monte Carlo control)

Windy Gridworld (TD control)

N Step TD methods (Windy Gridworld)

Notebooks

Running

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
files		files
rl_specialization/m2_sample_basedLearning/w3_policy_evaluation_TD0		rl_specialization/m2_sample_basedLearning/w3_policy_evaluation_TD0
scripts		scripts
.gitignore		.gitignore
ch_2_Bandits.ipynb		ch_2_Bandits.ipynb
ch_4_DP_p1_grid_problem.ipynb		ch_4_DP_p1_grid_problem.ipynb
ch_4_DP_p2_car_rental.ipynb		ch_4_DP_p2_car_rental.ipynb
ch_4_DP_p3_gambler.ipynb		ch_4_DP_p3_gambler.ipynb
ch_5_MC_p1_racetrack.ipynb		ch_5_MC_p1_racetrack.ipynb
ch_5_p1_q_values_1.pkl		ch_5_p1_q_values_1.pkl
ch_6_TD_p1_random_walk.ipynb		ch_6_TD_p1_random_walk.ipynb
ch_6_TD_p2_windy_gridworld.ipynb		ch_6_TD_p2_windy_gridworld.ipynb
ch_6_TD_p3_cliff_walking.ipynb		ch_6_TD_p3_cliff_walking.ipynb
ch_7_ns_TD_p1_random_walk.ipynb		ch_7_ns_TD_p1_random_walk.ipynb
ch_7_ns_TD_p2_windy_gridworld.ipynb		ch_7_ns_TD_p2_windy_gridworld.ipynb
readme.md		readme.md
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

Reinforcement Learning Exercises

Contents

Sample outputs

Cliff Walking (TD control)

Racetrack (Monte Carlo control)

Windy Gridworld (TD control)

N Step TD methods (Windy Gridworld)

Notebooks

Running

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages