make reward_every_n_steps True by default, change end of episode reward handing out

RaghuSpaceRajan · RaghuSpaceRajan · commit d4cff0dcc8cb · 2022-10-12T17:15:15.000+02:00
diff --git a/mdp_playground/envs/gym_env_wrapper.py b/mdp_playground/envs/gym_env_wrapper.py
@@ -381,7 +381,7 @@ def step(self, action):
         if done:
             # if episode is finished return the rewards that were delayed and not
             # handed out before ##TODO add test case for this
-            # reward += np.sum(self.reward_buffer * self.reward_scale + self.reward_shift)
+            reward += np.sum(self.reward_buffer * self.reward_scale + self.reward_shift)
             reward += (
                 self.term_state_reward * self.reward_scale
             )  # Scale before or after?
diff --git a/mdp_playground/envs/rl_toy_env.py b/mdp_playground/envs/rl_toy_env.py
@@ -525,7 +525,7 @@ def __init__(self, **config):
             self.action_loss_weight = config["action_loss_weight"]
 
         if "reward_every_n_steps" not in config:
-            self.reward_every_n_steps = False
+            self.reward_every_n_steps = True
         else:
             self.reward_every_n_steps = config["reward_every_n_steps"]