update

Tokarev-TT-33 · web-flow · commit eacee8c7d04c · 2020-02-08T15:19:03.000+08:00
diff --git a/examples/reinforcement_learning/tutorial_C51.py b/examples/reinforcement_learning/tutorial_C51.py
@@ -34,7 +34,7 @@
 import gym
 
 parser = argparse.ArgumentParser()
-parser.add_argument('--train', dest='train', action='store_true', default=False)
+parser.add_argument('--train', dest='train', action='store_true', default=True)
 parser.add_argument('--test', dest='test', action='store_true', default=True)
 parser.add_argument(
     '--save_path', default=None, help='folder to save if mode == train else model path,'
diff --git a/examples/reinforcement_learning/tutorial_DQN.py b/examples/reinforcement_learning/tutorial_DQN.py
@@ -47,7 +47,7 @@
 
 # add arguments in command  --train/test
 parser = argparse.ArgumentParser(description='Train or test neural net motor controller.')
-parser.add_argument('--train', dest='train', action='store_true', default=False)
+parser.add_argument('--train', dest='train', action='store_true', default=True)
 parser.add_argument('--test', dest='test', action='store_true', default=True)
 args = parser.parse_args()
 
@@ -105,7 +105,6 @@ def load_ckpt(model):  # load trained weights
         all_episode_reward = []
         for i in range(num_episodes):
             ## Reset environment and get first new observation
-            # episode_time = time.time()
             s = env.reset()  # observation is state, integer 0 ~ 15
             rAll = 0
             if render: env.render()
@@ -164,7 +163,6 @@ def load_ckpt(model):  # load trained weights
         load_ckpt(qnetwork)  # load model
         for i in range(num_episodes):
             ## Reset environment and get first new observation
-            episode_time = time.time()
             s = env.reset()  # observation is state, integer 0 ~ 15
             rAll = 0
             if render: env.render()
diff --git a/examples/reinforcement_learning/tutorial_DQN_variants.py b/examples/reinforcement_learning/tutorial_DQN_variants.py
@@ -47,7 +47,7 @@
 import gym
 
 parser = argparse.ArgumentParser()
-parser.add_argument('--train', dest='train', action='store_true', default=False)
+parser.add_argument('--train', dest='train', action='store_true', default=True)
 parser.add_argument('--test', dest='test', action='store_true', default=True)
 parser.add_argument(
     '--save_path', default=None, help='folder to save if mode == train else model path,'
@@ -381,6 +381,7 @@ def load(self, path):
                 # note that `_` tail in var name means next
                 o_, r, done, info = env.step(a)
                 buffer.add(o, a, r, o_, done)
+                episode_reward += r
 
                 if i >= warm_start:
                     transitions = buffer.sample(batch_size)
diff --git a/examples/reinforcement_learning/tutorial_Qlearning.py b/examples/reinforcement_learning/tutorial_Qlearning.py
@@ -17,7 +17,7 @@
 import matplotlib.pyplot as plt
 
 parser = argparse.ArgumentParser()
-parser.add_argument('--train', dest='train', action='store_true', default=False)
+parser.add_argument('--train', dest='train', action='store_true', default=True)
 parser.add_argument('--test', dest='test', action='store_true', default=True)
 
 parser.add_argument(
@@ -62,8 +62,11 @@
             s = s1
             if d is True:
                 break
-        print("Episode [%d/%d] sum reward: %f took: %.5fs " % (i, num_episodes, rAll, time.time() - t0))
-
+        print(
+            'Training  | Episode: {}/{}  | Episode Reward: {:.4f}  | Running Time: {:.4f}'.format(
+                i + 1, num_episodes, rAll, time.time() - t0
+            )
+        )
         if i == 0:
             all_episode_reward.append(rAll)
         else:
@@ -100,4 +103,8 @@
             s = s1
             if d is True:
                 break
-        print("Episode [%d/%d] sum reward: %f took: %.5fs " % (i, num_episodes, rAll, time.time() - t0))
+        print(
+            'Testing  | Episode: {}/{}  | Episode Reward: {:.4f}  | Running Time: {:.4f}'.format(
+                i + 1, num_episodes, rAll, time.time() - t0
+            )
+        )
diff --git a/examples/reinforcement_learning/tutorial_prioritized_replay.py b/examples/reinforcement_learning/tutorial_prioritized_replay.py
@@ -37,7 +37,7 @@
 
 parser = argparse.ArgumentParser()
 # add arguments in command  --train/test
-parser.add_argument('--train', dest='train', action='store_true', default=False)
+parser.add_argument('--train', dest='train', action='store_true', default=True)
 parser.add_argument('--test', dest='test', action='store_true', default=True)
 parser.add_argument(
     '--save_path', default=None, help='folder to save if mode == train else model path,'