update

User · User · commit e12db82cc45b · 2020-11-28T16:21:15.000-05:00
diff --git a/rl2/cartpole/dqn_tf.py b/rl2/cartpole/dqn_tf.py
@@ -16,6 +16,10 @@
 from q_learning_bins import plot_running_avg
 
 
+# global counter
+global_iters = 0
+
+
 # a version of HiddenLayer that keeps track of params
 class HiddenLayer:
   def __init__(self, M1, M2, f=tf.nn.tanh, use_bias=True):
@@ -154,6 +158,7 @@ def sample_action(self, x, eps):
 
 
 def play_one(env, model, tmodel, eps, gamma, copy_period):
+  global global_iters
   observation = env.reset()
   done = False
   totalreward = 0
@@ -174,8 +179,9 @@ def play_one(env, model, tmodel, eps, gamma, copy_period):
     model.train(tmodel)
 
     iters += 1
+    global_iters += 1
 
-    if iters % copy_period == 0:
+    if global_iters % copy_period == 0:
       tmodel.copy_from(model)
 
   return totalreward
diff --git a/rl2/cartpole/dqn_theano.py b/rl2/cartpole/dqn_theano.py
@@ -17,6 +17,10 @@
 from q_learning_bins import plot_running_avg
 
 
+# global counter
+global_iters = 0
+
+
 # helper for adam optimizer
 # use tensorflow defaults
 def adam(cost, params, lr0=1e-2, beta1=0.9, beta2=0.999, eps=1e-8):
@@ -170,6 +174,7 @@ def sample_action(self, x, eps):
 
 
 def play_one(env, model, tmodel, eps, gamma, copy_period):
+  global global_iters
   observation = env.reset()
   done = False
   totalreward = 0
@@ -190,8 +195,9 @@ def play_one(env, model, tmodel, eps, gamma, copy_period):
     model.train(tmodel)
 
     iters += 1
+    global_iters += 1
 
-    if iters % copy_period == 0:
+    if global_iters % copy_period == 0:
       tmodel.copy_from(model)
 
   return totalreward