Update to PyTorch 1.3

Omegastick · Omegastick · commit e1844a17427c · 2019-10-19T17:34:52.000+09:00
diff --git a/.gitmodules b/.gitmodules
@@ -1,7 +1,7 @@
-[submodule "lib/spdlog"]
+[submodule "example/lib/spdlog"]
 	path = example/lib/spdlog
 	url = git@github.com:gabime/spdlog.git
-[submodule "lib/msgpack-c"]
+[submodule "example/lib/msgpack-c"]
 	path = example/lib/msgpack-c
 	url = git@github.com:msgpack/msgpack-c.git
 [submodule "example/lib/libzmq"]
diff --git a/example/gym_client.cpp b/example/gym_client.cpp
@@ -182,7 +182,7 @@ int main(int argc, char *argv[])
                                          storage.get_masks()[step]);
             }
             auto actions_tensor = act_result[1].cpu().to(torch::kFloat);
-            float *actions_array = actions_tensor.data<float>();
+            float *actions_array = actions_tensor.data_ptr<float>();
             std::vector<std::vector<float>> actions(num_envs);
             for (int i = 0; i < num_envs; ++i)
             {
@@ -218,7 +218,7 @@ int main(int argc, char *argv[])
                 returns_rms->update(returns);
                 reward_tensor = torch::clamp(reward_tensor / torch::sqrt(returns_rms->get_variance() + 1e-8),
                                              -reward_clip_value, reward_clip_value);
-                rewards = std::vector<float>(reward_tensor.data<float>(), reward_tensor.data<float>() + reward_tensor.numel());
+                rewards = std::vector<float>(reward_tensor.data_ptr<float>(), reward_tensor.data_ptr<float>() + reward_tensor.numel());
                 real_rewards = flatten_vector(step_result->real_reward);
                 dones_vec = step_result->done;
             }
@@ -233,7 +233,7 @@ int main(int argc, char *argv[])
                 returns_rms->update(returns);
                 reward_tensor = torch::clamp(reward_tensor / torch::sqrt(returns_rms->get_variance() + 1e-8),
                                              -reward_clip_value, reward_clip_value);
-                rewards = std::vector<float>(reward_tensor.data<float>(), reward_tensor.data<float>() + reward_tensor.numel());
+                rewards = std::vector<float>(reward_tensor.data_ptr<float>(), reward_tensor.data_ptr<float>() + reward_tensor.numel());
                 real_rewards = flatten_vector(step_result->real_reward);
                 dones_vec = step_result->done;
             }
diff --git a/src/algorithms/a2c.cpp b/src/algorithms/a2c.cpp
@@ -36,7 +36,7 @@ A2C::A2C(Policy &policy,
 std::vector<UpdateDatum> A2C::update(RolloutStorage &rollouts, float decay_level)
 {
     // Decay learning rate
-    optimizer->options.learning_rate_ = original_learning_rate * decay_level;
+    optimizer->options.learning_rate(original_learning_rate * decay_level);
 
     // Prep work
     auto full_obs_shape = rollouts.get_observations().sizes();
diff --git a/src/algorithms/ppo.cpp b/src/algorithms/ppo.cpp
@@ -45,7 +45,7 @@ std::vector<UpdateDatum> PPO::update(RolloutStorage &rollouts, float decay_level
 {
     // Decay lr and clip parameter
     float clip_param = original_clip_param * decay_level;
-    optimizer->options.learning_rate_ = original_learning_rate * decay_level;
+    optimizer->options.learning_rate(original_learning_rate * decay_level);
 
     // Calculate advantages
     auto returns = rollouts.get_returns();
diff --git a/src/model/nn_base.cpp b/src/model/nn_base.cpp
@@ -81,8 +81,8 @@ std::vector<torch::Tensor> NNBase::forward_gru(torch::Tensor x,
         // has_zeros = [0] + has_zeros + [timesteps]
         has_zeros = has_zeros.contiguous().to(torch::kInt);
         std::vector<int> has_zeros_vec(
-            has_zeros.data<int>(),
-            has_zeros.data<int>() + has_zeros.numel());
+            has_zeros.data_ptr<int>(),
+            has_zeros.data_ptr<int>() + has_zeros.numel());
         has_zeros_vec.insert(has_zeros_vec.begin(), {0});
         has_zeros_vec.push_back(timesteps);
 
diff --git a/src/observation_normalizer.cpp b/src/observation_normalizer.cpp
@@ -76,13 +76,13 @@ torch::Tensor ObservationNormalizerImpl::process_observation(torch::Tensor obser
 std::vector<float> ObservationNormalizerImpl::get_mean() const
 {
     auto mean = rms->get_mean();
-    return std::vector<float>(mean.data<float>(), mean.data<float>() + mean.numel());
+    return std::vector<float>(mean.data_ptr<float>(), mean.data_ptr<float>() + mean.numel());
 }
 
 std::vector<float> ObservationNormalizerImpl::get_variance() const
 {
     auto variance = rms->get_variance();
-    return std::vector<float>(variance.data<float>(), variance.data<float>() + variance.numel());
+    return std::vector<float>(variance.data_ptr<float>(), variance.data_ptr<float>() + variance.numel());
 }
 
 void ObservationNormalizerImpl::update(torch::Tensor observations)

Original file line number	Diff line number	Diff line change
`@@ -36,7 +36,7 @@ A2C::A2C(Policy &policy,`
`36`	`36`	`std::vector<UpdateDatum> A2C::update(RolloutStorage &rollouts, float decay_level)`
`37`	`37`	`{`
`38`	`38`	`// Decay learning rate`
`39`		`- optimizer->options.learning_rate_ = original_learning_rate * decay_level;`
	`39`	`+ optimizer->options.learning_rate(original_learning_rate * decay_level);`
`40`	`40`
`41`	`41`	`// Prep work`
`42`	`42`	`auto full_obs_shape = rollouts.get_observations().sizes();`
Original file line number	Diff line number	Diff line change
`@@ -45,7 +45,7 @@ std::vector<UpdateDatum> PPO::update(RolloutStorage &rollouts, float decay_level`
`45`	`45`	`{`
`46`	`46`	`// Decay lr and clip parameter`
`47`	`47`	`float clip_param = original_clip_param * decay_level;`
`48`		`- optimizer->options.learning_rate_ = original_learning_rate * decay_level;`
	`48`	`+ optimizer->options.learning_rate(original_learning_rate * decay_level);`
`49`	`49`
`50`	`50`	`// Calculate advantages`
`51`	`51`	`auto returns = rollouts.get_returns();`
Original file line number	Diff line number	Diff line change
`@@ -76,13 +76,13 @@ torch::Tensor ObservationNormalizerImpl::process_observation(torch::Tensor obser`
`76`	`76`	`std::vector<float> ObservationNormalizerImpl::get_mean() const`
`77`	`77`	`{`
`78`	`78`	`auto mean = rms->get_mean();`
`79`		`- return std::vector<float>(mean.data<float>(), mean.data<float>() + mean.numel());`
	`79`	`+ return std::vector<float>(mean.data_ptr<float>(), mean.data_ptr<float>() + mean.numel());`
`80`	`80`	`}`
`81`	`81`
`82`	`82`	`std::vector<float> ObservationNormalizerImpl::get_variance() const`
`83`	`83`	`{`
`84`	`84`	`auto variance = rms->get_variance();`
`85`		`- return std::vector<float>(variance.data<float>(), variance.data<float>() + variance.numel());`
	`85`	`+ return std::vector<float>(variance.data_ptr<float>(), variance.data_ptr<float>() + variance.numel());`
`86`	`86`	`}`
`87`	`87`
`88`	`88`	`void ObservationNormalizerImpl::update(torch::Tensor observations)`