kairproject
diff --git a/‎Makefile
Lines changed: 2 additions & 2 deletions b/‎Makefile
Lines changed: 2 additions & 2 deletions
diff --git a/‎README.md
Lines changed: 4 additions & 4 deletions b/‎README.md
Lines changed: 4 additions & 4 deletions
diff --git a/‎docker_train.sh
Lines changed: 3 additions & 2 deletions b/‎docker_train.sh
Lines changed: 3 additions & 2 deletions
diff --git a/‎launch/open_manipulator_env.launch
Lines changed: 50 additions & 0 deletions b/‎launch/open_manipulator_env.launch
Lines changed: 50 additions & 0 deletions
diff --git a/‎launch/vel_kinematics.launch
Lines changed: 0 additions & 13 deletions b/‎launch/vel_kinematics.launch
Lines changed: 0 additions & 13 deletions
diff --git a/‎launch/yumi_gazebo_vel.launch
Lines changed: 0 additions & 33 deletions b/‎launch/yumi_gazebo_vel.launch
Lines changed: 0 additions & 33 deletions
diff --git a/‎scripts/algorithms/common/abstract/agent.py
100644100755
Lines changed: 1 addition & 1 deletion b/‎scripts/algorithms/common/abstract/agent.py
100644100755
Lines changed: 1 addition & 1 deletion
diff --git a/‎scripts/examples/__init__.py renamed to ‎scripts/config/__init__.py b/‎scripts/examples/__init__.py renamed to ‎scripts/config/__init__.py
diff --git a/‎scripts/examples/lunarlander_continuous_v2/__init__.py renamed to ‎scripts/config/agent/__init__.py b/‎scripts/examples/lunarlander_continuous_v2/__init__.py renamed to ‎scripts/config/agent/__init__.py
diff --git a/‎scripts/examples/reacher-v1/__init__.py renamed to ‎scripts/config/agent/lunarlander_continuous_v2/__init__.py b/‎scripts/examples/reacher-v1/__init__.py renamed to ‎scripts/config/agent/lunarlander_continuous_v2/__init__.py
@@ -1,9 +1,9 @@
 test:
-	env PYTHONPATH=./scripts pytest --flake8  # --cov=algorithms
+	env PYTHONPATH=./scripts pytest --flake8 --ignore=./scripts/envs # --cov=algorithms
 
 format:
 	isort -y
-	python3.6 -m black -t py27 .
+	python3.6 -m black -t py27 . --fast
 
 dev:
 	pip install -r scripts/requirements-dev.txt
 
@@ -23,19 +23,19 @@ The [scripts](/scripts) folder contains implementations of a curated list of RL
 
 - Twin Delayed Deep Deterministic Policy Gradient (TD3)
    - TD3 (Fujimoto et al., 2018) is an extension of DDPG (Lillicrap et al., 2015), a deterministic policy gradient algorithm that uses deep neural networks for function approximation. Inspired by Deep Q-Networks (Mnih et al., 2015), DDPG uses experience replay and target network to improve stability. TD3 further improves DDPG by adding clipped double Q-learning (Van Hasselt, 2010) to mitigate overestimation bias (Thrun & Schwartz, 1993) and delaying policy updates to address variance.
-   - [Example Script on LunarLander](/scripts/examples/lunarlander_continuous_v2/td3.py)
+   - [Example Script on LunarLander](/scripts/config/agent/lunarlander_continuous_v2/td3.py)
    - [ArXiv Preprint](https://arxiv.org/abs/1802.09477)
 
 - (Twin) Soft Actor Critic (SAC)
    - SAC (Haarnoja et al., 2018a) incorporates maximum entropy reinforcment learning, where the agent's goal is to maximize expected reward and entropy concurrently. Combined with TD3, SAC achieves state of the art performance in various continuous control tasks. SAC has been extended to allow automatically tuning of the temperature parameter (Haarnoja et al., 2018b), which determines the importance of entropy against the expected reward.
-   - [Example Script on LunarLander](/scripts/examples/lunarlander_continuous_v2/sac.py)
+   - [Example Script on LunarLander](/scripts/config/agent/lunarlander_continuous_v2/sac.py)
    - [ArXiv Preprint](https://arxiv.org/abs/1801.01290) (Original SAC)
    - [ArXiv Preprint](https://arxiv.org/abs/1812.05905) (SAC with autotuned temperature)
 
  - TD3 from Demonstrations, SAC from Demonstrations (TD3fD, SACfD)
    - DDPGfD (Vecerik et al., 2017) is an imitation learning algorithm that infuses demonstration data into experience replay. DDPGfD also improved DDPG by (1) using prioritized experience replay (Schaul et al., 2015), (2) adding n-step returns, (3) learning multiple times per environment step, and (4) adding L2 regularizers to actor and critic losses. We incorporated these improvements to TD3 and SAC and found that it dramatically improves their performance.
-   - [Example Script of TD3fD on LunarLander](/scripts/examples/lunarlander_continuous_v2/td3fd.py)
-   - [Example Script of SACfD on LunarLander](/scripts/examples/lunarlander_continuous_v2/sacfd.py)
+   - [Example Script of TD3fD on LunarLander](/scripts/config/agent/lunarlander_continuous_v2/td3fd.py)
+   - [Example Script of SACfD on LunarLander](/scripts/config/agent/lunarlander_continuous_v2/sacfd.py)
    - [ArXiv Preprint](https://arxiv.org/abs/1707.08817)
 
 ## Installation
 
@@ -6,9 +6,10 @@ KAIR=$CATKIN_WS/src/kair_algorithms_draft
 
 if [ "$1" == "lunarlander" ]; then
 	cd $KAIR/scripts; \
-	   python run_lunarlander_continuous.py --algo $2 --off-render
+		python run_lunarlander_continuous.py --algo $2 --off-render
 elif [ "$1" == "openmanipulator" ]; then
-	echo "Working"
+	cd $KAIR/scripts; \
+		/opt/ros/$ROS_DISTRO/bin/rosrun kair_algorithms run_open_manipulator_reacher_v0.py --algo $2 --off-render
 else
 	echo "Unknown parameter"
 fi
@@ -0,0 +1,50 @@
+<?xml version="1.0"?>
+<launch>
+  <!-- gazebo related args -->
+  <arg name="paused" default="false"/>
+  <arg name="use_sim_time" default="true"/>
+  <arg name="gui" default="true"/>
+  <arg name="headless" default="false"/>
+  <arg name="debug" default="false"/>
+
+  <!-- rviz & tf related args -->
+  <arg name="robot_name"     default="open_manipulator"/>
+  <arg name="open_rviz"      default="false" />
+  <arg name="use_gui"        default="false" />
+
+  <!-- gazebo related -->
+  <rosparam file="$(find open_manipulator_gazebo)/config/gazebo_controller.yaml" command="load" />
+  <include file="$(find gazebo_ros)/launch/empty_world.launch">
+    <arg name="world_name" value="$(find open_manipulator_gazebo)/worlds/empty.world"/>
+    <arg name="debug" value="$(arg debug)" />
+    <arg name="gui" value="$(arg gui)" />
+    <arg name="paused" value="$(arg paused)"/>
+    <arg name="use_sim_time" value="$(arg use_sim_time)"/>
+    <arg name="headless" value="$(arg headless)"/>
+  </include>
+
+  <!-- rviz related -->
+    <!-- Send joint values -->
+    <node pkg="joint_state_publisher" type="joint_state_publisher" name="joint_state_publisher">
+      <param name="/use_gui" value="$(arg use_gui)"/>
+      <rosparam param="source_list" subst_value="true">["$(arg robot_name)/joint_states"]</rosparam>
+    </node>
+    <!-- Combine joint values to TF-->
+    <node name="robot_state_publisher" pkg="robot_state_publisher" type="state_publisher"/>
+
+    <!-- Show in Rviz -->
+    <group if="$(arg open_rviz)">
+      <node name="rviz" pkg="rviz" type="rviz" args="-d $(find open_manipulator_description)/rviz/open_manipulator.rviz"/>
+    </group>
+
+    <!-- Load the URDF into the ROS Parameter Server -->
+    <param name="robot_description"
+    command="$(find xacro)/xacro --inorder '$(find open_manipulator_description)/urdf/open_manipulator.urdf.xacro'"/>
+
+    <!-- Run a python script to the send a service call to gazebo_ros to spawn a URDF robot -->
+    <node name="urdf_spawner" pkg="gazebo_ros" type="spawn_model" respawn="false" output="screen"
+     args="-urdf -model open_manipulator -z 0.0 -param robot_description"/>
+
+    <!-- ros_control robotis manipulator launch file -->
+    <include file="$(find open_manipulator_gazebo)/launch/open_manipulator_controller.launch"/>   
+</launch>
@@ -44,7 +44,7 @@ def __init__(self, env, args):
             self.args.max_episode_steps = env._max_episode_steps
 
         # for logging
-        self.env_name = str(self.env.env).split("<")[2].replace(">>", "")
+        self.env_name = str(self.env.env).split("<")[1].replace(">>", "")
         self.sha = (
             subprocess.check_output(["git", "rev-parse", "--short", "HEAD"])[:-1]
             .decode("ascii")