instadeepai · rsjeffers · Jul 21, 2023 · Jul 24, 2023 · Jul 28, 2023 · Jul 28, 2023
diff --git a/configs/config.yaml b/configs/config.yaml
@@ -0,0 +1,12 @@
+defaults:
+    - _self_
+    - env: extended_bin_pack  # [bin_pack, cleaner, connector, cvrp, game_2048, graph_coloring, job_shop, knapsack, maze, minesweeper, mmst, multi_cvrp, robot_warehouse, rubiks_cube, snake, sudoku, tetris, tsp]
+
+agent: a2c  # [random, a2c]
+
+seed: 0
+
+logger:
+    type: terminal  # [neptune, tensorboard, terminal]
+    save_checkpoint: false  # [false, true]
+    name: ${agent}_${env.name}
diff --git a/configs/env/bin_pack.yaml b/configs/env/bin_pack.yaml
@@ -0,0 +1,37 @@
+name: bin_pack
+registered_version: BinPackValueBased-v0
+
+env_settings:
+    reward_fn: ValueBasedDenseReward
+    generator: RandomValueProblemGenerator
+
+generator_settings:
+    max_num_items: 20
+    max_num_ems: 40
+    split_num_same_items: 2
+
+
+network:
+    num_transformer_layers: 2
+    transformer_num_heads: 8
+    transformer_key_size: 16
+    transformer_mlp_units: [512]
+
+training:
+    num_epochs: 5
+    num_learner_steps_per_epoch: 5
+    n_steps: 30
+    total_batch_size: 2
+
+evaluation:
+    eval_total_batch_size: 2
+    greedy_eval_total_batch_size: 2
+
+a2c:
+    normalize_advantage: False
+    discount_factor: 1.0
+    bootstrapping_factor: 0.95
+    l_pg: 1.0
+    l_td: 1.0
+    l_en: 0.005
+    learning_rate: 1e-4
diff --git a/configs/env/constrained_bin_pack.yaml b/configs/env/constrained_bin_pack.yaml
@@ -0,0 +1,26 @@
+name: constrained_bin_pack
+registered_version: ConstrainedBinPack-v0
+
+network:
+    num_transformer_layers: 2
+    transformer_num_heads: 8
+    transformer_key_size: 16
+    transformer_mlp_units: [512]
+
+training:
+    num_epochs: 5
+    num_learner_steps_per_epoch: 2
+    n_steps: 3
+    total_batch_size: 4
+
+evaluation:
+    eval_total_batch_size: 0
+    greedy_eval_total_batch_size: 0
+a2c:
+    normalize_advantage: False
+    discount_factor: 1.0
+    bootstrapping_factor: 0.95
+    l_pg: 1.0
+    l_td: 1.0
+    l_en: 0.005
+    learning_rate: 1e-4
diff --git a/configs/env/extended_bin_pack.yaml b/configs/env/extended_bin_pack.yaml
@@ -0,0 +1,42 @@
+name: extended_bin_pack
+registered_version: ExtendedBinPack-v0
+
+env_settings:
+    reward_fn: ValueBasedDenseReward
+    generator: ExtendedTrainingGenerator
+    is_value_based: True
+    is_rotation_allowed: True
+    normalize_dimensions: True
+
+generator_settings:
+    max_num_items: 480
+    max_num_ems: 80
+    mean_item_value: 0
+    std_item_value: 1
+    min_target_volume: 2
+    max_target_volume: 30
+
+network:
+    num_transformer_layers: 2
+    transformer_num_heads: 8
+    transformer_key_size: 16
+    transformer_mlp_units: [512]
+
+training:
+    num_epochs: 550
+    num_learner_steps_per_epoch: 100
+    n_steps: 30
+    total_batch_size: 64
+
+evaluation:
+    eval_total_batch_size: 10000
+    greedy_eval_total_batch_size: 10000
+
+a2c:
+    normalize_advantage: False
+    discount_factor: 1.0
+    bootstrapping_factor: 0.95
+    l_pg: 1.0
+    l_td: 1.0
+    l_en: 0.005
+    learning_rate: 1e-4
diff --git a/jumanji/environments/__init__.py b/jumanji/environments/__init__.py
@@ -29,7 +29,7 @@
 from jumanji.environments.logic.sliding_tile_puzzle.env import SlidingTilePuzzle
 from jumanji.environments.logic.sudoku.env import Sudoku
 from jumanji.environments.packing import bin_pack, flat_pack, job_shop, knapsack, tetris
-from jumanji.environments.packing.bin_pack.env import BinPack
+from jumanji.environments.packing.bin_pack.env import BinPack, ExtendedBinPack
 from jumanji.environments.packing.flat_pack.env import FlatPack
 from jumanji.environments.packing.job_shop.env import JobShop
 from jumanji.environments.packing.knapsack.env import Knapsack

diff --git a/jumanji/environments/packing/bin_pack/__init__.py b/jumanji/environments/packing/bin_pack/__init__.py
@@ -12,5 +12,5 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 
-from jumanji.environments.packing.bin_pack.env import BinPack
+from jumanji.environments.packing.bin_pack.env import BinPack, ExtendedBinPack
 from jumanji.environments.packing.bin_pack.types import Observation, State