通过pairwise loss替代adversarial loss来训练reward model,获得一种新的motion piror方案 使用方法: clone此repo :https://github.com/Alescontrela/AMP_for_hardware 配置完环境后使用本repo的代码替换同名文件 可自行训练对比效果差异