RLHF-Reward-Modeling

This is a fork of RLHF-Reward-Modeling
- support models which can handle Japanese
- support Unsloth, which reduce VRAM when training and accelerte training efficiency
- support wandb

Support

model	support
google/gemma-2b-it	✅
llm-jp/llm-jp-3-1.8b-instruct	✅

dataset	support
hendrydong/preference_700K	✅
xxxx	-

Environment setup

git clone https://github.com/ohashi3399/RLHF-Reward-Modeling.git && cd RLHF-Reward-Modeling

Bradley-Terry-RM

export HUGGINGFACE_API_KEY=<Your HUGGINGFACE_API token>
export WANDB_API_KEY=<Your WANDB_API token>
source setup.sh && cd bradley-terry-rm
source tune_bt_rm.sh

Name		Name	Last commit message	Last commit date
Latest commit History 94 Commits
armo-rm		armo-rm
bradley-terry-rm		bradley-terry-rm
deepspeed_configs		deepspeed_configs
pair-pm		pair-pm
useful_code		useful_code
wandb		wandb
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
setup.sh		setup.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

RLHF-Reward-Modeling

Support

Environment setup

Bradley-Terry-RM

About

Releases

Packages

Languages

License

ohashi3399/RLHF-Reward-Modeling

Folders and files

Latest commit

History

Repository files navigation

RLHF-Reward-Modeling

Support

Environment setup

Bradley-Terry-RM

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages