Releases · sunzeyeah/RLHF

26 May 01:56

5ec3e3a

v2.0 Latest

Latest

Pipelined implementation of SFT, Reward and RLHF training based on transformers, DeepSpeed and DeepSpeedChat. List of supported models: Pangu, GLM, ChatGLM

Assets 2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: sunzeyeah/RLHF

v2.0