Awesome reward models - a HuggingFaceH4 Collection

HuggingFaceH4 's Collections

Scaling Test-Time Compute with Open Models

Zephyr 7B Gemma

Papers We've Read

Awesome SFT datasets

Awesome feedback datasets

Awesome reward models

Awesome reward models

updated Apr 12, 2024

A curated collection of reward models to use with techniques like rejection sampling and RLHF / RLAIF

llm-blender/PairRM

Text Generation • Updated Jan 22, 2024 • 382 • 205
openbmb/UltraRM-13b

Updated Oct 14, 2023 • 1.33k • 60
OpenAssistant/reward-model-deberta-v3-large-v2

Text Classification • Updated Feb 1, 2023 • 4.98k • • 240
PKU-Alignment/beaver-7b-v1.0-reward

Reinforcement Learning • 7B • Updated Apr 20, 2024 • 2.57k • 17