Edit Models filters

Inference Providers

HF Inference API

Misc

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

Full-text search

Active filters: trl

dshin/flan-t5-ppo

Reinforcement Learning • Updated Mar 11, 2023 • 3

SummerSigh/T5-Base-Rule-Of-Thumb-RM

Reinforcement Learning • Updated Mar 12, 2023 • 1

dshin/flan-t5-ppo-testing

Reinforcement Learning • Updated Mar 12, 2023 • 1 • 1

SummerSigh/T5-Base-EvilPrompterRM

Reinforcement Learning • 0.2B • Updated Mar 18, 2023 • 29

dshin/flan-t5-ppo-testing-violation

Reinforcement Learning • Updated Mar 12, 2023 • 1

dshin/flan-t5-ppo-user-b

Reinforcement Learning • Updated Mar 12, 2023 • 1

dshin/flan-t5-ppo-user-h-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-f-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-a-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-0

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-0

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-0-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-0

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-0

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-0-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-0-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-1

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-1

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-1

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-1-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-1

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-1-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-1-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-2

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-2

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-e-batch-size-8-epoch-2

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-f-batch-size-8-epoch-2-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 2

dshin/flan-t5-ppo-user-h-batch-size-8-epoch-2-use-violation

Reinforcement Learning • Updated Mar 13, 2023 • 1

dshin/flan-t5-ppo-user-a-batch-size-8-epoch-3

Reinforcement Learning • Updated Mar 13, 2023 • 1