Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,192

Full-text search

Active filters: reinforcement-learning, transformers

Evan-Lin/yelp-attractive-1

Reinforcement Learning • Updated Sep 17, 2023 • 4

Evan-Lin/yelp-attractive-3

Reinforcement Learning • Updated Sep 17, 2023 • 4

Evan-Lin/yelp-attractive-2

Reinforcement Learning • Updated Sep 17, 2023 • 4

Evan-Lin/yelp-attractive-4

Reinforcement Learning • Updated Sep 17, 2023 • 4

Evan-Lin/yelp-attractive-keyword-1

Reinforcement Learning • Updated Sep 18, 2023 • 4

Evan-Lin/yelp-attractive-large-1

Reinforcement Learning • Updated Sep 18, 2023 • 4

amirali1985/pythia-160m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 13

amirali1985/pythia-70m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 10

amirali1985/pythia-410m_sentiment_reward

Reinforcement Learning • Updated Sep 19, 2023 • 6

Destiny0621/ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 17, 2024 • 3

amirali1985/pythia-70m_utility_reward

Reinforcement Learning • 0.1B • Updated Feb 10, 2024 • 10

amirali1985/pythia-160m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 8

amirali1985/pythia-410m_utility_reward

Reinforcement Learning • Updated Sep 21, 2023 • 5

amirali1985/gpt-neo-125m_sentiment_reward

Reinforcement Learning • Updated Feb 10, 2024 • 5

amirali1985/gpt-neo-125m_utility_reward

Reinforcement Learning • Updated Feb 10, 2024 • 8

amirali1985/gpt-j-6b-sharded-bf16_sentiment_reward

Reinforcement Learning • Updated Sep 23, 2023

hpandana/PPO-LunarLander-v2

Reinforcement Learning • Updated Nov 8, 2023 • 2

arshpareek/ppo-LunarLander-v2

Reinforcement Learning • Updated Nov 10, 2023 • 3

alfredowh/ppo-LunarLander-v2

Reinforcement Learning • Updated Nov 17, 2023 • 3

benjipeng/ppo-LunarLander-v2

Reinforcement Learning • Updated Oct 31, 2023 • 4

zahid0/flan-t5-base-ppo

Reinforcement Learning • Updated Nov 6, 2023

theostoican/PPO-LunarLander-v2

Reinforcement Learning • Updated Feb 10, 2024 • 3

hpourmodheji/ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 25, 2024 • 3

Dotunnorth/ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 10, 2024 • 3

davidgaofc/PPO_base

Reinforcement Learning • 0.1B • Updated Nov 24, 2023 • 3

davidgaofc/PPO_prima

Reinforcement Learning • 0.1B • Updated Nov 25, 2023 • 2

jemal/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 9 • 4

kieranbm/ppo-LunarLander-v2

Reinforcement Learning • Updated Feb 6, 2024 • 3

lorenzreyes/ppo-LunarLander-v2

Reinforcement Learning • Updated Dec 27, 2023 • 3

ybelkada/test-ppo-tag

Reinforcement Learning • 0.1B • Updated Dec 25, 2023 • 4