Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

arxiv: 1707.06347

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

22

Full-text search

Active filters: 1707.06347

Adilbai/stock-trading-rl-agent

Reinforcement Learning • Updated Jan 8 • 176 • 109

rinna/japanese-gpt-neox-3.6b-instruction-ppo

Text Generation • 4B • Updated Mar 23, 2025 • 913 • 74

rinna/bilingual-gpt-neox-4b-instruction-ppo

Text Generation • 4B • Updated Mar 23, 2025 • 15 • 14

RichardErkhov/rinna_-_bilingual-gpt-neox-4b-instruction-ppo-4bits

4B • Updated Oct 6, 2024 • 1

RichardErkhov/rinna_-_bilingual-gpt-neox-4b-instruction-ppo-8bits

4B • Updated Oct 6, 2024

RichardErkhov/rinna_-_japanese-gpt-neox-3.6b-instruction-ppo-4bits

4B • Updated Oct 6, 2024

RichardErkhov/rinna_-_japanese-gpt-neox-3.6b-instruction-ppo-8bits

4B • Updated Oct 6, 2024

tsessk/llm-course-hw2-ppo

Text Generation • 0.1B • Updated Mar 8, 2025 • 1

thsluck/llm-course-hw2-ppo

Text Generation • 0.1B • Updated Mar 30, 2025 • 1

Geodezik/llm-course-hw2-ppo

Text Generation • 0.1B • Updated Mar 30, 2025 • 4

Adilbai/ppo-LunarLander-v2

Reinforcement Learning • Updated Jun 9, 2025 • 2

Adilbai/ppo-SnowballTarget

Reinforcement Learning • Updated Jun 11, 2025 • 7 • 1

Adilbai/Pyramids-RL-agent-ppo

Reinforcement Learning • Updated Jun 11, 2025 • 10 • 2

Adilbai/ML-Agents-SoccerTwos

Reinforcement Learning • Updated Jun 13, 2025 • 1 • 2

AminVilan/ppo-LunarLander-v3

Reinforcement Learning • Updated Sep 16, 2025 • 20 • 2

AminVilan/PPO-Huggy

Reinforcement Learning • Updated Sep 19, 2025

jingyaogong/MiniMind2-gguf

0.1B • Updated Oct 27, 2025 • 150

ahczhg/qwen3-0.6b-rlhf-cot-private

Updated Nov 14, 2025 • 1

ishadyaAP/ML-Agents-SoccerTwos

Reinforcement Learning • Updated Dec 18, 2025 • 1

Vishath/ML-Agents-SoccerTwos

Reinforcement Learning • Updated Dec 19, 2025 • 10

CharithAnupama/ML-Agents-SoccerTwos

Reinforcement Learning • Updated Dec 20, 2025

aryannzzz/ppo-lunarlander-scratch

Reinforcement Learning • Updated Dec 21, 2025