GPT-OSS 2048 Reinforcement Learning Model

このモデルは、OpenAIのgpt-oss-20bを2048ゲームの戦略生成タスクで強化学習(GRPO)によりファインチューニングしたものです。

📋 学習パラメータ

パラメータ
ベースモデル unsloth/gpt-oss-20b
max_seq_length 2048
lora_rank 32
lora_alpha 64
batch_size 1
gradient_accumulation 1
実効バッチサイズ 1
num_generations 2
max_steps 10
learning_rate 5e-05
warmup_ratio 0.1
量子化 4bit

🎯 タスク

2048ゲームのボード状態を入力として、最適な次の一手(W/A/S/D)を出力するPython関数を生成します。

💾 保存形式

  • 形式: mxfp4
  • 生成日時: 2025-12-25 20:20:16

🚀 使用方法

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="MakiAi/gpt-oss-2048-rl-s10-r32-b1-mxfp4",
    max_seq_length=2048,
    load_in_4bit=True,
)

📎 関連リンク

⚠️ ライセンス

Apache 2.0

Downloads last month
-
Safetensors
Model size
22B params
Tensor type
BF16
·
U8
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for MakiAi/gpt-oss-2048-rl-s10-r32-b1-mxfp4

Base model

openai/gpt-oss-20b
Adapter
(54)
this model