GPT-OSS 2048 Reinforcement Learning Model

このモデルは、OpenAIのgpt-oss-20bを2048ゲームの戦略生成タスクで強化学習（GRPO）によりファインチューニングしたものです。

📋 学習パラメータ

パラメータ	値
ベースモデル	`unsloth/gpt-oss-20b`
max_seq_length	2048
lora_rank	32
lora_alpha	64
batch_size	1
gradient_accumulation	1
実効バッチサイズ	1
num_generations	2
max_steps	10
learning_rate	5e-05
warmup_ratio	0.1
量子化	4bit

🎯 タスク

2048ゲームのボード状態を入力として、最適な次の一手（W/A/S/D）を出力するPython関数を生成します。

💾 保存形式

形式: mxfp4
生成日時: 2025-12-25 20:20:16

🚀 使用方法

from unsloth import FastLanguageModel

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="MakiAi/gpt-oss-2048-rl-s10-r32-b1-mxfp4",
    max_seq_length=2048,
    load_in_4bit=True,
)

📎 関連リンク

⚠️ ライセンス

Apache 2.0

Downloads last month: -

Safetensors

Model size

22B params

Tensor type

BF16

Model tree for MakiAi/gpt-oss-2048-rl-s10-r32-b1-mxfp4

Base model

openai/gpt-oss-20b

Quantized

unsloth/gpt-oss-20b

Adapter

(54)

this model