{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 4.9728,
  "eval_steps": 500,
  "global_step": 780,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.064,
      "grad_norm": 3.6099324408079276,
      "learning_rate": 1.153846153846154e-06,
      "loss": 0.3199,
      "step": 10
    },
    {
      "epoch": 0.128,
      "grad_norm": 4.404633202032898,
      "learning_rate": 2.435897435897436e-06,
      "loss": 0.2811,
      "step": 20
    },
    {
      "epoch": 0.192,
      "grad_norm": 1.4509814967330759,
      "learning_rate": 3.7179487179487184e-06,
      "loss": 0.2181,
      "step": 30
    },
    {
      "epoch": 0.256,
      "grad_norm": 1.0667376776086954,
      "learning_rate": 5e-06,
      "loss": 0.189,
      "step": 40
    },
    {
      "epoch": 0.32,
      "grad_norm": 1.0696410999339774,
      "learning_rate": 6.282051282051282e-06,
      "loss": 0.177,
      "step": 50
    },
    {
      "epoch": 0.384,
      "grad_norm": 0.9151711891804905,
      "learning_rate": 7.564102564102564e-06,
      "loss": 0.167,
      "step": 60
    },
    {
      "epoch": 0.448,
      "grad_norm": 0.9237138502707248,
      "learning_rate": 8.846153846153847e-06,
      "loss": 0.1675,
      "step": 70
    },
    {
      "epoch": 0.512,
      "grad_norm": 0.9105609637817949,
      "learning_rate": 9.985754985754987e-06,
      "loss": 0.1615,
      "step": 80
    },
    {
      "epoch": 0.576,
      "grad_norm": 0.9635369817622329,
      "learning_rate": 9.843304843304844e-06,
      "loss": 0.1537,
      "step": 90
    },
    {
      "epoch": 0.64,
      "grad_norm": 0.9301963444381538,
      "learning_rate": 9.700854700854701e-06,
      "loss": 0.1555,
      "step": 100
    },
    {
      "epoch": 0.704,
      "grad_norm": 0.994666608627509,
      "learning_rate": 9.558404558404559e-06,
      "loss": 0.147,
      "step": 110
    },
    {
      "epoch": 0.768,
      "grad_norm": 0.9805128000418147,
      "learning_rate": 9.415954415954418e-06,
      "loss": 0.1466,
      "step": 120
    },
    {
      "epoch": 0.832,
      "grad_norm": 5.727455892330691,
      "learning_rate": 9.273504273504275e-06,
      "loss": 0.1637,
      "step": 130
    },
    {
      "epoch": 0.896,
      "grad_norm": 1.0563934223394713,
      "learning_rate": 9.131054131054132e-06,
      "loss": 0.155,
      "step": 140
    },
    {
      "epoch": 0.96,
      "grad_norm": 1.1504062218182698,
      "learning_rate": 8.988603988603988e-06,
      "loss": 0.1439,
      "step": 150
    },
    {
      "epoch": 1.0192,
      "grad_norm": 0.9269306667477384,
      "learning_rate": 8.846153846153847e-06,
      "loss": 0.1415,
      "step": 160
    },
    {
      "epoch": 1.0832,
      "grad_norm": 0.937251487179654,
      "learning_rate": 8.703703703703705e-06,
      "loss": 0.1162,
      "step": 170
    },
    {
      "epoch": 1.1472,
      "grad_norm": 0.8595483518664617,
      "learning_rate": 8.561253561253562e-06,
      "loss": 0.1185,
      "step": 180
    },
    {
      "epoch": 1.2112,
      "grad_norm": 0.8196019141132913,
      "learning_rate": 8.41880341880342e-06,
      "loss": 0.1171,
      "step": 190
    },
    {
      "epoch": 1.2752,
      "grad_norm": 0.8212677735654523,
      "learning_rate": 8.276353276353277e-06,
      "loss": 0.1143,
      "step": 200
    },
    {
      "epoch": 1.3392,
      "grad_norm": 4.9366413577044135,
      "learning_rate": 8.133903133903136e-06,
      "loss": 0.1319,
      "step": 210
    },
    {
      "epoch": 1.4032,
      "grad_norm": 0.9227594866632357,
      "learning_rate": 7.991452991452993e-06,
      "loss": 0.1167,
      "step": 220
    },
    {
      "epoch": 1.4672,
      "grad_norm": 0.7790488882556504,
      "learning_rate": 7.849002849002849e-06,
      "loss": 0.1175,
      "step": 230
    },
    {
      "epoch": 1.5312000000000001,
      "grad_norm": 0.878440843498247,
      "learning_rate": 7.706552706552706e-06,
      "loss": 0.1162,
      "step": 240
    },
    {
      "epoch": 1.5952,
      "grad_norm": 0.8844317754732742,
      "learning_rate": 7.564102564102564e-06,
      "loss": 0.1148,
      "step": 250
    },
    {
      "epoch": 1.6592,
      "grad_norm": 0.9020369627866872,
      "learning_rate": 7.421652421652423e-06,
      "loss": 0.1159,
      "step": 260
    },
    {
      "epoch": 1.7231999999999998,
      "grad_norm": 0.827347148748199,
      "learning_rate": 7.27920227920228e-06,
      "loss": 0.1187,
      "step": 270
    },
    {
      "epoch": 1.7872,
      "grad_norm": 0.7901292105433336,
      "learning_rate": 7.136752136752137e-06,
      "loss": 0.1193,
      "step": 280
    },
    {
      "epoch": 1.8512,
      "grad_norm": 0.8602819567286648,
      "learning_rate": 6.9943019943019955e-06,
      "loss": 0.1152,
      "step": 290
    },
    {
      "epoch": 1.9152,
      "grad_norm": 0.9730912618055999,
      "learning_rate": 6.851851851851853e-06,
      "loss": 0.1154,
      "step": 300
    },
    {
      "epoch": 1.9792,
      "grad_norm": 0.8106828376349633,
      "learning_rate": 6.7094017094017094e-06,
      "loss": 0.1159,
      "step": 310
    },
    {
      "epoch": 2.0384,
      "grad_norm": 1.0196778750900124,
      "learning_rate": 6.566951566951567e-06,
      "loss": 0.1001,
      "step": 320
    },
    {
      "epoch": 2.1024,
      "grad_norm": 0.7888274817807146,
      "learning_rate": 6.424501424501425e-06,
      "loss": 0.0939,
      "step": 330
    },
    {
      "epoch": 2.1664,
      "grad_norm": 0.8613466771373076,
      "learning_rate": 6.282051282051282e-06,
      "loss": 0.0893,
      "step": 340
    },
    {
      "epoch": 2.2304,
      "grad_norm": 0.8030611830865862,
      "learning_rate": 6.13960113960114e-06,
      "loss": 0.0853,
      "step": 350
    },
    {
      "epoch": 2.2944,
      "grad_norm": 0.8085479420308019,
      "learning_rate": 5.997150997150998e-06,
      "loss": 0.0877,
      "step": 360
    },
    {
      "epoch": 2.3584,
      "grad_norm": 0.8126267762702701,
      "learning_rate": 5.854700854700855e-06,
      "loss": 0.0862,
      "step": 370
    },
    {
      "epoch": 2.4224,
      "grad_norm": 0.8252013389509302,
      "learning_rate": 5.7122507122507136e-06,
      "loss": 0.0897,
      "step": 380
    },
    {
      "epoch": 2.4864,
      "grad_norm": 0.9105766078944797,
      "learning_rate": 5.56980056980057e-06,
      "loss": 0.0879,
      "step": 390
    },
    {
      "epoch": 2.5504,
      "grad_norm": 0.7981149176537088,
      "learning_rate": 5.4273504273504275e-06,
      "loss": 0.0841,
      "step": 400
    },
    {
      "epoch": 2.6144,
      "grad_norm": 0.8875488155999689,
      "learning_rate": 5.284900284900285e-06,
      "loss": 0.0863,
      "step": 410
    },
    {
      "epoch": 2.6784,
      "grad_norm": 1.063784078701247,
      "learning_rate": 5.142450142450143e-06,
      "loss": 0.0879,
      "step": 420
    },
    {
      "epoch": 2.7424,
      "grad_norm": 0.7362604933156909,
      "learning_rate": 5e-06,
      "loss": 0.0859,
      "step": 430
    },
    {
      "epoch": 2.8064,
      "grad_norm": 0.826168932551465,
      "learning_rate": 4.857549857549858e-06,
      "loss": 0.084,
      "step": 440
    },
    {
      "epoch": 2.8704,
      "grad_norm": 0.9226433937701167,
      "learning_rate": 4.715099715099716e-06,
      "loss": 0.0859,
      "step": 450
    },
    {
      "epoch": 2.9344,
      "grad_norm": 0.9016557047029915,
      "learning_rate": 4.5726495726495725e-06,
      "loss": 0.0881,
      "step": 460
    },
    {
      "epoch": 2.9984,
      "grad_norm": 0.7583409981946808,
      "learning_rate": 4.430199430199431e-06,
      "loss": 0.0854,
      "step": 470
    },
    {
      "epoch": 3.0576,
      "grad_norm": 0.8863230633911636,
      "learning_rate": 4.287749287749288e-06,
      "loss": 0.0685,
      "step": 480
    },
    {
      "epoch": 3.1216,
      "grad_norm": 0.6982342319387531,
      "learning_rate": 4.145299145299146e-06,
      "loss": 0.0666,
      "step": 490
    },
    {
      "epoch": 3.1856,
      "grad_norm": 0.7912460022628846,
      "learning_rate": 4.002849002849003e-06,
      "loss": 0.0665,
      "step": 500
    },
    {
      "epoch": 3.2496,
      "grad_norm": 0.6665566331149142,
      "learning_rate": 3.860398860398861e-06,
      "loss": 0.0654,
      "step": 510
    },
    {
      "epoch": 3.3136,
      "grad_norm": 0.6276324769832349,
      "learning_rate": 3.7179487179487184e-06,
      "loss": 0.0637,
      "step": 520
    },
    {
      "epoch": 3.3776,
      "grad_norm": 0.7075634358815995,
      "learning_rate": 3.5754985754985762e-06,
      "loss": 0.0666,
      "step": 530
    },
    {
      "epoch": 3.4416,
      "grad_norm": 0.8416559917671413,
      "learning_rate": 3.433048433048433e-06,
      "loss": 0.0632,
      "step": 540
    },
    {
      "epoch": 3.5056000000000003,
      "grad_norm": 0.7737288110392154,
      "learning_rate": 3.290598290598291e-06,
      "loss": 0.0685,
      "step": 550
    },
    {
      "epoch": 3.5696,
      "grad_norm": 0.7104245606986962,
      "learning_rate": 3.1481481481481483e-06,
      "loss": 0.0674,
      "step": 560
    },
    {
      "epoch": 3.6336,
      "grad_norm": 0.6662354825942572,
      "learning_rate": 3.005698005698006e-06,
      "loss": 0.0651,
      "step": 570
    },
    {
      "epoch": 3.6976,
      "grad_norm": 0.7031289511597453,
      "learning_rate": 2.8632478632478635e-06,
      "loss": 0.0672,
      "step": 580
    },
    {
      "epoch": 3.7616,
      "grad_norm": 0.7257569468741261,
      "learning_rate": 2.720797720797721e-06,
      "loss": 0.0622,
      "step": 590
    },
    {
      "epoch": 3.8256,
      "grad_norm": 0.6991963603514749,
      "learning_rate": 2.5783475783475787e-06,
      "loss": 0.0633,
      "step": 600
    },
    {
      "epoch": 3.8895999999999997,
      "grad_norm": 0.7548235386977874,
      "learning_rate": 2.435897435897436e-06,
      "loss": 0.0653,
      "step": 610
    },
    {
      "epoch": 3.9536,
      "grad_norm": 0.6602391129234801,
      "learning_rate": 2.293447293447294e-06,
      "loss": 0.0638,
      "step": 620
    },
    {
      "epoch": 4.0128,
      "grad_norm": 0.7127600072100571,
      "learning_rate": 2.150997150997151e-06,
      "loss": 0.0636,
      "step": 630
    },
    {
      "epoch": 4.0768,
      "grad_norm": 0.6556240511181554,
      "learning_rate": 2.008547008547009e-06,
      "loss": 0.0516,
      "step": 640
    },
    {
      "epoch": 4.1408,
      "grad_norm": 0.6850227669668973,
      "learning_rate": 1.8660968660968661e-06,
      "loss": 0.0509,
      "step": 650
    },
    {
      "epoch": 4.2048,
      "grad_norm": 0.6298067626427338,
      "learning_rate": 1.723646723646724e-06,
      "loss": 0.0494,
      "step": 660
    },
    {
      "epoch": 4.2688,
      "grad_norm": 0.6426447871463229,
      "learning_rate": 1.5811965811965813e-06,
      "loss": 0.0501,
      "step": 670
    },
    {
      "epoch": 4.3328,
      "grad_norm": 0.6296241812425275,
      "learning_rate": 1.4387464387464389e-06,
      "loss": 0.0506,
      "step": 680
    },
    {
      "epoch": 4.3968,
      "grad_norm": 0.6485310959941799,
      "learning_rate": 1.2962962962962962e-06,
      "loss": 0.0487,
      "step": 690
    },
    {
      "epoch": 4.4608,
      "grad_norm": 0.6338385020692964,
      "learning_rate": 1.153846153846154e-06,
      "loss": 0.0523,
      "step": 700
    },
    {
      "epoch": 4.5248,
      "grad_norm": 0.6055841132664854,
      "learning_rate": 1.0113960113960116e-06,
      "loss": 0.0498,
      "step": 710
    },
    {
      "epoch": 4.5888,
      "grad_norm": 0.5660838689965909,
      "learning_rate": 8.689458689458691e-07,
      "loss": 0.0504,
      "step": 720
    },
    {
      "epoch": 4.6528,
      "grad_norm": 0.5661857017173743,
      "learning_rate": 7.264957264957266e-07,
      "loss": 0.047,
      "step": 730
    },
    {
      "epoch": 4.7168,
      "grad_norm": 0.5868490718071672,
      "learning_rate": 5.84045584045584e-07,
      "loss": 0.0508,
      "step": 740
    },
    {
      "epoch": 4.7808,
      "grad_norm": 0.635556369517636,
      "learning_rate": 4.415954415954416e-07,
      "loss": 0.0469,
      "step": 750
    },
    {
      "epoch": 4.8448,
      "grad_norm": 0.6320166841845685,
      "learning_rate": 2.991452991452992e-07,
      "loss": 0.051,
      "step": 760
    },
    {
      "epoch": 4.9088,
      "grad_norm": 0.5463774307587965,
      "learning_rate": 1.566951566951567e-07,
      "loss": 0.0471,
      "step": 770
    },
    {
      "epoch": 4.9728,
      "grad_norm": 0.5661712079119269,
      "learning_rate": 1.4245014245014247e-08,
      "loss": 0.0479,
      "step": 780
    },
    {
      "epoch": 4.9728,
      "step": 780,
      "total_flos": 478133604057088.0,
      "train_loss": 0.1006505385805399,
      "train_runtime": 27539.0145,
      "train_samples_per_second": 3.631,
      "train_steps_per_second": 0.028
    }
  ],
  "logging_steps": 10,
  "max_steps": 780,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 5,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 478133604057088.0,
  "train_batch_size": 4,
  "trial_name": null,
  "trial_params": null
}