{
  "best_global_step": null,
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.0,
  "eval_steps": 500,
  "global_step": 269,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.01858736059479554,
      "grad_norm": 1.7582342353832359,
      "learning_rate": 1.4285714285714285e-05,
      "loss": 0.8498,
      "num_tokens": 10465392.0,
      "step": 5
    },
    {
      "epoch": 0.03717472118959108,
      "grad_norm": 0.7823621033764199,
      "learning_rate": 3.2142857142857144e-05,
      "loss": 0.7788,
      "num_tokens": 20951152.0,
      "step": 10
    },
    {
      "epoch": 0.055762081784386616,
      "grad_norm": 0.49750901601003117,
      "learning_rate": 5e-05,
      "loss": 0.7096,
      "num_tokens": 31436912.0,
      "step": 15
    },
    {
      "epoch": 0.07434944237918216,
      "grad_norm": 0.412333734710112,
      "learning_rate": 4.9957324896583496e-05,
      "loss": 0.6708,
      "num_tokens": 41909269.0,
      "step": 20
    },
    {
      "epoch": 0.09293680297397769,
      "grad_norm": 0.3796106388848942,
      "learning_rate": 4.982946146761856e-05,
      "loss": 0.6517,
      "num_tokens": 52353719.0,
      "step": 25
    },
    {
      "epoch": 0.11152416356877323,
      "grad_norm": 0.27444833513010586,
      "learning_rate": 4.961689474288779e-05,
      "loss": 0.6363,
      "num_tokens": 62792124.0,
      "step": 30
    },
    {
      "epoch": 0.13011152416356878,
      "grad_norm": 0.2546802067959145,
      "learning_rate": 4.932043106078772e-05,
      "loss": 0.6217,
      "num_tokens": 73260442.0,
      "step": 35
    },
    {
      "epoch": 0.14869888475836432,
      "grad_norm": 0.24556484829989433,
      "learning_rate": 4.894119500961103e-05,
      "loss": 0.6053,
      "num_tokens": 83727556.0,
      "step": 40
    },
    {
      "epoch": 0.16728624535315986,
      "grad_norm": 0.27334563641174736,
      "learning_rate": 4.8480625161598e-05,
      "loss": 0.6042,
      "num_tokens": 94201938.0,
      "step": 45
    },
    {
      "epoch": 0.18587360594795538,
      "grad_norm": 0.3206739141854499,
      "learning_rate": 4.7940468615939285e-05,
      "loss": 0.5967,
      "num_tokens": 104670740.0,
      "step": 50
    },
    {
      "epoch": 0.20446096654275092,
      "grad_norm": 0.3385903610823104,
      "learning_rate": 4.732277437143015e-05,
      "loss": 0.5998,
      "num_tokens": 115151933.0,
      "step": 55
    },
    {
      "epoch": 0.22304832713754646,
      "grad_norm": 0.38557802257738233,
      "learning_rate": 4.662988555391632e-05,
      "loss": 0.5905,
      "num_tokens": 125607410.0,
      "step": 60
    },
    {
      "epoch": 0.241635687732342,
      "grad_norm": 0.4096635748264715,
      "learning_rate": 4.586443052801499e-05,
      "loss": 0.5883,
      "num_tokens": 136036466.0,
      "step": 65
    },
    {
      "epoch": 0.26022304832713755,
      "grad_norm": 0.41378221913947577,
      "learning_rate": 4.502931292682758e-05,
      "loss": 0.5849,
      "num_tokens": 146502251.0,
      "step": 70
    },
    {
      "epoch": 0.2788104089219331,
      "grad_norm": 0.3420189354321493,
      "learning_rate": 4.4127700637464834e-05,
      "loss": 0.5822,
      "num_tokens": 156977308.0,
      "step": 75
    },
    {
      "epoch": 0.29739776951672864,
      "grad_norm": 0.26444490157345835,
      "learning_rate": 4.316301378416586e-05,
      "loss": 0.5761,
      "num_tokens": 167423794.0,
      "step": 80
    },
    {
      "epoch": 0.3159851301115242,
      "grad_norm": 0.2909843263275024,
      "learning_rate": 4.213891175459545e-05,
      "loss": 0.5685,
      "num_tokens": 177900466.0,
      "step": 85
    },
    {
      "epoch": 0.3345724907063197,
      "grad_norm": 0.2844840299411125,
      "learning_rate": 4.105927931853327e-05,
      "loss": 0.5724,
      "num_tokens": 188373813.0,
      "step": 90
    },
    {
      "epoch": 0.35315985130111527,
      "grad_norm": 0.2642957858437273,
      "learning_rate": 3.992821189161138e-05,
      "loss": 0.5706,
      "num_tokens": 198859382.0,
      "step": 95
    },
    {
      "epoch": 0.37174721189591076,
      "grad_norm": 0.28812160871677345,
      "learning_rate": 3.875e-05,
      "loss": 0.5676,
      "num_tokens": 209345142.0,
      "step": 100
    },
    {
      "epoch": 0.3903345724907063,
      "grad_norm": 0.2737184974355396,
      "learning_rate": 3.752911300497212e-05,
      "loss": 0.5668,
      "num_tokens": 219820636.0,
      "step": 105
    },
    {
      "epoch": 0.40892193308550184,
      "grad_norm": 0.3319330013418475,
      "learning_rate": 3.627018214908529e-05,
      "loss": 0.559,
      "num_tokens": 230306396.0,
      "step": 110
    },
    {
      "epoch": 0.4275092936802974,
      "grad_norm": 0.33580570193320003,
      "learning_rate": 3.497798298829234e-05,
      "loss": 0.5627,
      "num_tokens": 240792156.0,
      "step": 115
    },
    {
      "epoch": 0.44609665427509293,
      "grad_norm": 0.2696866807703745,
      "learning_rate": 3.365741727662187e-05,
      "loss": 0.5611,
      "num_tokens": 251259365.0,
      "step": 120
    },
    {
      "epoch": 0.4646840148698885,
      "grad_norm": 0.26103691810733365,
      "learning_rate": 3.2313494372146194e-05,
      "loss": 0.5644,
      "num_tokens": 261736444.0,
      "step": 125
    },
    {
      "epoch": 0.483271375464684,
      "grad_norm": 0.27008187882127777,
      "learning_rate": 3.0951312234770424e-05,
      "loss": 0.5629,
      "num_tokens": 272205866.0,
      "step": 130
    },
    {
      "epoch": 0.5018587360594795,
      "grad_norm": 0.2377738084011817,
      "learning_rate": 2.9576038087924297e-05,
      "loss": 0.5586,
      "num_tokens": 282683327.0,
      "step": 135
    },
    {
      "epoch": 0.5204460966542751,
      "grad_norm": 0.2712702484454595,
      "learning_rate": 2.8192888817513842e-05,
      "loss": 0.5612,
      "num_tokens": 293122806.0,
      "step": 140
    },
    {
      "epoch": 0.5390334572490706,
      "grad_norm": 0.2107567139311192,
      "learning_rate": 2.6807111182486174e-05,
      "loss": 0.5605,
      "num_tokens": 303598947.0,
      "step": 145
    },
    {
      "epoch": 0.5576208178438662,
      "grad_norm": 0.26579862652508635,
      "learning_rate": 2.5423961912075712e-05,
      "loss": 0.5579,
      "num_tokens": 314077641.0,
      "step": 150
    },
    {
      "epoch": 0.5762081784386617,
      "grad_norm": 0.22027536575589027,
      "learning_rate": 2.404868776522958e-05,
      "loss": 0.5488,
      "num_tokens": 324545386.0,
      "step": 155
    },
    {
      "epoch": 0.5947955390334573,
      "grad_norm": 0.18360505707562297,
      "learning_rate": 2.2686505627853815e-05,
      "loss": 0.5609,
      "num_tokens": 335031146.0,
      "step": 160
    },
    {
      "epoch": 0.6133828996282528,
      "grad_norm": 0.20357861903781174,
      "learning_rate": 2.134258272337814e-05,
      "loss": 0.5411,
      "num_tokens": 345504904.0,
      "step": 165
    },
    {
      "epoch": 0.6319702602230484,
      "grad_norm": 0.1839574311325421,
      "learning_rate": 2.002201701170766e-05,
      "loss": 0.5508,
      "num_tokens": 355956520.0,
      "step": 170
    },
    {
      "epoch": 0.6505576208178439,
      "grad_norm": 0.16606146111347378,
      "learning_rate": 1.8729817850914718e-05,
      "loss": 0.5515,
      "num_tokens": 366434348.0,
      "step": 175
    },
    {
      "epoch": 0.6691449814126395,
      "grad_norm": 0.19858346919197656,
      "learning_rate": 1.747088699502789e-05,
      "loss": 0.5543,
      "num_tokens": 376908695.0,
      "step": 180
    },
    {
      "epoch": 0.6877323420074349,
      "grad_norm": 0.18484422652239044,
      "learning_rate": 1.6250000000000005e-05,
      "loss": 0.557,
      "num_tokens": 387384301.0,
      "step": 185
    },
    {
      "epoch": 0.7063197026022305,
      "grad_norm": 0.17208361544414713,
      "learning_rate": 1.507178810838862e-05,
      "loss": 0.548,
      "num_tokens": 397835323.0,
      "step": 190
    },
    {
      "epoch": 0.724907063197026,
      "grad_norm": 0.16229949290514656,
      "learning_rate": 1.3940720681466734e-05,
      "loss": 0.5467,
      "num_tokens": 408298322.0,
      "step": 195
    },
    {
      "epoch": 0.7434944237918215,
      "grad_norm": 0.16074146059387,
      "learning_rate": 1.2861088245404559e-05,
      "loss": 0.5525,
      "num_tokens": 418781566.0,
      "step": 200
    },
    {
      "epoch": 0.7620817843866171,
      "grad_norm": 0.17476676024842305,
      "learning_rate": 1.1836986215834153e-05,
      "loss": 0.5484,
      "num_tokens": 429246222.0,
      "step": 205
    },
    {
      "epoch": 0.7806691449814126,
      "grad_norm": 0.1692888626139896,
      "learning_rate": 1.0872299362535173e-05,
      "loss": 0.5425,
      "num_tokens": 439717644.0,
      "step": 210
    },
    {
      "epoch": 0.7992565055762082,
      "grad_norm": 0.158461731777416,
      "learning_rate": 9.970687073172415e-06,
      "loss": 0.5517,
      "num_tokens": 450170885.0,
      "step": 215
    },
    {
      "epoch": 0.8178438661710037,
      "grad_norm": 0.17882967489280968,
      "learning_rate": 9.135569471985015e-06,
      "loss": 0.5477,
      "num_tokens": 460656645.0,
      "step": 220
    },
    {
      "epoch": 0.8364312267657993,
      "grad_norm": 0.1781545992456796,
      "learning_rate": 8.370114446083686e-06,
      "loss": 0.54,
      "num_tokens": 471142405.0,
      "step": 225
    },
    {
      "epoch": 0.8550185873605948,
      "grad_norm": 0.14563575020681377,
      "learning_rate": 7.67722562856985e-06,
      "loss": 0.5443,
      "num_tokens": 481616409.0,
      "step": 230
    },
    {
      "epoch": 0.8736059479553904,
      "grad_norm": 0.16717996517141598,
      "learning_rate": 7.0595313840607164e-06,
      "loss": 0.5436,
      "num_tokens": 492097674.0,
      "step": 235
    },
    {
      "epoch": 0.8921933085501859,
      "grad_norm": 0.1467091357593938,
      "learning_rate": 6.519374838401997e-06,
      "loss": 0.5413,
      "num_tokens": 502555042.0,
      "step": 240
    },
    {
      "epoch": 0.9107806691449815,
      "grad_norm": 0.14662885048081678,
      "learning_rate": 6.0588049903889796e-06,
      "loss": 0.5393,
      "num_tokens": 513031521.0,
      "step": 245
    },
    {
      "epoch": 0.929368029739777,
      "grad_norm": 0.14205080008433915,
      "learning_rate": 5.679568939212289e-06,
      "loss": 0.5476,
      "num_tokens": 523517281.0,
      "step": 250
    },
    {
      "epoch": 0.9479553903345725,
      "grad_norm": 0.14699217112458307,
      "learning_rate": 5.38310525711221e-06,
      "loss": 0.5439,
      "num_tokens": 533998146.0,
      "step": 255
    },
    {
      "epoch": 0.966542750929368,
      "grad_norm": 0.138585320263155,
      "learning_rate": 5.170538532381446e-06,
      "loss": 0.5399,
      "num_tokens": 544470561.0,
      "step": 260
    },
    {
      "epoch": 0.9851301115241635,
      "grad_norm": 0.14679874733759996,
      "learning_rate": 5.042675103416508e-06,
      "loss": 0.5362,
      "num_tokens": 554934577.0,
      "step": 265
    },
    {
      "epoch": 1.0,
      "num_tokens": 562274609.0,
      "step": 269,
      "total_flos": 490444463013888.0,
      "train_loss": 0.5787693062679475,
      "train_runtime": 6334.1702,
      "train_samples_per_second": 5.416,
      "train_steps_per_second": 0.042
    }
  ],
  "logging_steps": 5,
  "max_steps": 269,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 100,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 490444463013888.0,
  "train_batch_size": 16,
  "trial_name": null,
  "trial_params": null
}