Upload trainer_state.json with huggingface_hub

782be6b verified 7 months ago

121 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 750,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004,
	"grad_norm": 8.721762657165527,
	"learning_rate": 4.347826086956522e-07,
	"loss": 2.3644,
	"step": 1
	},
	{
	"epoch": 0.008,
	"grad_norm": 8.021437644958496,
	"learning_rate": 8.695652173913044e-07,
	"loss": 2.3718,
	"step": 2
	},
	{
	"epoch": 0.012,
	"grad_norm": 9.153054237365723,
	"learning_rate": 1.3043478260869566e-06,
	"loss": 2.2777,
	"step": 3
	},
	{
	"epoch": 0.016,
	"grad_norm": 8.955615043640137,
	"learning_rate": 1.7391304347826088e-06,
	"loss": 2.1531,
	"step": 4
	},
	{
	"epoch": 0.02,
	"grad_norm": 8.832795143127441,
	"learning_rate": 2.173913043478261e-06,
	"loss": 2.4567,
	"step": 5
	},
	{
	"epoch": 0.024,
	"grad_norm": 9.694704055786133,
	"learning_rate": 2.6086956521739132e-06,
	"loss": 2.36,
	"step": 6
	},
	{
	"epoch": 0.028,
	"grad_norm": 7.578924179077148,
	"learning_rate": 3.043478260869566e-06,
	"loss": 2.1872,
	"step": 7
	},
	{
	"epoch": 0.032,
	"grad_norm": 6.530836582183838,
	"learning_rate": 3.4782608695652175e-06,
	"loss": 2.1603,
	"step": 8
	},
	{
	"epoch": 0.036,
	"grad_norm": 6.5283589363098145,
	"learning_rate": 3.91304347826087e-06,
	"loss": 2.2485,
	"step": 9
	},
	{
	"epoch": 0.04,
	"grad_norm": 9.349092483520508,
	"learning_rate": 4.347826086956522e-06,
	"loss": 2.1946,
	"step": 10
	},
	{
	"epoch": 0.044,
	"grad_norm": 8.240315437316895,
	"learning_rate": 4.782608695652174e-06,
	"loss": 2.248,
	"step": 11
	},
	{
	"epoch": 0.048,
	"grad_norm": 6.106252670288086,
	"learning_rate": 5.2173913043478265e-06,
	"loss": 2.0142,
	"step": 12
	},
	{
	"epoch": 0.052,
	"grad_norm": 5.051333904266357,
	"learning_rate": 5.652173913043479e-06,
	"loss": 2.3068,
	"step": 13
	},
	{
	"epoch": 0.056,
	"grad_norm": 3.2932288646698,
	"learning_rate": 6.086956521739132e-06,
	"loss": 1.9645,
	"step": 14
	},
	{
	"epoch": 0.06,
	"grad_norm": 3.7527170181274414,
	"learning_rate": 6.521739130434783e-06,
	"loss": 1.9759,
	"step": 15
	},
	{
	"epoch": 0.064,
	"grad_norm": 2.721696138381958,
	"learning_rate": 6.956521739130435e-06,
	"loss": 1.9302,
	"step": 16
	},
	{
	"epoch": 0.068,
	"grad_norm": 2.36800479888916,
	"learning_rate": 7.391304347826087e-06,
	"loss": 2.205,
	"step": 17
	},
	{
	"epoch": 0.072,
	"grad_norm": 2.5590853691101074,
	"learning_rate": 7.82608695652174e-06,
	"loss": 2.119,
	"step": 18
	},
	{
	"epoch": 0.076,
	"grad_norm": 2.4806504249572754,
	"learning_rate": 8.260869565217392e-06,
	"loss": 2.0396,
	"step": 19
	},
	{
	"epoch": 0.08,
	"grad_norm": 2.451159954071045,
	"learning_rate": 8.695652173913044e-06,
	"loss": 1.9451,
	"step": 20
	},
	{
	"epoch": 0.084,
	"grad_norm": 2.3489480018615723,
	"learning_rate": 9.130434782608697e-06,
	"loss": 1.9104,
	"step": 21
	},
	{
	"epoch": 0.088,
	"grad_norm": 2.2822914123535156,
	"learning_rate": 9.565217391304349e-06,
	"loss": 1.8797,
	"step": 22
	},
	{
	"epoch": 0.092,
	"grad_norm": 2.1923317909240723,
	"learning_rate": 1e-05,
	"loss": 1.9217,
	"step": 23
	},
	{
	"epoch": 0.096,
	"grad_norm": 2.112422227859497,
	"learning_rate": 9.999953315763929e-06,
	"loss": 2.1099,
	"step": 24
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.9636746644973755,
	"learning_rate": 9.999813263927483e-06,
	"loss": 1.9496,
	"step": 25
	},
	{
	"epoch": 0.104,
	"grad_norm": 1.8546597957611084,
	"learning_rate": 9.999579847105947e-06,
	"loss": 1.8579,
	"step": 26
	},
	{
	"epoch": 0.108,
	"grad_norm": 1.958949327468872,
	"learning_rate": 9.999253069658074e-06,
	"loss": 1.8821,
	"step": 27
	},
	{
	"epoch": 0.112,
	"grad_norm": 1.889803409576416,
	"learning_rate": 9.99883293768601e-06,
	"loss": 1.6971,
	"step": 28
	},
	{
	"epoch": 0.116,
	"grad_norm": 1.947962999343872,
	"learning_rate": 9.998319459035168e-06,
	"loss": 1.9231,
	"step": 29
	},
	{
	"epoch": 0.12,
	"grad_norm": 2.027719259262085,
	"learning_rate": 9.997712643294093e-06,
	"loss": 1.953,
	"step": 30
	},
	{
	"epoch": 0.124,
	"grad_norm": 1.8483015298843384,
	"learning_rate": 9.997012501794273e-06,
	"loss": 1.8959,
	"step": 31
	},
	{
	"epoch": 0.128,
	"grad_norm": 1.7306790351867676,
	"learning_rate": 9.996219047609943e-06,
	"loss": 1.8583,
	"step": 32
	},
	{
	"epoch": 0.132,
	"grad_norm": 1.8961213827133179,
	"learning_rate": 9.995332295557818e-06,
	"loss": 1.8368,
	"step": 33
	},
	{
	"epoch": 0.136,
	"grad_norm": 1.9631264209747314,
	"learning_rate": 9.994352262196839e-06,
	"loss": 1.9679,
	"step": 34
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.846217155456543,
	"learning_rate": 9.993278965827844e-06,
	"loss": 1.839,
	"step": 35
	},
	{
	"epoch": 0.144,
	"grad_norm": 2.0129947662353516,
	"learning_rate": 9.992112426493247e-06,
	"loss": 1.855,
	"step": 36
	},
	{
	"epoch": 0.148,
	"grad_norm": 1.9122753143310547,
	"learning_rate": 9.990852665976648e-06,
	"loss": 1.9006,
	"step": 37
	},
	{
	"epoch": 0.152,
	"grad_norm": 2.18493914604187,
	"learning_rate": 9.989499707802424e-06,
	"loss": 1.8405,
	"step": 38
	},
	{
	"epoch": 0.156,
	"grad_norm": 1.7727043628692627,
	"learning_rate": 9.988053577235306e-06,
	"loss": 1.8223,
	"step": 39
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.9057114124298096,
	"learning_rate": 9.986514301279894e-06,
	"loss": 1.6839,
	"step": 40
	},
	{
	"epoch": 0.164,
	"grad_norm": 1.7055038213729858,
	"learning_rate": 9.984881908680157e-06,
	"loss": 1.9267,
	"step": 41
	},
	{
	"epoch": 0.168,
	"grad_norm": 1.7604912519454956,
	"learning_rate": 9.983156429918895e-06,
	"loss": 1.6166,
	"step": 42
	},
	{
	"epoch": 0.172,
	"grad_norm": 1.7344841957092285,
	"learning_rate": 9.981337897217171e-06,
	"loss": 1.7582,
	"step": 43
	},
	{
	"epoch": 0.176,
	"grad_norm": 1.7479348182678223,
	"learning_rate": 9.979426344533712e-06,
	"loss": 1.7273,
	"step": 44
	},
	{
	"epoch": 0.18,
	"grad_norm": 1.7066375017166138,
	"learning_rate": 9.977421807564264e-06,
	"loss": 1.6157,
	"step": 45
	},
	{
	"epoch": 0.184,
	"grad_norm": 1.7395350933074951,
	"learning_rate": 9.97532432374094e-06,
	"loss": 1.7595,
	"step": 46
	},
	{
	"epoch": 0.188,
	"grad_norm": 1.7139127254486084,
	"learning_rate": 9.973133932231514e-06,
	"loss": 1.847,
	"step": 47
	},
	{
	"epoch": 0.192,
	"grad_norm": 1.7039334774017334,
	"learning_rate": 9.970850673938684e-06,
	"loss": 1.6266,
	"step": 48
	},
	{
	"epoch": 0.196,
	"grad_norm": 1.553138017654419,
	"learning_rate": 9.96847459149932e-06,
	"loss": 1.7547,
	"step": 49
	},
	{
	"epoch": 0.2,
	"grad_norm": 1.660720705986023,
	"learning_rate": 9.966005729283658e-06,
	"loss": 1.6159,
	"step": 50
	},
	{
	"epoch": 0.204,
	"grad_norm": 1.7627906799316406,
	"learning_rate": 9.963444133394478e-06,
	"loss": 1.6653,
	"step": 51
	},
	{
	"epoch": 0.208,
	"grad_norm": 1.6014618873596191,
	"learning_rate": 9.960789851666237e-06,
	"loss": 1.6848,
	"step": 52
	},
	{
	"epoch": 0.212,
	"grad_norm": 1.5535660982131958,
	"learning_rate": 9.958042933664186e-06,
	"loss": 1.7494,
	"step": 53
	},
	{
	"epoch": 0.216,
	"grad_norm": 1.5631558895111084,
	"learning_rate": 9.955203430683425e-06,
	"loss": 1.724,
	"step": 54
	},
	{
	"epoch": 0.22,
	"grad_norm": 1.472652554512024,
	"learning_rate": 9.952271395747969e-06,
	"loss": 1.6804,
	"step": 55
	},
	{
	"epoch": 0.224,
	"grad_norm": 1.414918303489685,
	"learning_rate": 9.949246883609743e-06,
	"loss": 1.7572,
	"step": 56
	},
	{
	"epoch": 0.228,
	"grad_norm": 1.3761672973632812,
	"learning_rate": 9.94612995074756e-06,
	"loss": 1.6243,
	"step": 57
	},
	{
	"epoch": 0.232,
	"grad_norm": 1.333956241607666,
	"learning_rate": 9.942920655366075e-06,
	"loss": 1.6858,
	"step": 58
	},
	{
	"epoch": 0.236,
	"grad_norm": 1.2539465427398682,
	"learning_rate": 9.939619057394687e-06,
	"loss": 1.6089,
	"step": 59
	},
	{
	"epoch": 0.24,
	"grad_norm": 1.3787896633148193,
	"learning_rate": 9.936225218486428e-06,
	"loss": 1.8374,
	"step": 60
	},
	{
	"epoch": 0.244,
	"grad_norm": 1.2240163087844849,
	"learning_rate": 9.93273920201681e-06,
	"loss": 1.6729,
	"step": 61
	},
	{
	"epoch": 0.248,
	"grad_norm": 1.2668211460113525,
	"learning_rate": 9.929161073082636e-06,
	"loss": 1.7367,
	"step": 62
	},
	{
	"epoch": 0.252,
	"grad_norm": 1.2384607791900635,
	"learning_rate": 9.925490898500796e-06,
	"loss": 1.598,
	"step": 63
	},
	{
	"epoch": 0.256,
	"grad_norm": 1.2151755094528198,
	"learning_rate": 9.921728746807008e-06,
	"loss": 1.7472,
	"step": 64
	},
	{
	"epoch": 0.26,
	"grad_norm": 1.1657401323318481,
	"learning_rate": 9.917874688254542e-06,
	"loss": 1.5475,
	"step": 65
	},
	{
	"epoch": 0.264,
	"grad_norm": 1.2198437452316284,
	"learning_rate": 9.913928794812909e-06,
	"loss": 1.7793,
	"step": 66
	},
	{
	"epoch": 0.268,
	"grad_norm": 1.2214503288269043,
	"learning_rate": 9.90989114016652e-06,
	"loss": 1.7146,
	"step": 67
	},
	{
	"epoch": 0.272,
	"grad_norm": 1.204345464706421,
	"learning_rate": 9.905761799713302e-06,
	"loss": 1.6711,
	"step": 68
	},
	{
	"epoch": 0.276,
	"grad_norm": 1.137200117111206,
	"learning_rate": 9.901540850563295e-06,
	"loss": 1.7723,
	"step": 69
	},
	{
	"epoch": 0.28,
	"grad_norm": 1.1586705446243286,
	"learning_rate": 9.89722837153722e-06,
	"loss": 1.6051,
	"step": 70
	},
	{
	"epoch": 0.284,
	"grad_norm": 1.1941063404083252,
	"learning_rate": 9.892824443164987e-06,
	"loss": 1.79,
	"step": 71
	},
	{
	"epoch": 0.288,
	"grad_norm": 1.3017503023147583,
	"learning_rate": 9.88832914768421e-06,
	"loss": 1.7233,
	"step": 72
	},
	{
	"epoch": 0.292,
	"grad_norm": 1.219022512435913,
	"learning_rate": 9.883742569038663e-06,
	"loss": 1.7442,
	"step": 73
	},
	{
	"epoch": 0.296,
	"grad_norm": 1.2379837036132812,
	"learning_rate": 9.879064792876717e-06,
	"loss": 1.7228,
	"step": 74
	},
	{
	"epoch": 0.3,
	"grad_norm": 1.121887445449829,
	"learning_rate": 9.874295906549728e-06,
	"loss": 1.6269,
	"step": 75
	},
	{
	"epoch": 0.304,
	"grad_norm": 1.2706581354141235,
	"learning_rate": 9.869435999110428e-06,
	"loss": 1.797,
	"step": 76
	},
	{
	"epoch": 0.308,
	"grad_norm": 1.1910197734832764,
	"learning_rate": 9.864485161311242e-06,
	"loss": 1.7846,
	"step": 77
	},
	{
	"epoch": 0.312,
	"grad_norm": 1.0924195051193237,
	"learning_rate": 9.859443485602603e-06,
	"loss": 1.4966,
	"step": 78
	},
	{
	"epoch": 0.316,
	"grad_norm": 1.2084602117538452,
	"learning_rate": 9.85431106613122e-06,
	"loss": 1.6557,
	"step": 79
	},
	{
	"epoch": 0.32,
	"grad_norm": 1.1837743520736694,
	"learning_rate": 9.849087998738328e-06,
	"loss": 1.8381,
	"step": 80
	},
	{
	"epoch": 0.324,
	"grad_norm": 1.155611515045166,
	"learning_rate": 9.84377438095789e-06,
	"loss": 1.6823,
	"step": 81
	},
	{
	"epoch": 0.328,
	"grad_norm": 1.1229243278503418,
	"learning_rate": 9.838370312014783e-06,
	"loss": 1.691,
	"step": 82
	},
	{
	"epoch": 0.332,
	"grad_norm": 1.1645359992980957,
	"learning_rate": 9.832875892822937e-06,
	"loss": 1.6568,
	"step": 83
	},
	{
	"epoch": 0.336,
	"grad_norm": 1.2119394540786743,
	"learning_rate": 9.827291225983458e-06,
	"loss": 1.8006,
	"step": 84
	},
	{
	"epoch": 0.34,
	"grad_norm": 1.0529983043670654,
	"learning_rate": 9.821616415782708e-06,
	"loss": 1.4368,
	"step": 85
	},
	{
	"epoch": 0.344,
	"grad_norm": 1.2436493635177612,
	"learning_rate": 9.815851568190358e-06,
	"loss": 1.7318,
	"step": 86
	},
	{
	"epoch": 0.348,
	"grad_norm": 1.1215393543243408,
	"learning_rate": 9.80999679085741e-06,
	"loss": 1.5843,
	"step": 87
	},
	{
	"epoch": 0.352,
	"grad_norm": 1.2209582328796387,
	"learning_rate": 9.80405219311419e-06,
	"loss": 1.6051,
	"step": 88
	},
	{
	"epoch": 0.356,
	"grad_norm": 1.217036485671997,
	"learning_rate": 9.798017885968295e-06,
	"loss": 1.6264,
	"step": 89
	},
	{
	"epoch": 0.36,
	"grad_norm": 1.0814294815063477,
	"learning_rate": 9.791893982102537e-06,
	"loss": 1.6134,
	"step": 90
	},
	{
	"epoch": 0.364,
	"grad_norm": 1.034320592880249,
	"learning_rate": 9.785680595872824e-06,
	"loss": 1.3687,
	"step": 91
	},
	{
	"epoch": 0.368,
	"grad_norm": 1.1603397130966187,
	"learning_rate": 9.77937784330603e-06,
	"loss": 1.6229,
	"step": 92
	},
	{
	"epoch": 0.372,
	"grad_norm": 1.3108525276184082,
	"learning_rate": 9.772985842097832e-06,
	"loss": 1.6952,
	"step": 93
	},
	{
	"epoch": 0.376,
	"grad_norm": 1.2516248226165771,
	"learning_rate": 9.766504711610507e-06,
	"loss": 1.7227,
	"step": 94
	},
	{
	"epoch": 0.38,
	"grad_norm": 1.2021214962005615,
	"learning_rate": 9.759934572870706e-06,
	"loss": 1.56,
	"step": 95
	},
	{
	"epoch": 0.384,
	"grad_norm": 1.317078709602356,
	"learning_rate": 9.753275548567192e-06,
	"loss": 1.7596,
	"step": 96
	},
	{
	"epoch": 0.388,
	"grad_norm": 1.2354626655578613,
	"learning_rate": 9.74652776304855e-06,
	"loss": 1.7374,
	"step": 97
	},
	{
	"epoch": 0.392,
	"grad_norm": 1.1409403085708618,
	"learning_rate": 9.739691342320866e-06,
	"loss": 1.5335,
	"step": 98
	},
	{
	"epoch": 0.396,
	"grad_norm": 1.2714933156967163,
	"learning_rate": 9.732766414045368e-06,
	"loss": 1.7353,
	"step": 99
	},
	{
	"epoch": 0.4,
	"grad_norm": 1.250701665878296,
	"learning_rate": 9.725753107536053e-06,
	"loss": 1.6501,
	"step": 100
	},
	{
	"epoch": 0.404,
	"grad_norm": 1.0238255262374878,
	"learning_rate": 9.718651553757266e-06,
	"loss": 1.3938,
	"step": 101
	},
	{
	"epoch": 0.408,
	"grad_norm": 1.1466556787490845,
	"learning_rate": 9.711461885321247e-06,
	"loss": 1.6982,
	"step": 102
	},
	{
	"epoch": 0.412,
	"grad_norm": 1.132495403289795,
	"learning_rate": 9.704184236485672e-06,
	"loss": 1.5833,
	"step": 103
	},
	{
	"epoch": 0.416,
	"grad_norm": 1.2290033102035522,
	"learning_rate": 9.696818743151128e-06,
	"loss": 1.616,
	"step": 104
	},
	{
	"epoch": 0.42,
	"grad_norm": 1.0731315612792969,
	"learning_rate": 9.68936554285859e-06,
	"loss": 1.4403,
	"step": 105
	},
	{
	"epoch": 0.424,
	"grad_norm": 1.17851984500885,
	"learning_rate": 9.68182477478684e-06,
	"loss": 1.6653,
	"step": 106
	},
	{
	"epoch": 0.428,
	"grad_norm": 1.2172232866287231,
	"learning_rate": 9.67419657974988e-06,
	"loss": 1.5907,
	"step": 107
	},
	{
	"epoch": 0.432,
	"grad_norm": 1.2712275981903076,
	"learning_rate": 9.66648110019429e-06,
	"loss": 1.6898,
	"step": 108
	},
	{
	"epoch": 0.436,
	"grad_norm": 1.1592316627502441,
	"learning_rate": 9.658678480196579e-06,
	"loss": 1.596,
	"step": 109
	},
	{
	"epoch": 0.44,
	"grad_norm": 1.132724404335022,
	"learning_rate": 9.650788865460487e-06,
	"loss": 1.5729,
	"step": 110
	},
	{
	"epoch": 0.444,
	"grad_norm": 1.1037116050720215,
	"learning_rate": 9.642812403314272e-06,
	"loss": 1.6798,
	"step": 111
	},
	{
	"epoch": 0.448,
	"grad_norm": 1.1293030977249146,
	"learning_rate": 9.634749242707948e-06,
	"loss": 1.6263,
	"step": 112
	},
	{
	"epoch": 0.452,
	"grad_norm": 1.1488841772079468,
	"learning_rate": 9.626599534210514e-06,
	"loss": 1.7044,
	"step": 113
	},
	{
	"epoch": 0.456,
	"grad_norm": 1.1456992626190186,
	"learning_rate": 9.618363430007134e-06,
	"loss": 1.637,
	"step": 114
	},
	{
	"epoch": 0.46,
	"grad_norm": 1.131826400756836,
	"learning_rate": 9.610041083896304e-06,
	"loss": 1.5681,
	"step": 115
	},
	{
	"epoch": 0.464,
	"grad_norm": 1.0559884309768677,
	"learning_rate": 9.60163265128697e-06,
	"loss": 1.521,
	"step": 116
	},
	{
	"epoch": 0.468,
	"grad_norm": 1.1588243246078491,
	"learning_rate": 9.593138289195634e-06,
	"loss": 1.5827,
	"step": 117
	},
	{
	"epoch": 0.472,
	"grad_norm": 1.1131339073181152,
	"learning_rate": 9.584558156243418e-06,
	"loss": 1.6897,
	"step": 118
	},
	{
	"epoch": 0.476,
	"grad_norm": 1.130588173866272,
	"learning_rate": 9.575892412653102e-06,
	"loss": 1.483,
	"step": 119
	},
	{
	"epoch": 0.48,
	"grad_norm": 1.136372685432434,
	"learning_rate": 9.567141220246136e-06,
	"loss": 1.5949,
	"step": 120
	},
	{
	"epoch": 0.484,
	"grad_norm": 1.1033318042755127,
	"learning_rate": 9.55830474243961e-06,
	"loss": 1.6146,
	"step": 121
	},
	{
	"epoch": 0.488,
	"grad_norm": 1.1151621341705322,
	"learning_rate": 9.549383144243213e-06,
	"loss": 1.6518,
	"step": 122
	},
	{
	"epoch": 0.492,
	"grad_norm": 1.2058076858520508,
	"learning_rate": 9.540376592256142e-06,
	"loss": 1.6342,
	"step": 123
	},
	{
	"epoch": 0.496,
	"grad_norm": 1.1145142316818237,
	"learning_rate": 9.531285254663997e-06,
	"loss": 1.6838,
	"step": 124
	},
	{
	"epoch": 0.5,
	"grad_norm": 1.1947275400161743,
	"learning_rate": 9.522109301235637e-06,
	"loss": 1.5949,
	"step": 125
	},
	{
	"epoch": 0.504,
	"grad_norm": 1.171634554862976,
	"learning_rate": 9.512848903320017e-06,
	"loss": 1.6209,
	"step": 126
	},
	{
	"epoch": 0.508,
	"grad_norm": 1.0351903438568115,
	"learning_rate": 9.503504233842973e-06,
	"loss": 1.4613,
	"step": 127
	},
	{
	"epoch": 0.512,
	"grad_norm": 0.9954378604888916,
	"learning_rate": 9.494075467304007e-06,
	"loss": 1.4866,
	"step": 128
	},
	{
	"epoch": 0.516,
	"grad_norm": 1.1588574647903442,
	"learning_rate": 9.484562779773027e-06,
	"loss": 1.5944,
	"step": 129
	},
	{
	"epoch": 0.52,
	"grad_norm": 1.1795620918273926,
	"learning_rate": 9.474966348887055e-06,
	"loss": 1.6563,
	"step": 130
	},
	{
	"epoch": 0.524,
	"grad_norm": 1.1187045574188232,
	"learning_rate": 9.465286353846905e-06,
	"loss": 1.561,
	"step": 131
	},
	{
	"epoch": 0.528,
	"grad_norm": 1.0760747194290161,
	"learning_rate": 9.455522975413846e-06,
	"loss": 1.4359,
	"step": 132
	},
	{
	"epoch": 0.532,
	"grad_norm": 1.1250879764556885,
	"learning_rate": 9.445676395906226e-06,
	"loss": 1.579,
	"step": 133
	},
	{
	"epoch": 0.536,
	"grad_norm": 1.14565908908844,
	"learning_rate": 9.435746799196061e-06,
	"loss": 1.6176,
	"step": 134
	},
	{
	"epoch": 0.54,
	"grad_norm": 1.1458956003189087,
	"learning_rate": 9.425734370705606e-06,
	"loss": 1.635,
	"step": 135
	},
	{
	"epoch": 0.544,
	"grad_norm": 1.1934502124786377,
	"learning_rate": 9.415639297403891e-06,
	"loss": 1.6134,
	"step": 136
	},
	{
	"epoch": 0.548,
	"grad_norm": 1.0963486433029175,
	"learning_rate": 9.40546176780323e-06,
	"loss": 1.6283,
	"step": 137
	},
	{
	"epoch": 0.552,
	"grad_norm": 1.089300513267517,
	"learning_rate": 9.395201971955701e-06,
	"loss": 1.6247,
	"step": 138
	},
	{
	"epoch": 0.556,
	"grad_norm": 1.1173641681671143,
	"learning_rate": 9.384860101449598e-06,
	"loss": 1.6772,
	"step": 139
	},
	{
	"epoch": 0.56,
	"grad_norm": 1.139262080192566,
	"learning_rate": 9.374436349405847e-06,
	"loss": 1.7146,
	"step": 140
	},
	{
	"epoch": 0.564,
	"grad_norm": 1.1153786182403564,
	"learning_rate": 9.36393091047441e-06,
	"loss": 1.5462,
	"step": 141
	},
	{
	"epoch": 0.568,
	"grad_norm": 1.1419354677200317,
	"learning_rate": 9.353343980830644e-06,
	"loss": 1.5408,
	"step": 142
	},
	{
	"epoch": 0.572,
	"grad_norm": 1.2222529649734497,
	"learning_rate": 9.342675758171638e-06,
	"loss": 1.6216,
	"step": 143
	},
	{
	"epoch": 0.576,
	"grad_norm": 1.1209079027175903,
	"learning_rate": 9.331926441712522e-06,
	"loss": 1.4746,
	"step": 144
	},
	{
	"epoch": 0.58,
	"grad_norm": 1.0842020511627197,
	"learning_rate": 9.32109623218275e-06,
	"loss": 1.6418,
	"step": 145
	},
	{
	"epoch": 0.584,
	"grad_norm": 1.1870988607406616,
	"learning_rate": 9.310185331822338e-06,
	"loss": 1.675,
	"step": 146
	},
	{
	"epoch": 0.588,
	"grad_norm": 1.1172236204147339,
	"learning_rate": 9.299193944378112e-06,
	"loss": 1.6609,
	"step": 147
	},
	{
	"epoch": 0.592,
	"grad_norm": 1.12311851978302,
	"learning_rate": 9.28812227509988e-06,
	"loss": 1.5276,
	"step": 148
	},
	{
	"epoch": 0.596,
	"grad_norm": 1.1734628677368164,
	"learning_rate": 9.27697053073661e-06,
	"loss": 1.5647,
	"step": 149
	},
	{
	"epoch": 0.6,
	"grad_norm": 1.156967043876648,
	"learning_rate": 9.26573891953257e-06,
	"loss": 1.594,
	"step": 150
	},
	{
	"epoch": 0.604,
	"grad_norm": 1.249269962310791,
	"learning_rate": 9.254427651223434e-06,
	"loss": 1.6792,
	"step": 151
	},
	{
	"epoch": 0.608,
	"grad_norm": 1.0864014625549316,
	"learning_rate": 9.243036937032373e-06,
	"loss": 1.4722,
	"step": 152
	},
	{
	"epoch": 0.612,
	"grad_norm": 1.1315494775772095,
	"learning_rate": 9.2315669896661e-06,
	"loss": 1.6805,
	"step": 153
	},
	{
	"epoch": 0.616,
	"grad_norm": 1.224092960357666,
	"learning_rate": 9.220018023310908e-06,
	"loss": 1.6779,
	"step": 154
	},
	{
	"epoch": 0.62,
	"grad_norm": 1.1818524599075317,
	"learning_rate": 9.208390253628667e-06,
	"loss": 1.7031,
	"step": 155
	},
	{
	"epoch": 0.624,
	"grad_norm": 1.1494390964508057,
	"learning_rate": 9.196683897752794e-06,
	"loss": 1.6261,
	"step": 156
	},
	{
	"epoch": 0.628,
	"grad_norm": 1.0383175611495972,
	"learning_rate": 9.184899174284201e-06,
	"loss": 1.4572,
	"step": 157
	},
	{
	"epoch": 0.632,
	"grad_norm": 1.1242049932479858,
	"learning_rate": 9.173036303287215e-06,
	"loss": 1.5738,
	"step": 158
	},
	{
	"epoch": 0.636,
	"grad_norm": 1.0787436962127686,
	"learning_rate": 9.16109550628546e-06,
	"loss": 1.5038,
	"step": 159
	},
	{
	"epoch": 0.64,
	"grad_norm": 1.0636624097824097,
	"learning_rate": 9.149077006257734e-06,
	"loss": 1.5432,
	"step": 160
	},
	{
	"epoch": 0.644,
	"grad_norm": 1.1137751340866089,
	"learning_rate": 9.136981027633834e-06,
	"loss": 1.527,
	"step": 161
	},
	{
	"epoch": 0.648,
	"grad_norm": 1.1208561658859253,
	"learning_rate": 9.124807796290366e-06,
	"loss": 1.6232,
	"step": 162
	},
	{
	"epoch": 0.652,
	"grad_norm": 1.1151702404022217,
	"learning_rate": 9.112557539546535e-06,
	"loss": 1.6379,
	"step": 163
	},
	{
	"epoch": 0.656,
	"grad_norm": 1.083153247833252,
	"learning_rate": 9.100230486159893e-06,
	"loss": 1.6621,
	"step": 164
	},
	{
	"epoch": 0.66,
	"grad_norm": 1.1297736167907715,
	"learning_rate": 9.087826866322065e-06,
	"loss": 1.4921,
	"step": 165
	},
	{
	"epoch": 0.664,
	"grad_norm": 1.0946112871170044,
	"learning_rate": 9.075346911654456e-06,
	"loss": 1.5721,
	"step": 166
	},
	{
	"epoch": 0.668,
	"grad_norm": 1.1505929231643677,
	"learning_rate": 9.062790855203932e-06,
	"loss": 1.6374,
	"step": 167
	},
	{
	"epoch": 0.672,
	"grad_norm": 1.0435446500778198,
	"learning_rate": 9.050158931438451e-06,
	"loss": 1.4502,
	"step": 168
	},
	{
	"epoch": 0.676,
	"grad_norm": 1.010459065437317,
	"learning_rate": 9.037451376242696e-06,
	"loss": 1.422,
	"step": 169
	},
	{
	"epoch": 0.68,
	"grad_norm": 1.1430541276931763,
	"learning_rate": 9.024668426913671e-06,
	"loss": 1.5824,
	"step": 170
	},
	{
	"epoch": 0.684,
	"grad_norm": 1.1869382858276367,
	"learning_rate": 9.011810322156269e-06,
	"loss": 1.6054,
	"step": 171
	},
	{
	"epoch": 0.688,
	"grad_norm": 1.0964624881744385,
	"learning_rate": 8.998877302078803e-06,
	"loss": 1.5688,
	"step": 172
	},
	{
	"epoch": 0.692,
	"grad_norm": 1.1466578245162964,
	"learning_rate": 8.985869608188545e-06,
	"loss": 1.6124,
	"step": 173
	},
	{
	"epoch": 0.696,
	"grad_norm": 1.1571404933929443,
	"learning_rate": 8.97278748338719e-06,
	"loss": 1.596,
	"step": 174
	},
	{
	"epoch": 0.7,
	"grad_norm": 1.113532304763794,
	"learning_rate": 8.95963117196634e-06,
	"loss": 1.5243,
	"step": 175
	},
	{
	"epoch": 0.704,
	"grad_norm": 1.1856666803359985,
	"learning_rate": 8.946400919602933e-06,
	"loss": 1.6771,
	"step": 176
	},
	{
	"epoch": 0.708,
	"grad_norm": 1.1261265277862549,
	"learning_rate": 8.933096973354665e-06,
	"loss": 1.536,
	"step": 177
	},
	{
	"epoch": 0.712,
	"grad_norm": 1.05485999584198,
	"learning_rate": 8.919719581655357e-06,
	"loss": 1.4499,
	"step": 178
	},
	{
	"epoch": 0.716,
	"grad_norm": 1.1247637271881104,
	"learning_rate": 8.906268994310339e-06,
	"loss": 1.6361,
	"step": 179
	},
	{
	"epoch": 0.72,
	"grad_norm": 1.078016757965088,
	"learning_rate": 8.892745462491763e-06,
	"loss": 1.5291,
	"step": 180
	},
	{
	"epoch": 0.724,
	"grad_norm": 1.1105468273162842,
	"learning_rate": 8.879149238733932e-06,
	"loss": 1.6288,
	"step": 181
	},
	{
	"epoch": 0.728,
	"grad_norm": 1.1930553913116455,
	"learning_rate": 8.865480576928578e-06,
	"loss": 1.6732,
	"step": 182
	},
	{
	"epoch": 0.732,
	"grad_norm": 1.2254596948623657,
	"learning_rate": 8.851739732320109e-06,
	"loss": 1.7128,
	"step": 183
	},
	{
	"epoch": 0.736,
	"grad_norm": 1.1654362678527832,
	"learning_rate": 8.83792696150086e-06,
	"loss": 1.684,
	"step": 184
	},
	{
	"epoch": 0.74,
	"grad_norm": 1.0579456090927124,
	"learning_rate": 8.824042522406295e-06,
	"loss": 1.5169,
	"step": 185
	},
	{
	"epoch": 0.744,
	"grad_norm": 1.1619398593902588,
	"learning_rate": 8.810086674310184e-06,
	"loss": 1.5584,
	"step": 186
	},
	{
	"epoch": 0.748,
	"grad_norm": 1.146817922592163,
	"learning_rate": 8.796059677819773e-06,
	"loss": 1.5477,
	"step": 187
	},
	{
	"epoch": 0.752,
	"grad_norm": 1.172471523284912,
	"learning_rate": 8.781961794870903e-06,
	"loss": 1.5598,
	"step": 188
	},
	{
	"epoch": 0.756,
	"grad_norm": 1.0627797842025757,
	"learning_rate": 8.767793288723137e-06,
	"loss": 1.435,
	"step": 189
	},
	{
	"epoch": 0.76,
	"grad_norm": 1.0832802057266235,
	"learning_rate": 8.753554423954828e-06,
	"loss": 1.5646,
	"step": 190
	},
	{
	"epoch": 0.764,
	"grad_norm": 1.174402117729187,
	"learning_rate": 8.739245466458187e-06,
	"loss": 1.6775,
	"step": 191
	},
	{
	"epoch": 0.768,
	"grad_norm": 1.0686759948730469,
	"learning_rate": 8.72486668343431e-06,
	"loss": 1.5038,
	"step": 192
	},
	{
	"epoch": 0.772,
	"grad_norm": 1.1129603385925293,
	"learning_rate": 8.7104183433882e-06,
	"loss": 1.6307,
	"step": 193
	},
	{
	"epoch": 0.776,
	"grad_norm": 1.1385724544525146,
	"learning_rate": 8.695900716123744e-06,
	"loss": 1.6571,
	"step": 194
	},
	{
	"epoch": 0.78,
	"grad_norm": 1.1305854320526123,
	"learning_rate": 8.681314072738678e-06,
	"loss": 1.5723,
	"step": 195
	},
	{
	"epoch": 0.784,
	"grad_norm": 1.0489332675933838,
	"learning_rate": 8.666658685619523e-06,
	"loss": 1.4929,
	"step": 196
	},
	{
	"epoch": 0.788,
	"grad_norm": 1.0210576057434082,
	"learning_rate": 8.651934828436497e-06,
	"loss": 1.49,
	"step": 197
	},
	{
	"epoch": 0.792,
	"grad_norm": 1.0986818075180054,
	"learning_rate": 8.637142776138415e-06,
	"loss": 1.5993,
	"step": 198
	},
	{
	"epoch": 0.796,
	"grad_norm": 1.1953257322311401,
	"learning_rate": 8.622282804947537e-06,
	"loss": 1.6812,
	"step": 199
	},
	{
	"epoch": 0.8,
	"grad_norm": 1.0130163431167603,
	"learning_rate": 8.607355192354425e-06,
	"loss": 1.4005,
	"step": 200
	},
	{
	"epoch": 0.804,
	"grad_norm": 1.1401948928833008,
	"learning_rate": 8.592360217112759e-06,
	"loss": 1.561,
	"step": 201
	},
	{
	"epoch": 0.808,
	"grad_norm": 0.987301230430603,
	"learning_rate": 8.57729815923412e-06,
	"loss": 1.4176,
	"step": 202
	},
	{
	"epoch": 0.812,
	"grad_norm": 1.0538125038146973,
	"learning_rate": 8.562169299982776e-06,
	"loss": 1.5314,
	"step": 203
	},
	{
	"epoch": 0.816,
	"grad_norm": 1.0923703908920288,
	"learning_rate": 8.546973921870421e-06,
	"loss": 1.6202,
	"step": 204
	},
	{
	"epoch": 0.82,
	"grad_norm": 1.0940260887145996,
	"learning_rate": 8.531712308650904e-06,
	"loss": 1.5696,
	"step": 205
	},
	{
	"epoch": 0.824,
	"grad_norm": 1.1966121196746826,
	"learning_rate": 8.516384745314926e-06,
	"loss": 1.5481,
	"step": 206
	},
	{
	"epoch": 0.828,
	"grad_norm": 1.1779595613479614,
	"learning_rate": 8.50099151808472e-06,
	"loss": 1.7129,
	"step": 207
	},
	{
	"epoch": 0.832,
	"grad_norm": 1.1340051889419556,
	"learning_rate": 8.485532914408712e-06,
	"loss": 1.5981,
	"step": 208
	},
	{
	"epoch": 0.836,
	"grad_norm": 1.1155678033828735,
	"learning_rate": 8.470009222956138e-06,
	"loss": 1.5525,
	"step": 209
	},
	{
	"epoch": 0.84,
	"grad_norm": 1.070615291595459,
	"learning_rate": 8.45442073361167e-06,
	"loss": 1.4464,
	"step": 210
	},
	{
	"epoch": 0.844,
	"grad_norm": 1.1107968091964722,
	"learning_rate": 8.438767737469995e-06,
	"loss": 1.5798,
	"step": 211
	},
	{
	"epoch": 0.848,
	"grad_norm": 1.063432216644287,
	"learning_rate": 8.42305052683038e-06,
	"loss": 1.4508,
	"step": 212
	},
	{
	"epoch": 0.852,
	"grad_norm": 1.0105587244033813,
	"learning_rate": 8.407269395191216e-06,
	"loss": 1.3754,
	"step": 213
	},
	{
	"epoch": 0.856,
	"grad_norm": 1.0751416683197021,
	"learning_rate": 8.391424637244528e-06,
	"loss": 1.4729,
	"step": 214
	},
	{
	"epoch": 0.86,
	"grad_norm": 1.0858322381973267,
	"learning_rate": 8.375516548870489e-06,
	"loss": 1.5444,
	"step": 215
	},
	{
	"epoch": 0.864,
	"grad_norm": 1.1059919595718384,
	"learning_rate": 8.359545427131876e-06,
	"loss": 1.6031,
	"step": 216
	},
	{
	"epoch": 0.868,
	"grad_norm": 1.1045112609863281,
	"learning_rate": 8.343511570268541e-06,
	"loss": 1.5575,
	"step": 217
	},
	{
	"epoch": 0.872,
	"grad_norm": 1.1263505220413208,
	"learning_rate": 8.327415277691824e-06,
	"loss": 1.7264,
	"step": 218
	},
	{
	"epoch": 0.876,
	"grad_norm": 0.9825512766838074,
	"learning_rate": 8.311256849978974e-06,
	"loss": 1.4317,
	"step": 219
	},
	{
	"epoch": 0.88,
	"grad_norm": 1.1695114374160767,
	"learning_rate": 8.295036588867533e-06,
	"loss": 1.6651,
	"step": 220
	},
	{
	"epoch": 0.884,
	"grad_norm": 1.1236516237258911,
	"learning_rate": 8.278754797249702e-06,
	"loss": 1.4861,
	"step": 221
	},
	{
	"epoch": 0.888,
	"grad_norm": 1.051235556602478,
	"learning_rate": 8.262411779166681e-06,
	"loss": 1.4007,
	"step": 222
	},
	{
	"epoch": 0.892,
	"grad_norm": 1.0410888195037842,
	"learning_rate": 8.246007839802997e-06,
	"loss": 1.4743,
	"step": 223
	},
	{
	"epoch": 0.896,
	"grad_norm": 1.1544384956359863,
	"learning_rate": 8.229543285480797e-06,
	"loss": 1.6406,
	"step": 224
	},
	{
	"epoch": 0.9,
	"grad_norm": 1.0394105911254883,
	"learning_rate": 8.213018423654144e-06,
	"loss": 1.4245,
	"step": 225
	},
	{
	"epoch": 0.904,
	"grad_norm": 1.1784744262695312,
	"learning_rate": 8.196433562903252e-06,
	"loss": 1.6525,
	"step": 226
	},
	{
	"epoch": 0.908,
	"grad_norm": 1.1253184080123901,
	"learning_rate": 8.179789012928747e-06,
	"loss": 1.6654,
	"step": 227
	},
	{
	"epoch": 0.912,
	"grad_norm": 1.069104790687561,
	"learning_rate": 8.163085084545867e-06,
	"loss": 1.5051,
	"step": 228
	},
	{
	"epoch": 0.916,
	"grad_norm": 1.159909725189209,
	"learning_rate": 8.146322089678668e-06,
	"loss": 1.6088,
	"step": 229
	},
	{
	"epoch": 0.92,
	"grad_norm": 1.1648914813995361,
	"learning_rate": 8.129500341354192e-06,
	"loss": 1.6361,
	"step": 230
	},
	{
	"epoch": 0.924,
	"grad_norm": 1.210420846939087,
	"learning_rate": 8.11262015369663e-06,
	"loss": 1.5875,
	"step": 231
	},
	{
	"epoch": 0.928,
	"grad_norm": 1.0989888906478882,
	"learning_rate": 8.095681841921441e-06,
	"loss": 1.4767,
	"step": 232
	},
	{
	"epoch": 0.932,
	"grad_norm": 1.1087747812271118,
	"learning_rate": 8.07868572232949e-06,
	"loss": 1.6273,
	"step": 233
	},
	{
	"epoch": 0.936,
	"grad_norm": 1.084105372428894,
	"learning_rate": 8.061632112301122e-06,
	"loss": 1.4738,
	"step": 234
	},
	{
	"epoch": 0.94,
	"grad_norm": 0.9671852588653564,
	"learning_rate": 8.044521330290235e-06,
	"loss": 1.4113,
	"step": 235
	},
	{
	"epoch": 0.944,
	"grad_norm": 1.1065040826797485,
	"learning_rate": 8.027353695818345e-06,
	"loss": 1.638,
	"step": 236
	},
	{
	"epoch": 0.948,
	"grad_norm": 1.0876044034957886,
	"learning_rate": 8.010129529468614e-06,
	"loss": 1.6306,
	"step": 237
	},
	{
	"epoch": 0.952,
	"grad_norm": 0.9932905435562134,
	"learning_rate": 7.992849152879857e-06,
	"loss": 1.4351,
	"step": 238
	},
	{
	"epoch": 0.956,
	"grad_norm": 1.1644636392593384,
	"learning_rate": 7.97551288874055e-06,
	"loss": 1.6443,
	"step": 239
	},
	{
	"epoch": 0.96,
	"grad_norm": 1.0954689979553223,
	"learning_rate": 7.95812106078279e-06,
	"loss": 1.5673,
	"step": 240
	},
	{
	"epoch": 0.964,
	"grad_norm": 1.0761327743530273,
	"learning_rate": 7.940673993776258e-06,
	"loss": 1.6377,
	"step": 241
	},
	{
	"epoch": 0.968,
	"grad_norm": 1.1261701583862305,
	"learning_rate": 7.923172013522153e-06,
	"loss": 1.4997,
	"step": 242
	},
	{
	"epoch": 0.972,
	"grad_norm": 1.02078378200531,
	"learning_rate": 7.905615446847107e-06,
	"loss": 1.5016,
	"step": 243
	},
	{
	"epoch": 0.976,
	"grad_norm": 1.1258933544158936,
	"learning_rate": 7.888004621597079e-06,
	"loss": 1.6324,
	"step": 244
	},
	{
	"epoch": 0.98,
	"grad_norm": 1.1257457733154297,
	"learning_rate": 7.87033986663124e-06,
	"loss": 1.6362,
	"step": 245
	},
	{
	"epoch": 0.984,
	"grad_norm": 0.9650360345840454,
	"learning_rate": 7.852621511815825e-06,
	"loss": 1.3149,
	"step": 246
	},
	{
	"epoch": 0.988,
	"grad_norm": 1.1130248308181763,
	"learning_rate": 7.834849888017979e-06,
	"loss": 1.4682,
	"step": 247
	},
	{
	"epoch": 0.992,
	"grad_norm": 1.1328444480895996,
	"learning_rate": 7.817025327099574e-06,
	"loss": 1.6527,
	"step": 248
	},
	{
	"epoch": 0.996,
	"grad_norm": 1.121050477027893,
	"learning_rate": 7.799148161911013e-06,
	"loss": 1.5897,
	"step": 249
	},
	{
	"epoch": 1.0,
	"grad_norm": 1.1452186107635498,
	"learning_rate": 7.781218726285014e-06,
	"loss": 1.6552,
	"step": 250
	},
	{
	"epoch": 1.004,
	"grad_norm": 1.1528308391571045,
	"learning_rate": 7.763237355030384e-06,
	"loss": 1.3685,
	"step": 251
	},
	{
	"epoch": 1.008,
	"grad_norm": 1.1793309450149536,
	"learning_rate": 7.745204383925753e-06,
	"loss": 1.4457,
	"step": 252
	},
	{
	"epoch": 1.012,
	"grad_norm": 1.0134292840957642,
	"learning_rate": 7.727120149713313e-06,
	"loss": 1.2752,
	"step": 253
	},
	{
	"epoch": 1.016,
	"grad_norm": 1.0486788749694824,
	"learning_rate": 7.708984990092528e-06,
	"loss": 1.3084,
	"step": 254
	},
	{
	"epoch": 1.02,
	"grad_norm": 0.9185591340065002,
	"learning_rate": 7.690799243713825e-06,
	"loss": 1.2601,
	"step": 255
	},
	{
	"epoch": 1.024,
	"grad_norm": 0.9956145286560059,
	"learning_rate": 7.672563250172278e-06,
	"loss": 1.3297,
	"step": 256
	},
	{
	"epoch": 1.028,
	"grad_norm": 1.016332745552063,
	"learning_rate": 7.654277350001255e-06,
	"loss": 1.3232,
	"step": 257
	},
	{
	"epoch": 1.032,
	"grad_norm": 0.9748119711875916,
	"learning_rate": 7.635941884666072e-06,
	"loss": 1.3335,
	"step": 258
	},
	{
	"epoch": 1.036,
	"grad_norm": 1.0344090461730957,
	"learning_rate": 7.617557196557601e-06,
	"loss": 1.3389,
	"step": 259
	},
	{
	"epoch": 1.04,
	"grad_norm": 1.0641359090805054,
	"learning_rate": 7.599123628985894e-06,
	"loss": 1.335,
	"step": 260
	},
	{
	"epoch": 1.044,
	"grad_norm": 0.8922262191772461,
	"learning_rate": 7.580641526173758e-06,
	"loss": 1.1117,
	"step": 261
	},
	{
	"epoch": 1.048,
	"grad_norm": 1.0811434984207153,
	"learning_rate": 7.5621112332503325e-06,
	"loss": 1.2934,
	"step": 262
	},
	{
	"epoch": 1.052,
	"grad_norm": 1.0639779567718506,
	"learning_rate": 7.543533096244644e-06,
	"loss": 1.3728,
	"step": 263
	},
	{
	"epoch": 1.056,
	"grad_norm": 0.9719051122665405,
	"learning_rate": 7.524907462079149e-06,
	"loss": 1.2263,
	"step": 264
	},
	{
	"epoch": 1.06,
	"grad_norm": 1.0336952209472656,
	"learning_rate": 7.506234678563248e-06,
	"loss": 1.4345,
	"step": 265
	},
	{
	"epoch": 1.064,
	"grad_norm": 1.0820680856704712,
	"learning_rate": 7.487515094386792e-06,
	"loss": 1.2944,
	"step": 266
	},
	{
	"epoch": 1.068,
	"grad_norm": 1.0462226867675781,
	"learning_rate": 7.468749059113578e-06,
	"loss": 1.3447,
	"step": 267
	},
	{
	"epoch": 1.072,
	"grad_norm": 1.0974781513214111,
	"learning_rate": 7.449936923174813e-06,
	"loss": 1.4944,
	"step": 268
	},
	{
	"epoch": 1.076,
	"grad_norm": 0.9548144340515137,
	"learning_rate": 7.431079037862575e-06,
	"loss": 1.3046,
	"step": 269
	},
	{
	"epoch": 1.08,
	"grad_norm": 0.9887881875038147,
	"learning_rate": 7.412175755323254e-06,
	"loss": 1.2941,
	"step": 270
	},
	{
	"epoch": 1.084,
	"grad_norm": 1.031455159187317,
	"learning_rate": 7.39322742855097e-06,
	"loss": 1.3129,
	"step": 271
	},
	{
	"epoch": 1.088,
	"grad_norm": 0.9989827871322632,
	"learning_rate": 7.374234411380987e-06,
	"loss": 1.2758,
	"step": 272
	},
	{
	"epoch": 1.092,
	"grad_norm": 1.0414865016937256,
	"learning_rate": 7.355197058483103e-06,
	"loss": 1.2781,
	"step": 273
	},
	{
	"epoch": 1.096,
	"grad_norm": 1.0758367776870728,
	"learning_rate": 7.336115725355033e-06,
	"loss": 1.2932,
	"step": 274
	},
	{
	"epoch": 1.1,
	"grad_norm": 0.9883400797843933,
	"learning_rate": 7.316990768315757e-06,
	"loss": 1.3513,
	"step": 275
	},
	{
	"epoch": 1.104,
	"grad_norm": 1.07712984085083,
	"learning_rate": 7.297822544498879e-06,
	"loss": 1.2704,
	"step": 276
	},
	{
	"epoch": 1.108,
	"grad_norm": 0.9456796050071716,
	"learning_rate": 7.2786114118459564e-06,
	"loss": 1.2326,
	"step": 277
	},
	{
	"epoch": 1.112,
	"grad_norm": 0.8864812254905701,
	"learning_rate": 7.259357729099805e-06,
	"loss": 1.1043,
	"step": 278
	},
	{
	"epoch": 1.116,
	"grad_norm": 1.09107506275177,
	"learning_rate": 7.240061855797818e-06,
	"loss": 1.3225,
	"step": 279
	},
	{
	"epoch": 1.12,
	"grad_norm": 0.9345561861991882,
	"learning_rate": 7.220724152265234e-06,
	"loss": 1.2604,
	"step": 280
	},
	{
	"epoch": 1.124,
	"grad_norm": 0.9008955359458923,
	"learning_rate": 7.201344979608423e-06,
	"loss": 1.1904,
	"step": 281
	},
	{
	"epoch": 1.1280000000000001,
	"grad_norm": 1.0470987558364868,
	"learning_rate": 7.181924699708127e-06,
	"loss": 1.4107,
	"step": 282
	},
	{
	"epoch": 1.1320000000000001,
	"grad_norm": 1.0424591302871704,
	"learning_rate": 7.162463675212726e-06,
	"loss": 1.3053,
	"step": 283
	},
	{
	"epoch": 1.1360000000000001,
	"grad_norm": 0.9431308507919312,
	"learning_rate": 7.142962269531439e-06,
	"loss": 1.2126,
	"step": 284
	},
	{
	"epoch": 1.1400000000000001,
	"grad_norm": 1.0488431453704834,
	"learning_rate": 7.12342084682756e-06,
	"loss": 1.3095,
	"step": 285
	},
	{
	"epoch": 1.144,
	"grad_norm": 1.0937862396240234,
	"learning_rate": 7.1038397720116445e-06,
	"loss": 1.4235,
	"step": 286
	},
	{
	"epoch": 1.148,
	"grad_norm": 1.033434510231018,
	"learning_rate": 7.084219410734701e-06,
	"loss": 1.3203,
	"step": 287
	},
	{
	"epoch": 1.152,
	"grad_norm": 1.036313772201538,
	"learning_rate": 7.064560129381359e-06,
	"loss": 1.2603,
	"step": 288
	},
	{
	"epoch": 1.156,
	"grad_norm": 1.0411490201950073,
	"learning_rate": 7.0448622950630305e-06,
	"loss": 1.2209,
	"step": 289
	},
	{
	"epoch": 1.16,
	"grad_norm": 1.007789969444275,
	"learning_rate": 7.025126275611058e-06,
	"loss": 1.23,
	"step": 290
	},
	{
	"epoch": 1.164,
	"grad_norm": 1.0624102354049683,
	"learning_rate": 7.0053524395698345e-06,
	"loss": 1.3177,
	"step": 291
	},
	{
	"epoch": 1.168,
	"grad_norm": 0.9933396577835083,
	"learning_rate": 6.985541156189932e-06,
	"loss": 1.2976,
	"step": 292
	},
	{
	"epoch": 1.172,
	"grad_norm": 1.1039681434631348,
	"learning_rate": 6.965692795421206e-06,
	"loss": 1.4093,
	"step": 293
	},
	{
	"epoch": 1.176,
	"grad_norm": 1.0943962335586548,
	"learning_rate": 6.945807727905876e-06,
	"loss": 1.3604,
	"step": 294
	},
	{
	"epoch": 1.18,
	"grad_norm": 1.1898424625396729,
	"learning_rate": 6.925886324971619e-06,
	"loss": 1.4917,
	"step": 295
	},
	{
	"epoch": 1.184,
	"grad_norm": 1.181394338607788,
	"learning_rate": 6.905928958624627e-06,
	"loss": 1.4781,
	"step": 296
	},
	{
	"epoch": 1.188,
	"grad_norm": 1.0346969366073608,
	"learning_rate": 6.885936001542658e-06,
	"loss": 1.3176,
	"step": 297
	},
	{
	"epoch": 1.192,
	"grad_norm": 1.0920255184173584,
	"learning_rate": 6.865907827068085e-06,
	"loss": 1.3288,
	"step": 298
	},
	{
	"epoch": 1.196,
	"grad_norm": 1.0821036100387573,
	"learning_rate": 6.845844809200918e-06,
	"loss": 1.3529,
	"step": 299
	},
	{
	"epoch": 1.2,
	"grad_norm": 1.0587323904037476,
	"learning_rate": 6.82574732259182e-06,
	"loss": 1.3266,
	"step": 300
	},
	{
	"epoch": 1.204,
	"grad_norm": 1.0351879596710205,
	"learning_rate": 6.805615742535117e-06,
	"loss": 1.3113,
	"step": 301
	},
	{
	"epoch": 1.208,
	"grad_norm": 1.1247234344482422,
	"learning_rate": 6.785450444961783e-06,
	"loss": 1.3628,
	"step": 302
	},
	{
	"epoch": 1.212,
	"grad_norm": 0.9813088774681091,
	"learning_rate": 6.765251806432423e-06,
	"loss": 1.2814,
	"step": 303
	},
	{
	"epoch": 1.216,
	"grad_norm": 0.9769037961959839,
	"learning_rate": 6.7450202041302404e-06,
	"loss": 1.2868,
	"step": 304
	},
	{
	"epoch": 1.22,
	"grad_norm": 1.0350134372711182,
	"learning_rate": 6.724756015853994e-06,
	"loss": 1.2903,
	"step": 305
	},
	{
	"epoch": 1.224,
	"grad_norm": 0.9875354170799255,
	"learning_rate": 6.704459620010945e-06,
	"loss": 1.388,
	"step": 306
	},
	{
	"epoch": 1.228,
	"grad_norm": 1.156988501548767,
	"learning_rate": 6.684131395609784e-06,
	"loss": 1.4401,
	"step": 307
	},
	{
	"epoch": 1.232,
	"grad_norm": 1.0350157022476196,
	"learning_rate": 6.663771722253567e-06,
	"loss": 1.3627,
	"step": 308
	},
	{
	"epoch": 1.236,
	"grad_norm": 1.099228858947754,
	"learning_rate": 6.643380980132608e-06,
	"loss": 1.4149,
	"step": 309
	},
	{
	"epoch": 1.24,
	"grad_norm": 0.9770938754081726,
	"learning_rate": 6.622959550017397e-06,
	"loss": 1.2515,
	"step": 310
	},
	{
	"epoch": 1.244,
	"grad_norm": 0.9782474637031555,
	"learning_rate": 6.602507813251478e-06,
	"loss": 1.2768,
	"step": 311
	},
	{
	"epoch": 1.248,
	"grad_norm": 1.0403162240982056,
	"learning_rate": 6.5820261517443365e-06,
	"loss": 1.3037,
	"step": 312
	},
	{
	"epoch": 1.252,
	"grad_norm": 1.0825715065002441,
	"learning_rate": 6.561514947964258e-06,
	"loss": 1.3063,
	"step": 313
	},
	{
	"epoch": 1.256,
	"grad_norm": 0.9935280680656433,
	"learning_rate": 6.540974584931199e-06,
	"loss": 1.2613,
	"step": 314
	},
	{
	"epoch": 1.26,
	"grad_norm": 1.0176899433135986,
	"learning_rate": 6.520405446209615e-06,
	"loss": 1.3171,
	"step": 315
	},
	{
	"epoch": 1.264,
	"grad_norm": 1.0019985437393188,
	"learning_rate": 6.4998079159013236e-06,
	"loss": 1.2588,
	"step": 316
	},
	{
	"epoch": 1.268,
	"grad_norm": 0.966647207736969,
	"learning_rate": 6.479182378638308e-06,
	"loss": 1.2583,
	"step": 317
	},
	{
	"epoch": 1.272,
	"grad_norm": 1.0037215948104858,
	"learning_rate": 6.458529219575551e-06,
	"loss": 1.1899,
	"step": 318
	},
	{
	"epoch": 1.276,
	"grad_norm": 1.1131309270858765,
	"learning_rate": 6.437848824383832e-06,
	"loss": 1.4575,
	"step": 319
	},
	{
	"epoch": 1.28,
	"grad_norm": 0.9740872383117676,
	"learning_rate": 6.417141579242532e-06,
	"loss": 1.2475,
	"step": 320
	},
	{
	"epoch": 1.284,
	"grad_norm": 1.0149080753326416,
	"learning_rate": 6.396407870832419e-06,
	"loss": 1.2164,
	"step": 321
	},
	{
	"epoch": 1.288,
	"grad_norm": 0.9826841950416565,
	"learning_rate": 6.375648086328431e-06,
	"loss": 1.217,
	"step": 322
	},
	{
	"epoch": 1.292,
	"grad_norm": 1.0243743658065796,
	"learning_rate": 6.354862613392436e-06,
	"loss": 1.3661,
	"step": 323
	},
	{
	"epoch": 1.296,
	"grad_norm": 1.0462455749511719,
	"learning_rate": 6.334051840166006e-06,
	"loss": 1.2995,
	"step": 324
	},
	{
	"epoch": 1.3,
	"grad_norm": 1.05907142162323,
	"learning_rate": 6.313216155263161e-06,
	"loss": 1.4628,
	"step": 325
	},
	{
	"epoch": 1.304,
	"grad_norm": 1.0152286291122437,
	"learning_rate": 6.292355947763114e-06,
	"loss": 1.2515,
	"step": 326
	},
	{
	"epoch": 1.308,
	"grad_norm": 0.9773034453392029,
	"learning_rate": 6.271471607203006e-06,
	"loss": 1.2588,
	"step": 327
	},
	{
	"epoch": 1.312,
	"grad_norm": 0.9034001231193542,
	"learning_rate": 6.25056352357063e-06,
	"loss": 1.1689,
	"step": 328
	},
	{
	"epoch": 1.316,
	"grad_norm": 1.0075790882110596,
	"learning_rate": 6.2296320872971515e-06,
	"loss": 1.3249,
	"step": 329
	},
	{
	"epoch": 1.32,
	"grad_norm": 1.0259512662887573,
	"learning_rate": 6.208677689249816e-06,
	"loss": 1.3706,
	"step": 330
	},
	{
	"epoch": 1.324,
	"grad_norm": 1.1131854057312012,
	"learning_rate": 6.187700720724648e-06,
	"loss": 1.3719,
	"step": 331
	},
	{
	"epoch": 1.328,
	"grad_norm": 0.9339361786842346,
	"learning_rate": 6.16670157343915e-06,
	"loss": 1.1862,
	"step": 332
	},
	{
	"epoch": 1.332,
	"grad_norm": 1.0028992891311646,
	"learning_rate": 6.14568063952498e-06,
	"loss": 1.2042,
	"step": 333
	},
	{
	"epoch": 1.336,
	"grad_norm": 1.0733510255813599,
	"learning_rate": 6.124638311520634e-06,
	"loss": 1.3601,
	"step": 334
	},
	{
	"epoch": 1.34,
	"grad_norm": 1.1401326656341553,
	"learning_rate": 6.103574982364118e-06,
	"loss": 1.3899,
	"step": 335
	},
	{
	"epoch": 1.3439999999999999,
	"grad_norm": 0.9714714884757996,
	"learning_rate": 6.082491045385601e-06,
	"loss": 1.2551,
	"step": 336
	},
	{
	"epoch": 1.3479999999999999,
	"grad_norm": 0.9906610250473022,
	"learning_rate": 6.061386894300082e-06,
	"loss": 1.2254,
	"step": 337
	},
	{
	"epoch": 1.3519999999999999,
	"grad_norm": 1.0056389570236206,
	"learning_rate": 6.0402629232000275e-06,
	"loss": 1.3712,
	"step": 338
	},
	{
	"epoch": 1.3559999999999999,
	"grad_norm": 1.0775071382522583,
	"learning_rate": 6.01911952654802e-06,
	"loss": 1.4343,
	"step": 339
	},
	{
	"epoch": 1.3599999999999999,
	"grad_norm": 1.0412591695785522,
	"learning_rate": 5.997957099169388e-06,
	"loss": 1.3622,
	"step": 340
	},
	{
	"epoch": 1.3639999999999999,
	"grad_norm": 1.0673794746398926,
	"learning_rate": 5.976776036244833e-06,
	"loss": 1.3336,
	"step": 341
	},
	{
	"epoch": 1.3679999999999999,
	"grad_norm": 1.104533076286316,
	"learning_rate": 5.955576733303053e-06,
	"loss": 1.3961,
	"step": 342
	},
	{
	"epoch": 1.3719999999999999,
	"grad_norm": 0.98575758934021,
	"learning_rate": 5.9343595862133515e-06,
	"loss": 1.267,
	"step": 343
	},
	{
	"epoch": 1.376,
	"grad_norm": 1.0667227506637573,
	"learning_rate": 5.91312499117825e-06,
	"loss": 1.3001,
	"step": 344
	},
	{
	"epoch": 1.38,
	"grad_norm": 1.032029151916504,
	"learning_rate": 5.891873344726089e-06,
	"loss": 1.3165,
	"step": 345
	},
	{
	"epoch": 1.384,
	"grad_norm": 1.0932317972183228,
	"learning_rate": 5.87060504370362e-06,
	"loss": 1.3691,
	"step": 346
	},
	{
	"epoch": 1.388,
	"grad_norm": 1.015009880065918,
	"learning_rate": 5.849320485268597e-06,
	"loss": 1.301,
	"step": 347
	},
	{
	"epoch": 1.392,
	"grad_norm": 1.0828276872634888,
	"learning_rate": 5.828020066882361e-06,
	"loss": 1.3237,
	"step": 348
	},
	{
	"epoch": 1.396,
	"grad_norm": 0.9718666076660156,
	"learning_rate": 5.806704186302413e-06,
	"loss": 1.1994,
	"step": 349
	},
	{
	"epoch": 1.4,
	"grad_norm": 0.9991141557693481,
	"learning_rate": 5.7853732415749985e-06,
	"loss": 1.2379,
	"step": 350
	},
	{
	"epoch": 1.404,
	"grad_norm": 1.0330079793930054,
	"learning_rate": 5.764027631027659e-06,
	"loss": 1.3069,
	"step": 351
	},
	{
	"epoch": 1.408,
	"grad_norm": 1.040109395980835,
	"learning_rate": 5.7426677532618e-06,
	"loss": 1.2538,
	"step": 352
	},
	{
	"epoch": 1.412,
	"grad_norm": 0.9935119152069092,
	"learning_rate": 5.721294007145256e-06,
	"loss": 1.2556,
	"step": 353
	},
	{
	"epoch": 1.416,
	"grad_norm": 1.0362998247146606,
	"learning_rate": 5.69990679180483e-06,
	"loss": 1.3782,
	"step": 354
	},
	{
	"epoch": 1.42,
	"grad_norm": 0.9767175316810608,
	"learning_rate": 5.678506506618845e-06,
	"loss": 1.2515,
	"step": 355
	},
	{
	"epoch": 1.424,
	"grad_norm": 1.1435551643371582,
	"learning_rate": 5.657093551209687e-06,
	"loss": 1.2987,
	"step": 356
	},
	{
	"epoch": 1.428,
	"grad_norm": 1.121378779411316,
	"learning_rate": 5.635668325436343e-06,
	"loss": 1.3855,
	"step": 357
	},
	{
	"epoch": 1.432,
	"grad_norm": 0.9980752468109131,
	"learning_rate": 5.614231229386933e-06,
	"loss": 1.2792,
	"step": 358
	},
	{
	"epoch": 1.436,
	"grad_norm": 1.0650511980056763,
	"learning_rate": 5.592782663371237e-06,
	"loss": 1.3812,
	"step": 359
	},
	{
	"epoch": 1.44,
	"grad_norm": 1.0521976947784424,
	"learning_rate": 5.571323027913221e-06,
	"loss": 1.2471,
	"step": 360
	},
	{
	"epoch": 1.444,
	"grad_norm": 1.0416388511657715,
	"learning_rate": 5.549852723743564e-06,
	"loss": 1.3824,
	"step": 361
	},
	{
	"epoch": 1.448,
	"grad_norm": 0.9701342582702637,
	"learning_rate": 5.528372151792161e-06,
	"loss": 1.2666,
	"step": 362
	},
	{
	"epoch": 1.452,
	"grad_norm": 1.0128072500228882,
	"learning_rate": 5.506881713180652e-06,
	"loss": 1.3477,
	"step": 363
	},
	{
	"epoch": 1.456,
	"grad_norm": 1.0900636911392212,
	"learning_rate": 5.485381809214921e-06,
	"loss": 1.4304,
	"step": 364
	},
	{
	"epoch": 1.46,
	"grad_norm": 1.0411545038223267,
	"learning_rate": 5.463872841377601e-06,
	"loss": 1.3721,
	"step": 365
	},
	{
	"epoch": 1.464,
	"grad_norm": 1.113276720046997,
	"learning_rate": 5.44235521132059e-06,
	"loss": 1.4026,
	"step": 366
	},
	{
	"epoch": 1.468,
	"grad_norm": 1.1396021842956543,
	"learning_rate": 5.420829320857532e-06,
	"loss": 1.3881,
	"step": 367
	},
	{
	"epoch": 1.472,
	"grad_norm": 0.9877294301986694,
	"learning_rate": 5.39929557195633e-06,
	"loss": 1.2725,
	"step": 368
	},
	{
	"epoch": 1.476,
	"grad_norm": 1.0698078870773315,
	"learning_rate": 5.377754366731633e-06,
	"loss": 1.382,
	"step": 369
	},
	{
	"epoch": 1.48,
	"grad_norm": 0.9980776309967041,
	"learning_rate": 5.35620610743732e-06,
	"loss": 1.2647,
	"step": 370
	},
	{
	"epoch": 1.484,
	"grad_norm": 1.0515851974487305,
	"learning_rate": 5.334651196459003e-06,
	"loss": 1.2589,
	"step": 371
	},
	{
	"epoch": 1.488,
	"grad_norm": 1.0758516788482666,
	"learning_rate": 5.3130900363065055e-06,
	"loss": 1.3933,
	"step": 372
	},
	{
	"epoch": 1.492,
	"grad_norm": 1.057415246963501,
	"learning_rate": 5.291523029606339e-06,
	"loss": 1.2339,
	"step": 373
	},
	{
	"epoch": 1.496,
	"grad_norm": 1.135566234588623,
	"learning_rate": 5.269950579094199e-06,
	"loss": 1.4152,
	"step": 374
	},
	{
	"epoch": 1.5,
	"grad_norm": 0.9283575415611267,
	"learning_rate": 5.248373087607434e-06,
	"loss": 1.214,
	"step": 375
	},
	{
	"epoch": 1.504,
	"grad_norm": 0.9984523057937622,
	"learning_rate": 5.22679095807753e-06,
	"loss": 1.2959,
	"step": 376
	},
	{
	"epoch": 1.508,
	"grad_norm": 1.0446697473526,
	"learning_rate": 5.2052045935225725e-06,
	"loss": 1.3313,
	"step": 377
	},
	{
	"epoch": 1.512,
	"grad_norm": 1.0381207466125488,
	"learning_rate": 5.183614397039741e-06,
	"loss": 1.2513,
	"step": 378
	},
	{
	"epoch": 1.516,
	"grad_norm": 1.2146896123886108,
	"learning_rate": 5.162020771797768e-06,
	"loss": 1.33,
	"step": 379
	},
	{
	"epoch": 1.52,
	"grad_norm": 1.1130037307739258,
	"learning_rate": 5.1404241210294095e-06,
	"loss": 1.3833,
	"step": 380
	},
	{
	"epoch": 1.524,
	"grad_norm": 1.0213799476623535,
	"learning_rate": 5.118824848023926e-06,
	"loss": 1.3537,
	"step": 381
	},
	{
	"epoch": 1.528,
	"grad_norm": 0.9932836890220642,
	"learning_rate": 5.097223356119538e-06,
	"loss": 1.2763,
	"step": 382
	},
	{
	"epoch": 1.532,
	"grad_norm": 1.0798388719558716,
	"learning_rate": 5.07562004869591e-06,
	"loss": 1.4094,
	"step": 383
	},
	{
	"epoch": 1.536,
	"grad_norm": 1.0010972023010254,
	"learning_rate": 5.054015329166596e-06,
	"loss": 1.1387,
	"step": 384
	},
	{
	"epoch": 1.54,
	"grad_norm": 1.0118602514266968,
	"learning_rate": 5.032409600971533e-06,
	"loss": 1.3698,
	"step": 385
	},
	{
	"epoch": 1.544,
	"grad_norm": 1.062326192855835,
	"learning_rate": 5.010803267569483e-06,
	"loss": 1.3475,
	"step": 386
	},
	{
	"epoch": 1.548,
	"grad_norm": 1.0971441268920898,
	"learning_rate": 4.989196732430518e-06,
	"loss": 1.2936,
	"step": 387
	},
	{
	"epoch": 1.552,
	"grad_norm": 1.0156275033950806,
	"learning_rate": 4.967590399028468e-06,
	"loss": 1.3193,
	"step": 388
	},
	{
	"epoch": 1.556,
	"grad_norm": 1.0805950164794922,
	"learning_rate": 4.9459846708334044e-06,
	"loss": 1.3318,
	"step": 389
	},
	{
	"epoch": 1.56,
	"grad_norm": 1.0072593688964844,
	"learning_rate": 4.924379951304094e-06,
	"loss": 1.2832,
	"step": 390
	},
	{
	"epoch": 1.564,
	"grad_norm": 1.0336650609970093,
	"learning_rate": 4.902776643880461e-06,
	"loss": 1.296,
	"step": 391
	},
	{
	"epoch": 1.568,
	"grad_norm": 1.0790278911590576,
	"learning_rate": 4.881175151976075e-06,
	"loss": 1.3453,
	"step": 392
	},
	{
	"epoch": 1.572,
	"grad_norm": 1.0593476295471191,
	"learning_rate": 4.859575878970592e-06,
	"loss": 1.2425,
	"step": 393
	},
	{
	"epoch": 1.576,
	"grad_norm": 1.05976140499115,
	"learning_rate": 4.837979228202234e-06,
	"loss": 1.3116,
	"step": 394
	},
	{
	"epoch": 1.58,
	"grad_norm": 1.0560014247894287,
	"learning_rate": 4.81638560296026e-06,
	"loss": 1.3104,
	"step": 395
	},
	{
	"epoch": 1.584,
	"grad_norm": 1.143796682357788,
	"learning_rate": 4.794795406477429e-06,
	"loss": 1.3772,
	"step": 396
	},
	{
	"epoch": 1.588,
	"grad_norm": 1.3215272426605225,
	"learning_rate": 4.773209041922472e-06,
	"loss": 1.4062,
	"step": 397
	},
	{
	"epoch": 1.592,
	"grad_norm": 1.0039423704147339,
	"learning_rate": 4.7516269123925665e-06,
	"loss": 1.2597,
	"step": 398
	},
	{
	"epoch": 1.596,
	"grad_norm": 1.0940923690795898,
	"learning_rate": 4.730049420905801e-06,
	"loss": 1.3308,
	"step": 399
	},
	{
	"epoch": 1.6,
	"grad_norm": 1.047290325164795,
	"learning_rate": 4.708476970393662e-06,
	"loss": 1.2995,
	"step": 400
	},
	{
	"epoch": 1.604,
	"grad_norm": 1.112776279449463,
	"learning_rate": 4.686909963693498e-06,
	"loss": 1.3655,
	"step": 401
	},
	{
	"epoch": 1.608,
	"grad_norm": 0.8907529711723328,
	"learning_rate": 4.6653488035409975e-06,
	"loss": 1.1678,
	"step": 402
	},
	{
	"epoch": 1.612,
	"grad_norm": 1.1391288042068481,
	"learning_rate": 4.643793892562682e-06,
	"loss": 1.3858,
	"step": 403
	},
	{
	"epoch": 1.616,
	"grad_norm": 1.0218274593353271,
	"learning_rate": 4.622245633268371e-06,
	"loss": 1.3211,
	"step": 404
	},
	{
	"epoch": 1.62,
	"grad_norm": 1.048348069190979,
	"learning_rate": 4.60070442804367e-06,
	"loss": 1.3769,
	"step": 405
	},
	{
	"epoch": 1.624,
	"grad_norm": 1.020076870918274,
	"learning_rate": 4.5791706791424694e-06,
	"loss": 1.3184,
	"step": 406
	},
	{
	"epoch": 1.6280000000000001,
	"grad_norm": 1.0310548543930054,
	"learning_rate": 4.557644788679413e-06,
	"loss": 1.1922,
	"step": 407
	},
	{
	"epoch": 1.6320000000000001,
	"grad_norm": 1.0457245111465454,
	"learning_rate": 4.536127158622401e-06,
	"loss": 1.2502,
	"step": 408
	},
	{
	"epoch": 1.6360000000000001,
	"grad_norm": 0.9524244666099548,
	"learning_rate": 4.514618190785081e-06,
	"loss": 1.2723,
	"step": 409
	},
	{
	"epoch": 1.6400000000000001,
	"grad_norm": 1.1064085960388184,
	"learning_rate": 4.493118286819348e-06,
	"loss": 1.379,
	"step": 410
	},
	{
	"epoch": 1.6440000000000001,
	"grad_norm": 1.084433674812317,
	"learning_rate": 4.47162784820784e-06,
	"loss": 1.411,
	"step": 411
	},
	{
	"epoch": 1.6480000000000001,
	"grad_norm": 1.0625848770141602,
	"learning_rate": 4.450147276256439e-06,
	"loss": 1.4082,
	"step": 412
	},
	{
	"epoch": 1.6520000000000001,
	"grad_norm": 0.9723708629608154,
	"learning_rate": 4.42867697208678e-06,
	"loss": 1.2489,
	"step": 413
	},
	{
	"epoch": 1.6560000000000001,
	"grad_norm": 1.0396859645843506,
	"learning_rate": 4.407217336628765e-06,
	"loss": 1.1836,
	"step": 414
	},
	{
	"epoch": 1.6600000000000001,
	"grad_norm": 1.0983256101608276,
	"learning_rate": 4.385768770613069e-06,
	"loss": 1.3824,
	"step": 415
	},
	{
	"epoch": 1.6640000000000001,
	"grad_norm": 0.939993679523468,
	"learning_rate": 4.3643316745636574e-06,
	"loss": 1.242,
	"step": 416
	},
	{
	"epoch": 1.6680000000000001,
	"grad_norm": 1.333936095237732,
	"learning_rate": 4.342906448790315e-06,
	"loss": 1.2763,
	"step": 417
	},
	{
	"epoch": 1.6720000000000002,
	"grad_norm": 1.037348747253418,
	"learning_rate": 4.321493493381157e-06,
	"loss": 1.2989,
	"step": 418
	},
	{
	"epoch": 1.6760000000000002,
	"grad_norm": 0.913204550743103,
	"learning_rate": 4.300093208195171e-06,
	"loss": 1.203,
	"step": 419
	},
	{
	"epoch": 1.6800000000000002,
	"grad_norm": 1.032127857208252,
	"learning_rate": 4.278705992854745e-06,
	"loss": 1.2121,
	"step": 420
	},
	{
	"epoch": 1.6840000000000002,
	"grad_norm": 1.0506740808486938,
	"learning_rate": 4.257332246738201e-06,
	"loss": 1.4022,
	"step": 421
	},
	{
	"epoch": 1.688,
	"grad_norm": 1.056723713874817,
	"learning_rate": 4.235972368972343e-06,
	"loss": 1.3774,
	"step": 422
	},
	{
	"epoch": 1.692,
	"grad_norm": 0.9607878923416138,
	"learning_rate": 4.214626758425003e-06,
	"loss": 1.2494,
	"step": 423
	},
	{
	"epoch": 1.696,
	"grad_norm": 0.9732138514518738,
	"learning_rate": 4.193295813697587e-06,
	"loss": 1.2858,
	"step": 424
	},
	{
	"epoch": 1.7,
	"grad_norm": 1.030493140220642,
	"learning_rate": 4.171979933117641e-06,
	"loss": 1.4126,
	"step": 425
	},
	{
	"epoch": 1.704,
	"grad_norm": 0.9867613911628723,
	"learning_rate": 4.150679514731405e-06,
	"loss": 1.3348,
	"step": 426
	},
	{
	"epoch": 1.708,
	"grad_norm": 0.9390940070152283,
	"learning_rate": 4.12939495629638e-06,
	"loss": 1.1345,
	"step": 427
	},
	{
	"epoch": 1.712,
	"grad_norm": 1.0708876848220825,
	"learning_rate": 4.108126655273912e-06,
	"loss": 1.2774,
	"step": 428
	},
	{
	"epoch": 1.716,
	"grad_norm": 1.0339386463165283,
	"learning_rate": 4.086875008821752e-06,
	"loss": 1.3666,
	"step": 429
	},
	{
	"epoch": 1.72,
	"grad_norm": 1.047210693359375,
	"learning_rate": 4.06564041378665e-06,
	"loss": 1.3901,
	"step": 430
	},
	{
	"epoch": 1.724,
	"grad_norm": 1.0303080081939697,
	"learning_rate": 4.04442326669695e-06,
	"loss": 1.2938,
	"step": 431
	},
	{
	"epoch": 1.728,
	"grad_norm": 1.1503710746765137,
	"learning_rate": 4.023223963755168e-06,
	"loss": 1.4221,
	"step": 432
	},
	{
	"epoch": 1.732,
	"grad_norm": 1.0227370262145996,
	"learning_rate": 4.002042900830613e-06,
	"loss": 1.3698,
	"step": 433
	},
	{
	"epoch": 1.736,
	"grad_norm": 1.0578244924545288,
	"learning_rate": 3.980880473451982e-06,
	"loss": 1.2995,
	"step": 434
	},
	{
	"epoch": 1.74,
	"grad_norm": 0.9922149181365967,
	"learning_rate": 3.959737076799974e-06,
	"loss": 1.2021,
	"step": 435
	},
	{
	"epoch": 1.744,
	"grad_norm": 0.9406126141548157,
	"learning_rate": 3.93861310569992e-06,
	"loss": 1.1236,
	"step": 436
	},
	{
	"epoch": 1.748,
	"grad_norm": 0.9856680631637573,
	"learning_rate": 3.917508954614401e-06,
	"loss": 1.2002,
	"step": 437
	},
	{
	"epoch": 1.752,
	"grad_norm": 1.0986454486846924,
	"learning_rate": 3.896425017635884e-06,
	"loss": 1.3789,
	"step": 438
	},
	{
	"epoch": 1.756,
	"grad_norm": 1.0303860902786255,
	"learning_rate": 3.875361688479367e-06,
	"loss": 1.3061,
	"step": 439
	},
	{
	"epoch": 1.76,
	"grad_norm": 1.013808012008667,
	"learning_rate": 3.854319360475022e-06,
	"loss": 1.2924,
	"step": 440
	},
	{
	"epoch": 1.764,
	"grad_norm": 1.0553696155548096,
	"learning_rate": 3.833298426560851e-06,
	"loss": 1.3652,
	"step": 441
	},
	{
	"epoch": 1.768,
	"grad_norm": 1.0112295150756836,
	"learning_rate": 3.8122992792753534e-06,
	"loss": 1.3082,
	"step": 442
	},
	{
	"epoch": 1.772,
	"grad_norm": 1.0582830905914307,
	"learning_rate": 3.7913223107501847e-06,
	"loss": 1.3769,
	"step": 443
	},
	{
	"epoch": 1.776,
	"grad_norm": 1.0347267389297485,
	"learning_rate": 3.7703679127028497e-06,
	"loss": 1.425,
	"step": 444
	},
	{
	"epoch": 1.78,
	"grad_norm": 1.0205029249191284,
	"learning_rate": 3.7494364764293722e-06,
	"loss": 1.3091,
	"step": 445
	},
	{
	"epoch": 1.784,
	"grad_norm": 1.0478813648223877,
	"learning_rate": 3.728528392796995e-06,
	"loss": 1.341,
	"step": 446
	},
	{
	"epoch": 1.788,
	"grad_norm": 0.9804567694664001,
	"learning_rate": 3.707644052236887e-06,
	"loss": 1.2878,
	"step": 447
	},
	{
	"epoch": 1.792,
	"grad_norm": 1.0110281705856323,
	"learning_rate": 3.6867838447368414e-06,
	"loss": 1.2472,
	"step": 448
	},
	{
	"epoch": 1.796,
	"grad_norm": 1.0572271347045898,
	"learning_rate": 3.6659481598339952e-06,
	"loss": 1.3878,
	"step": 449
	},
	{
	"epoch": 1.8,
	"grad_norm": 1.082832932472229,
	"learning_rate": 3.6451373866075657e-06,
	"loss": 1.366,
	"step": 450
	},
	{
	"epoch": 1.804,
	"grad_norm": 1.0754969120025635,
	"learning_rate": 3.624351913671571e-06,
	"loss": 1.3644,
	"step": 451
	},
	{
	"epoch": 1.808,
	"grad_norm": 1.0205718278884888,
	"learning_rate": 3.6035921291675815e-06,
	"loss": 1.2874,
	"step": 452
	},
	{
	"epoch": 1.812,
	"grad_norm": 1.0364340543746948,
	"learning_rate": 3.5828584207574698e-06,
	"loss": 1.313,
	"step": 453
	},
	{
	"epoch": 1.8159999999999998,
	"grad_norm": 1.0769734382629395,
	"learning_rate": 3.5621511756161686e-06,
	"loss": 1.3368,
	"step": 454
	},
	{
	"epoch": 1.8199999999999998,
	"grad_norm": 1.0174931287765503,
	"learning_rate": 3.54147078042445e-06,
	"loss": 1.2763,
	"step": 455
	},
	{
	"epoch": 1.8239999999999998,
	"grad_norm": 0.94427889585495,
	"learning_rate": 3.520817621361693e-06,
	"loss": 1.2327,
	"step": 456
	},
	{
	"epoch": 1.8279999999999998,
	"grad_norm": 0.9798959493637085,
	"learning_rate": 3.500192084098677e-06,
	"loss": 1.2847,
	"step": 457
	},
	{
	"epoch": 1.8319999999999999,
	"grad_norm": 0.9966975450515747,
	"learning_rate": 3.4795945537903852e-06,
	"loss": 1.2827,
	"step": 458
	},
	{
	"epoch": 1.8359999999999999,
	"grad_norm": 1.0126770734786987,
	"learning_rate": 3.459025415068804e-06,
	"loss": 1.3422,
	"step": 459
	},
	{
	"epoch": 1.8399999999999999,
	"grad_norm": 1.0910636186599731,
	"learning_rate": 3.4384850520357416e-06,
	"loss": 1.3603,
	"step": 460
	},
	{
	"epoch": 1.8439999999999999,
	"grad_norm": 0.9798678755760193,
	"learning_rate": 3.4179738482556648e-06,
	"loss": 1.2606,
	"step": 461
	},
	{
	"epoch": 1.8479999999999999,
	"grad_norm": 1.047108769416809,
	"learning_rate": 3.3974921867485238e-06,
	"loss": 1.2898,
	"step": 462
	},
	{
	"epoch": 1.8519999999999999,
	"grad_norm": 1.0191044807434082,
	"learning_rate": 3.377040449982604e-06,
	"loss": 1.1954,
	"step": 463
	},
	{
	"epoch": 1.8559999999999999,
	"grad_norm": 0.9370830655097961,
	"learning_rate": 3.356619019867394e-06,
	"loss": 1.219,
	"step": 464
	},
	{
	"epoch": 1.8599999999999999,
	"grad_norm": 0.9407516121864319,
	"learning_rate": 3.336228277746435e-06,
	"loss": 1.2451,
	"step": 465
	},
	{
	"epoch": 1.8639999999999999,
	"grad_norm": 0.9665749669075012,
	"learning_rate": 3.3158686043902166e-06,
	"loss": 1.2389,
	"step": 466
	},
	{
	"epoch": 1.8679999999999999,
	"grad_norm": 1.0265816450119019,
	"learning_rate": 3.2955403799890567e-06,
	"loss": 1.3495,
	"step": 467
	},
	{
	"epoch": 1.8719999999999999,
	"grad_norm": 1.0662939548492432,
	"learning_rate": 3.2752439841460063e-06,
	"loss": 1.3986,
	"step": 468
	},
	{
	"epoch": 1.876,
	"grad_norm": 1.049228549003601,
	"learning_rate": 3.254979795869761e-06,
	"loss": 1.3497,
	"step": 469
	},
	{
	"epoch": 1.88,
	"grad_norm": 1.0802751779556274,
	"learning_rate": 3.234748193567579e-06,
	"loss": 1.4039,
	"step": 470
	},
	{
	"epoch": 1.884,
	"grad_norm": 0.9889898300170898,
	"learning_rate": 3.214549555038218e-06,
	"loss": 1.2641,
	"step": 471
	},
	{
	"epoch": 1.888,
	"grad_norm": 0.987068235874176,
	"learning_rate": 3.194384257464884e-06,
	"loss": 1.2589,
	"step": 472
	},
	{
	"epoch": 1.892,
	"grad_norm": 1.0221607685089111,
	"learning_rate": 3.1742526774081822e-06,
	"loss": 1.2261,
	"step": 473
	},
	{
	"epoch": 1.896,
	"grad_norm": 1.0248719453811646,
	"learning_rate": 3.154155190799084e-06,
	"loss": 1.2705,
	"step": 474
	},
	{
	"epoch": 1.9,
	"grad_norm": 1.0018503665924072,
	"learning_rate": 3.1340921729319173e-06,
	"loss": 1.3734,
	"step": 475
	},
	{
	"epoch": 1.904,
	"grad_norm": 0.9709426760673523,
	"learning_rate": 3.1140639984573428e-06,
	"loss": 1.2281,
	"step": 476
	},
	{
	"epoch": 1.908,
	"grad_norm": 1.056033968925476,
	"learning_rate": 3.094071041375375e-06,
	"loss": 1.3789,
	"step": 477
	},
	{
	"epoch": 1.912,
	"grad_norm": 1.0520853996276855,
	"learning_rate": 3.0741136750283816e-06,
	"loss": 1.4122,
	"step": 478
	},
	{
	"epoch": 1.916,
	"grad_norm": 1.0225236415863037,
	"learning_rate": 3.054192272094125e-06,
	"loss": 1.2237,
	"step": 479
	},
	{
	"epoch": 1.92,
	"grad_norm": 1.04264235496521,
	"learning_rate": 3.0343072045787956e-06,
	"loss": 1.1914,
	"step": 480
	},
	{
	"epoch": 1.924,
	"grad_norm": 1.0835708379745483,
	"learning_rate": 3.0144588438100693e-06,
	"loss": 1.3565,
	"step": 481
	},
	{
	"epoch": 1.928,
	"grad_norm": 1.0434730052947998,
	"learning_rate": 2.994647560430167e-06,
	"loss": 1.2601,
	"step": 482
	},
	{
	"epoch": 1.932,
	"grad_norm": 0.9777680039405823,
	"learning_rate": 2.974873724388945e-06,
	"loss": 1.2813,
	"step": 483
	},
	{
	"epoch": 1.936,
	"grad_norm": 1.076163411140442,
	"learning_rate": 2.955137704936971e-06,
	"loss": 1.3366,
	"step": 484
	},
	{
	"epoch": 1.94,
	"grad_norm": 1.0271539688110352,
	"learning_rate": 2.9354398706186427e-06,
	"loss": 1.3005,
	"step": 485
	},
	{
	"epoch": 1.944,
	"grad_norm": 1.1193921566009521,
	"learning_rate": 2.915780589265301e-06,
	"loss": 1.3266,
	"step": 486
	},
	{
	"epoch": 1.948,
	"grad_norm": 1.030122995376587,
	"learning_rate": 2.896160227988357e-06,
	"loss": 1.2339,
	"step": 487
	},
	{
	"epoch": 1.952,
	"grad_norm": 1.071089267730713,
	"learning_rate": 2.876579153172441e-06,
	"loss": 1.2899,
	"step": 488
	},
	{
	"epoch": 1.956,
	"grad_norm": 0.9699506759643555,
	"learning_rate": 2.8570377304685627e-06,
	"loss": 1.256,
	"step": 489
	},
	{
	"epoch": 1.96,
	"grad_norm": 0.9563548564910889,
	"learning_rate": 2.8375363247872756e-06,
	"loss": 1.2437,
	"step": 490
	},
	{
	"epoch": 1.964,
	"grad_norm": 0.9940220713615417,
	"learning_rate": 2.8180753002918735e-06,
	"loss": 1.3382,
	"step": 491
	},
	{
	"epoch": 1.968,
	"grad_norm": 0.9009513258934021,
	"learning_rate": 2.7986550203915807e-06,
	"loss": 1.1687,
	"step": 492
	},
	{
	"epoch": 1.972,
	"grad_norm": 1.0347154140472412,
	"learning_rate": 2.779275847734766e-06,
	"loss": 1.3601,
	"step": 493
	},
	{
	"epoch": 1.976,
	"grad_norm": 0.9507591128349304,
	"learning_rate": 2.7599381442021833e-06,
	"loss": 1.2592,
	"step": 494
	},
	{
	"epoch": 1.98,
	"grad_norm": 1.239804983139038,
	"learning_rate": 2.7406422709001956e-06,
	"loss": 1.3886,
	"step": 495
	},
	{
	"epoch": 1.984,
	"grad_norm": 1.0007840394973755,
	"learning_rate": 2.721388588154045e-06,
	"loss": 1.3827,
	"step": 496
	},
	{
	"epoch": 1.988,
	"grad_norm": 0.930361807346344,
	"learning_rate": 2.7021774555011214e-06,
	"loss": 1.2384,
	"step": 497
	},
	{
	"epoch": 1.992,
	"grad_norm": 0.9760609865188599,
	"learning_rate": 2.6830092316842448e-06,
	"loss": 1.3209,
	"step": 498
	},
	{
	"epoch": 1.996,
	"grad_norm": 0.9475801587104797,
	"learning_rate": 2.6638842746449672e-06,
	"loss": 1.2661,
	"step": 499
	},
	{
	"epoch": 2.0,
	"grad_norm": 1.0552971363067627,
	"learning_rate": 2.6448029415168964e-06,
	"loss": 1.517,
	"step": 500
	},
	{
	"epoch": 2.004,
	"grad_norm": 0.9212646484375,
	"learning_rate": 2.6257655886190147e-06,
	"loss": 1.0196,
	"step": 501
	},
	{
	"epoch": 2.008,
	"grad_norm": 1.021751880645752,
	"learning_rate": 2.6067725714490307e-06,
	"loss": 1.2333,
	"step": 502
	},
	{
	"epoch": 2.012,
	"grad_norm": 1.0663317441940308,
	"learning_rate": 2.5878242446767466e-06,
	"loss": 1.2303,
	"step": 503
	},
	{
	"epoch": 2.016,
	"grad_norm": 0.9968892335891724,
	"learning_rate": 2.5689209621374257e-06,
	"loss": 1.2098,
	"step": 504
	},
	{
	"epoch": 2.02,
	"grad_norm": 1.1156091690063477,
	"learning_rate": 2.5500630768251895e-06,
	"loss": 1.2579,
	"step": 505
	},
	{
	"epoch": 2.024,
	"grad_norm": 1.05716073513031,
	"learning_rate": 2.5312509408864248e-06,
	"loss": 1.2526,
	"step": 506
	},
	{
	"epoch": 2.028,
	"grad_norm": 0.8975000977516174,
	"learning_rate": 2.5124849056132094e-06,
	"loss": 1.0011,
	"step": 507
	},
	{
	"epoch": 2.032,
	"grad_norm": 1.0314711332321167,
	"learning_rate": 2.493765321436755e-06,
	"loss": 1.1876,
	"step": 508
	},
	{
	"epoch": 2.036,
	"grad_norm": 0.9085214734077454,
	"learning_rate": 2.475092537920853e-06,
	"loss": 1.046,
	"step": 509
	},
	{
	"epoch": 2.04,
	"grad_norm": 0.9011939764022827,
	"learning_rate": 2.456466903755357e-06,
	"loss": 1.0411,
	"step": 510
	},
	{
	"epoch": 2.044,
	"grad_norm": 0.9715794920921326,
	"learning_rate": 2.4378887667496696e-06,
	"loss": 1.1214,
	"step": 511
	},
	{
	"epoch": 2.048,
	"grad_norm": 1.0464131832122803,
	"learning_rate": 2.4193584738262426e-06,
	"loss": 1.1207,
	"step": 512
	},
	{
	"epoch": 2.052,
	"grad_norm": 0.9019450545310974,
	"learning_rate": 2.400876371014107e-06,
	"loss": 1.092,
	"step": 513
	},
	{
	"epoch": 2.056,
	"grad_norm": 0.9838923811912537,
	"learning_rate": 2.3824428034424e-06,
	"loss": 1.1026,
	"step": 514
	},
	{
	"epoch": 2.06,
	"grad_norm": 0.9204623103141785,
	"learning_rate": 2.3640581153339293e-06,
	"loss": 1.053,
	"step": 515
	},
	{
	"epoch": 2.064,
	"grad_norm": 1.0160547494888306,
	"learning_rate": 2.3457226499987456e-06,
	"loss": 1.165,
	"step": 516
	},
	{
	"epoch": 2.068,
	"grad_norm": 1.0242973566055298,
	"learning_rate": 2.3274367498277246e-06,
	"loss": 1.206,
	"step": 517
	},
	{
	"epoch": 2.072,
	"grad_norm": 0.9955620765686035,
	"learning_rate": 2.3092007562861756e-06,
	"loss": 1.1202,
	"step": 518
	},
	{
	"epoch": 2.076,
	"grad_norm": 0.8941048979759216,
	"learning_rate": 2.291015009907474e-06,
	"loss": 1.0354,
	"step": 519
	},
	{
	"epoch": 2.08,
	"grad_norm": 1.1226130723953247,
	"learning_rate": 2.2728798502866887e-06,
	"loss": 1.1285,
	"step": 520
	},
	{
	"epoch": 2.084,
	"grad_norm": 1.056740164756775,
	"learning_rate": 2.2547956160742473e-06,
	"loss": 1.2142,
	"step": 521
	},
	{
	"epoch": 2.088,
	"grad_norm": 1.0686098337173462,
	"learning_rate": 2.2367626449696168e-06,
	"loss": 1.1753,
	"step": 522
	},
	{
	"epoch": 2.092,
	"grad_norm": 1.008289098739624,
	"learning_rate": 2.2187812737149856e-06,
	"loss": 1.0863,
	"step": 523
	},
	{
	"epoch": 2.096,
	"grad_norm": 0.9350313544273376,
	"learning_rate": 2.2008518380889892e-06,
	"loss": 1.1109,
	"step": 524
	},
	{
	"epoch": 2.1,
	"grad_norm": 1.014533519744873,
	"learning_rate": 2.182974672900428e-06,
	"loss": 1.1973,
	"step": 525
	},
	{
	"epoch": 2.104,
	"grad_norm": 0.9320296049118042,
	"learning_rate": 2.1651501119820212e-06,
	"loss": 1.0792,
	"step": 526
	},
	{
	"epoch": 2.108,
	"grad_norm": 1.096917986869812,
	"learning_rate": 2.1473784881841753e-06,
	"loss": 1.149,
	"step": 527
	},
	{
	"epoch": 2.112,
	"grad_norm": 1.0773597955703735,
	"learning_rate": 2.129660133368761e-06,
	"loss": 1.1394,
	"step": 528
	},
	{
	"epoch": 2.116,
	"grad_norm": 1.0159255266189575,
	"learning_rate": 2.1119953784029207e-06,
	"loss": 1.1256,
	"step": 529
	},
	{
	"epoch": 2.12,
	"grad_norm": 0.973598301410675,
	"learning_rate": 2.0943845531528932e-06,
	"loss": 1.158,
	"step": 530
	},
	{
	"epoch": 2.124,
	"grad_norm": 0.9755054712295532,
	"learning_rate": 2.0768279864778475e-06,
	"loss": 1.098,
	"step": 531
	},
	{
	"epoch": 2.128,
	"grad_norm": 0.9478545784950256,
	"learning_rate": 2.059326006223743e-06,
	"loss": 1.1034,
	"step": 532
	},
	{
	"epoch": 2.132,
	"grad_norm": 1.013749599456787,
	"learning_rate": 2.0418789392172113e-06,
	"loss": 1.1003,
	"step": 533
	},
	{
	"epoch": 2.136,
	"grad_norm": 0.9972010254859924,
	"learning_rate": 2.0244871112594523e-06,
	"loss": 1.1003,
	"step": 534
	},
	{
	"epoch": 2.14,
	"grad_norm": 1.010685682296753,
	"learning_rate": 2.007150847120145e-06,
	"loss": 1.1207,
	"step": 535
	},
	{
	"epoch": 2.144,
	"grad_norm": 1.0307255983352661,
	"learning_rate": 1.98987047053139e-06,
	"loss": 1.14,
	"step": 536
	},
	{
	"epoch": 2.148,
	"grad_norm": 1.0822032690048218,
	"learning_rate": 1.972646304181656e-06,
	"loss": 1.1319,
	"step": 537
	},
	{
	"epoch": 2.152,
	"grad_norm": 0.954828679561615,
	"learning_rate": 1.9554786697097668e-06,
	"loss": 1.1214,
	"step": 538
	},
	{
	"epoch": 2.156,
	"grad_norm": 0.9321712255477905,
	"learning_rate": 1.9383678876988797e-06,
	"loss": 1.0817,
	"step": 539
	},
	{
	"epoch": 2.16,
	"grad_norm": 1.0241217613220215,
	"learning_rate": 1.921314277670509e-06,
	"loss": 1.1557,
	"step": 540
	},
	{
	"epoch": 2.164,
	"grad_norm": 0.9904546141624451,
	"learning_rate": 1.9043181580785597e-06,
	"loss": 1.0604,
	"step": 541
	},
	{
	"epoch": 2.168,
	"grad_norm": 1.0958540439605713,
	"learning_rate": 1.8873798463033742e-06,
	"loss": 1.1658,
	"step": 542
	},
	{
	"epoch": 2.172,
	"grad_norm": 1.0296180248260498,
	"learning_rate": 1.870499658645809e-06,
	"loss": 1.1648,
	"step": 543
	},
	{
	"epoch": 2.176,
	"grad_norm": 0.9077207446098328,
	"learning_rate": 1.8536779103213336e-06,
	"loss": 1.0262,
	"step": 544
	},
	{
	"epoch": 2.18,
	"grad_norm": 0.9854039549827576,
	"learning_rate": 1.8369149154541333e-06,
	"loss": 1.237,
	"step": 545
	},
	{
	"epoch": 2.184,
	"grad_norm": 1.0560005903244019,
	"learning_rate": 1.8202109870712542e-06,
	"loss": 1.2776,
	"step": 546
	},
	{
	"epoch": 2.188,
	"grad_norm": 1.0411219596862793,
	"learning_rate": 1.8035664370967493e-06,
	"loss": 1.1759,
	"step": 547
	},
	{
	"epoch": 2.192,
	"grad_norm": 1.038360357284546,
	"learning_rate": 1.7869815763458576e-06,
	"loss": 1.0802,
	"step": 548
	},
	{
	"epoch": 2.196,
	"grad_norm": 1.0684030055999756,
	"learning_rate": 1.7704567145192036e-06,
	"loss": 1.1016,
	"step": 549
	},
	{
	"epoch": 2.2,
	"grad_norm": 1.0059784650802612,
	"learning_rate": 1.753992160197006e-06,
	"loss": 1.0647,
	"step": 550
	},
	{
	"epoch": 2.204,
	"grad_norm": 1.005402684211731,
	"learning_rate": 1.73758822083332e-06,
	"loss": 1.0965,
	"step": 551
	},
	{
	"epoch": 2.208,
	"grad_norm": 1.0324487686157227,
	"learning_rate": 1.721245202750299e-06,
	"loss": 1.1498,
	"step": 552
	},
	{
	"epoch": 2.212,
	"grad_norm": 0.966227650642395,
	"learning_rate": 1.7049634111324687e-06,
	"loss": 1.1032,
	"step": 553
	},
	{
	"epoch": 2.216,
	"grad_norm": 1.0336990356445312,
	"learning_rate": 1.6887431500210272e-06,
	"loss": 1.1718,
	"step": 554
	},
	{
	"epoch": 2.22,
	"grad_norm": 0.9618580937385559,
	"learning_rate": 1.6725847223081776e-06,
	"loss": 1.0375,
	"step": 555
	},
	{
	"epoch": 2.224,
	"grad_norm": 0.9805987477302551,
	"learning_rate": 1.6564884297314593e-06,
	"loss": 1.1808,
	"step": 556
	},
	{
	"epoch": 2.228,
	"grad_norm": 1.0079127550125122,
	"learning_rate": 1.6404545728681232e-06,
	"loss": 1.1657,
	"step": 557
	},
	{
	"epoch": 2.232,
	"grad_norm": 1.0422035455703735,
	"learning_rate": 1.624483451129512e-06,
	"loss": 1.1185,
	"step": 558
	},
	{
	"epoch": 2.2359999999999998,
	"grad_norm": 1.0370445251464844,
	"learning_rate": 1.6085753627554728e-06,
	"loss": 1.1599,
	"step": 559
	},
	{
	"epoch": 2.24,
	"grad_norm": 1.0785090923309326,
	"learning_rate": 1.5927306048087855e-06,
	"loss": 1.2284,
	"step": 560
	},
	{
	"epoch": 2.2439999999999998,
	"grad_norm": 1.0310076475143433,
	"learning_rate": 1.5769494731696206e-06,
	"loss": 1.1048,
	"step": 561
	},
	{
	"epoch": 2.248,
	"grad_norm": 1.0009162425994873,
	"learning_rate": 1.5612322625300064e-06,
	"loss": 1.0906,
	"step": 562
	},
	{
	"epoch": 2.252,
	"grad_norm": 0.9988439679145813,
	"learning_rate": 1.5455792663883329e-06,
	"loss": 1.1897,
	"step": 563
	},
	{
	"epoch": 2.2560000000000002,
	"grad_norm": 0.971535325050354,
	"learning_rate": 1.529990777043866e-06,
	"loss": 1.0518,
	"step": 564
	},
	{
	"epoch": 2.26,
	"grad_norm": 1.0020225048065186,
	"learning_rate": 1.5144670855912908e-06,
	"loss": 1.1513,
	"step": 565
	},
	{
	"epoch": 2.2640000000000002,
	"grad_norm": 0.9475902915000916,
	"learning_rate": 1.499008481915281e-06,
	"loss": 1.0735,
	"step": 566
	},
	{
	"epoch": 2.268,
	"grad_norm": 1.0750163793563843,
	"learning_rate": 1.483615254685075e-06,
	"loss": 1.186,
	"step": 567
	},
	{
	"epoch": 2.2720000000000002,
	"grad_norm": 1.0703922510147095,
	"learning_rate": 1.4682876913490973e-06,
	"loss": 1.2119,
	"step": 568
	},
	{
	"epoch": 2.276,
	"grad_norm": 1.05789053440094,
	"learning_rate": 1.4530260781295813e-06,
	"loss": 1.1711,
	"step": 569
	},
	{
	"epoch": 2.2800000000000002,
	"grad_norm": 0.971713662147522,
	"learning_rate": 1.437830700017226e-06,
	"loss": 1.1174,
	"step": 570
	},
	{
	"epoch": 2.284,
	"grad_norm": 0.9409313201904297,
	"learning_rate": 1.4227018407658822e-06,
	"loss": 1.1378,
	"step": 571
	},
	{
	"epoch": 2.288,
	"grad_norm": 0.9503111243247986,
	"learning_rate": 1.4076397828872441e-06,
	"loss": 1.0972,
	"step": 572
	},
	{
	"epoch": 2.292,
	"grad_norm": 0.9956273436546326,
	"learning_rate": 1.392644807645575e-06,
	"loss": 1.1251,
	"step": 573
	},
	{
	"epoch": 2.296,
	"grad_norm": 0.9246674180030823,
	"learning_rate": 1.3777171950524648e-06,
	"loss": 1.0709,
	"step": 574
	},
	{
	"epoch": 2.3,
	"grad_norm": 1.0414146184921265,
	"learning_rate": 1.3628572238615878e-06,
	"loss": 1.1007,
	"step": 575
	},
	{
	"epoch": 2.304,
	"grad_norm": 1.0711561441421509,
	"learning_rate": 1.3480651715635035e-06,
	"loss": 1.1467,
	"step": 576
	},
	{
	"epoch": 2.308,
	"grad_norm": 1.0547200441360474,
	"learning_rate": 1.333341314380479e-06,
	"loss": 1.1004,
	"step": 577
	},
	{
	"epoch": 2.312,
	"grad_norm": 1.016107439994812,
	"learning_rate": 1.3186859272613222e-06,
	"loss": 1.1453,
	"step": 578
	},
	{
	"epoch": 2.316,
	"grad_norm": 1.0614742040634155,
	"learning_rate": 1.3040992838762562e-06,
	"loss": 1.2197,
	"step": 579
	},
	{
	"epoch": 2.32,
	"grad_norm": 0.9451265335083008,
	"learning_rate": 1.2895816566118014e-06,
	"loss": 0.9909,
	"step": 580
	},
	{
	"epoch": 2.324,
	"grad_norm": 1.0505961179733276,
	"learning_rate": 1.275133316565691e-06,
	"loss": 1.1956,
	"step": 581
	},
	{
	"epoch": 2.328,
	"grad_norm": 1.0458132028579712,
	"learning_rate": 1.2607545335418154e-06,
	"loss": 1.1305,
	"step": 582
	},
	{
	"epoch": 2.332,
	"grad_norm": 0.9635487198829651,
	"learning_rate": 1.2464455760451733e-06,
	"loss": 1.0698,
	"step": 583
	},
	{
	"epoch": 2.336,
	"grad_norm": 0.8457169532775879,
	"learning_rate": 1.2322067112768632e-06,
	"loss": 0.9367,
	"step": 584
	},
	{
	"epoch": 2.34,
	"grad_norm": 1.0260626077651978,
	"learning_rate": 1.2180382051290974e-06,
	"loss": 1.0588,
	"step": 585
	},
	{
	"epoch": 2.344,
	"grad_norm": 0.9955061078071594,
	"learning_rate": 1.2039403221802297e-06,
	"loss": 1.0821,
	"step": 586
	},
	{
	"epoch": 2.348,
	"grad_norm": 0.973564624786377,
	"learning_rate": 1.189913325689816e-06,
	"loss": 1.0893,
	"step": 587
	},
	{
	"epoch": 2.352,
	"grad_norm": 1.0348793268203735,
	"learning_rate": 1.175957477593706e-06,
	"loss": 1.063,
	"step": 588
	},
	{
	"epoch": 2.356,
	"grad_norm": 1.0029393434524536,
	"learning_rate": 1.1620730384991407e-06,
	"loss": 1.084,
	"step": 589
	},
	{
	"epoch": 2.36,
	"grad_norm": 1.012460708618164,
	"learning_rate": 1.1482602676798933e-06,
	"loss": 1.0967,
	"step": 590
	},
	{
	"epoch": 2.364,
	"grad_norm": 0.9073032736778259,
	"learning_rate": 1.1345194230714235e-06,
	"loss": 1.0183,
	"step": 591
	},
	{
	"epoch": 2.368,
	"grad_norm": 1.0121479034423828,
	"learning_rate": 1.120850761266068e-06,
	"loss": 1.1363,
	"step": 592
	},
	{
	"epoch": 2.372,
	"grad_norm": 1.0043262243270874,
	"learning_rate": 1.107254537508239e-06,
	"loss": 1.1416,
	"step": 593
	},
	{
	"epoch": 2.376,
	"grad_norm": 1.0971993207931519,
	"learning_rate": 1.0937310056896643e-06,
	"loss": 1.1151,
	"step": 594
	},
	{
	"epoch": 2.38,
	"grad_norm": 0.9937849044799805,
	"learning_rate": 1.080280418344643e-06,
	"loss": 1.1716,
	"step": 595
	},
	{
	"epoch": 2.384,
	"grad_norm": 0.9772449135780334,
	"learning_rate": 1.0669030266453367e-06,
	"loss": 1.0893,
	"step": 596
	},
	{
	"epoch": 2.388,
	"grad_norm": 1.0142498016357422,
	"learning_rate": 1.053599080397068e-06,
	"loss": 1.1527,
	"step": 597
	},
	{
	"epoch": 2.392,
	"grad_norm": 1.081161618232727,
	"learning_rate": 1.0403688280336626e-06,
	"loss": 1.1253,
	"step": 598
	},
	{
	"epoch": 2.396,
	"grad_norm": 1.1796064376831055,
	"learning_rate": 1.027212516612814e-06,
	"loss": 1.2003,
	"step": 599
	},
	{
	"epoch": 2.4,
	"grad_norm": 1.039437174797058,
	"learning_rate": 1.014130391811457e-06,
	"loss": 1.1491,
	"step": 600
	},
	{
	"epoch": 2.404,
	"grad_norm": 1.0628715753555298,
	"learning_rate": 1.001122697921197e-06,
	"loss": 1.2069,
	"step": 601
	},
	{
	"epoch": 2.408,
	"grad_norm": 1.0313056707382202,
	"learning_rate": 9.881896778437328e-07,
	"loss": 1.1649,
	"step": 602
	},
	{
	"epoch": 2.412,
	"grad_norm": 1.0078644752502441,
	"learning_rate": 9.753315730863284e-07,
	"loss": 1.1739,
	"step": 603
	},
	{
	"epoch": 2.416,
	"grad_norm": 1.0151255130767822,
	"learning_rate": 9.625486237573046e-07,
	"loss": 1.1084,
	"step": 604
	},
	{
	"epoch": 2.42,
	"grad_norm": 0.9998011589050293,
	"learning_rate": 9.498410685615511e-07,
	"loss": 1.1366,
	"step": 605
	},
	{
	"epoch": 2.424,
	"grad_norm": 0.9374569058418274,
	"learning_rate": 9.372091447960685e-07,
	"loss": 1.0163,
	"step": 606
	},
	{
	"epoch": 2.428,
	"grad_norm": 1.0558018684387207,
	"learning_rate": 9.24653088345544e-07,
	"loss": 1.169,
	"step": 607
	},
	{
	"epoch": 2.432,
	"grad_norm": 1.0993043184280396,
	"learning_rate": 9.121731336779377e-07,
	"loss": 1.1611,
	"step": 608
	},
	{
	"epoch": 2.436,
	"grad_norm": 0.933655321598053,
	"learning_rate": 8.99769513840108e-07,
	"loss": 1.0638,
	"step": 609
	},
	{
	"epoch": 2.44,
	"grad_norm": 1.012734293937683,
	"learning_rate": 8.874424604534643e-07,
	"loss": 1.1495,
	"step": 610
	},
	{
	"epoch": 2.444,
	"grad_norm": 0.9672722816467285,
	"learning_rate": 8.751922037096328e-07,
	"loss": 1.1275,
	"step": 611
	},
	{
	"epoch": 2.448,
	"grad_norm": 0.990340530872345,
	"learning_rate": 8.630189723661663e-07,
	"loss": 1.1968,
	"step": 612
	},
	{
	"epoch": 2.452,
	"grad_norm": 0.9619189500808716,
	"learning_rate": 8.509229937422664e-07,
	"loss": 1.0906,
	"step": 613
	},
	{
	"epoch": 2.456,
	"grad_norm": 0.9421491026878357,
	"learning_rate": 8.389044937145397e-07,
	"loss": 1.0867,
	"step": 614
	},
	{
	"epoch": 2.46,
	"grad_norm": 1.013745903968811,
	"learning_rate": 8.269636967127864e-07,
	"loss": 1.1615,
	"step": 615
	},
	{
	"epoch": 2.464,
	"grad_norm": 1.1921918392181396,
	"learning_rate": 8.151008257158e-07,
	"loss": 1.1394,
	"step": 616
	},
	{
	"epoch": 2.468,
	"grad_norm": 1.0029451847076416,
	"learning_rate": 8.033161022472063e-07,
	"loss": 1.1518,
	"step": 617
	},
	{
	"epoch": 2.472,
	"grad_norm": 0.956015944480896,
	"learning_rate": 7.916097463713335e-07,
	"loss": 1.0743,
	"step": 618
	},
	{
	"epoch": 2.476,
	"grad_norm": 1.0313812494277954,
	"learning_rate": 7.799819766890926e-07,
	"loss": 1.1318,
	"step": 619
	},
	{
	"epoch": 2.48,
	"grad_norm": 0.9998788237571716,
	"learning_rate": 7.684330103339016e-07,
	"loss": 1.1073,
	"step": 620
	},
	{
	"epoch": 2.484,
	"grad_norm": 1.022858738899231,
	"learning_rate": 7.569630629676294e-07,
	"loss": 1.1129,
	"step": 621
	},
	{
	"epoch": 2.488,
	"grad_norm": 0.9638151526451111,
	"learning_rate": 7.455723487765664e-07,
	"loss": 1.1429,
	"step": 622
	},
	{
	"epoch": 2.492,
	"grad_norm": 1.0429561138153076,
	"learning_rate": 7.342610804674316e-07,
	"loss": 1.1634,
	"step": 623
	},
	{
	"epoch": 2.496,
	"grad_norm": 1.027001142501831,
	"learning_rate": 7.230294692633922e-07,
	"loss": 1.157,
	"step": 624
	},
	{
	"epoch": 2.5,
	"grad_norm": 1.0432196855545044,
	"learning_rate": 7.118777249001213e-07,
	"loss": 1.1634,
	"step": 625
	},
	{
	"epoch": 2.504,
	"grad_norm": 1.0033257007598877,
	"learning_rate": 7.008060556218893e-07,
	"loss": 1.1552,
	"step": 626
	},
	{
	"epoch": 2.508,
	"grad_norm": 1.0317420959472656,
	"learning_rate": 6.898146681776629e-07,
	"loss": 1.07,
	"step": 627
	},
	{
	"epoch": 2.512,
	"grad_norm": 0.9765068888664246,
	"learning_rate": 6.789037678172522e-07,
	"loss": 1.2058,
	"step": 628
	},
	{
	"epoch": 2.516,
	"grad_norm": 0.9833831787109375,
	"learning_rate": 6.680735582874781e-07,
	"loss": 1.1085,
	"step": 629
	},
	{
	"epoch": 2.52,
	"grad_norm": 1.0484850406646729,
	"learning_rate": 6.573242418283632e-07,
	"loss": 1.1234,
	"step": 630
	},
	{
	"epoch": 2.524,
	"grad_norm": 0.9526020884513855,
	"learning_rate": 6.466560191693566e-07,
	"loss": 1.0921,
	"step": 631
	},
	{
	"epoch": 2.528,
	"grad_norm": 0.9717855453491211,
	"learning_rate": 6.360690895255916e-07,
	"loss": 1.038,
	"step": 632
	},
	{
	"epoch": 2.532,
	"grad_norm": 0.9675845503807068,
	"learning_rate": 6.255636505941548e-07,
	"loss": 1.1378,
	"step": 633
	},
	{
	"epoch": 2.536,
	"grad_norm": 0.9222082495689392,
	"learning_rate": 6.151398985504043e-07,
	"loss": 1.0006,
	"step": 634
	},
	{
	"epoch": 2.54,
	"grad_norm": 1.0398544073104858,
	"learning_rate": 6.047980280443e-07,
	"loss": 1.2004,
	"step": 635
	},
	{
	"epoch": 2.544,
	"grad_norm": 0.9954432845115662,
	"learning_rate": 5.945382321967696e-07,
	"loss": 1.1346,
	"step": 636
	},
	{
	"epoch": 2.548,
	"grad_norm": 1.0304733514785767,
	"learning_rate": 5.84360702596109e-07,
	"loss": 1.1619,
	"step": 637
	},
	{
	"epoch": 2.552,
	"grad_norm": 1.0341770648956299,
	"learning_rate": 5.742656292943943e-07,
	"loss": 1.2535,
	"step": 638
	},
	{
	"epoch": 2.556,
	"grad_norm": 0.9743322134017944,
	"learning_rate": 5.642532008039392e-07,
	"loss": 1.1206,
	"step": 639
	},
	{
	"epoch": 2.56,
	"grad_norm": 1.0595154762268066,
	"learning_rate": 5.543236040937744e-07,
	"loss": 1.1708,
	"step": 640
	},
	{
	"epoch": 2.564,
	"grad_norm": 1.0400642156600952,
	"learning_rate": 5.444770245861553e-07,
	"loss": 1.1639,
	"step": 641
	},
	{
	"epoch": 2.568,
	"grad_norm": 0.8947452902793884,
	"learning_rate": 5.347136461530966e-07,
	"loss": 1.1171,
	"step": 642
	},
	{
	"epoch": 2.572,
	"grad_norm": 0.9468121528625488,
	"learning_rate": 5.250336511129462e-07,
	"loss": 1.0481,
	"step": 643
	},
	{
	"epoch": 2.576,
	"grad_norm": 0.9436845183372498,
	"learning_rate": 5.15437220226972e-07,
	"loss": 1.1367,
	"step": 644
	},
	{
	"epoch": 2.58,
	"grad_norm": 0.9462328553199768,
	"learning_rate": 5.059245326959927e-07,
	"loss": 1.0463,
	"step": 645
	},
	{
	"epoch": 2.584,
	"grad_norm": 1.0117089748382568,
	"learning_rate": 4.964957661570285e-07,
	"loss": 1.1258,
	"step": 646
	},
	{
	"epoch": 2.588,
	"grad_norm": 1.0454022884368896,
	"learning_rate": 4.871510966799847e-07,
	"loss": 1.1556,
	"step": 647
	},
	{
	"epoch": 2.592,
	"grad_norm": 0.9381544589996338,
	"learning_rate": 4.778906987643633e-07,
	"loss": 1.0831,
	"step": 648
	},
	{
	"epoch": 2.596,
	"grad_norm": 1.0206154584884644,
	"learning_rate": 4.6871474533600413e-07,
	"loss": 1.1627,
	"step": 649
	},
	{
	"epoch": 2.6,
	"grad_norm": 0.9210219979286194,
	"learning_rate": 4.5962340774385936e-07,
	"loss": 1.1038,
	"step": 650
	},
	{
	"epoch": 2.604,
	"grad_norm": 0.9466139674186707,
	"learning_rate": 4.506168557567886e-07,
	"loss": 1.0451,
	"step": 651
	},
	{
	"epoch": 2.608,
	"grad_norm": 0.9177185297012329,
	"learning_rate": 4.4169525756039164e-07,
	"loss": 1.0839,
	"step": 652
	},
	{
	"epoch": 2.612,
	"grad_norm": 1.0056695938110352,
	"learning_rate": 4.328587797538658e-07,
	"loss": 1.1586,
	"step": 653
	},
	{
	"epoch": 2.616,
	"grad_norm": 1.0050727128982544,
	"learning_rate": 4.2410758734689915e-07,
	"loss": 1.1436,
	"step": 654
	},
	{
	"epoch": 2.62,
	"grad_norm": 0.9479018449783325,
	"learning_rate": 4.1544184375658326e-07,
	"loss": 1.0661,
	"step": 655
	},
	{
	"epoch": 2.624,
	"grad_norm": 1.0148154497146606,
	"learning_rate": 4.0686171080436767e-07,
	"loss": 1.139,
	"step": 656
	},
	{
	"epoch": 2.628,
	"grad_norm": 0.9281206727027893,
	"learning_rate": 3.983673487130313e-07,
	"loss": 1.1202,
	"step": 657
	},
	{
	"epoch": 2.632,
	"grad_norm": 1.0474183559417725,
	"learning_rate": 3.8995891610369707e-07,
	"loss": 1.175,
	"step": 658
	},
	{
	"epoch": 2.636,
	"grad_norm": 0.9884467124938965,
	"learning_rate": 3.8163656999286647e-07,
	"loss": 1.0796,
	"step": 659
	},
	{
	"epoch": 2.64,
	"grad_norm": 1.0385491847991943,
	"learning_rate": 3.734004657894874e-07,
	"loss": 1.1317,
	"step": 660
	},
	{
	"epoch": 2.644,
	"grad_norm": 1.0091276168823242,
	"learning_rate": 3.6525075729205274e-07,
	"loss": 1.1528,
	"step": 661
	},
	{
	"epoch": 2.648,
	"grad_norm": 0.9969792366027832,
	"learning_rate": 3.5718759668572913e-07,
	"loss": 1.0808,
	"step": 662
	},
	{
	"epoch": 2.652,
	"grad_norm": 1.0289039611816406,
	"learning_rate": 3.4921113453951385e-07,
	"loss": 1.0928,
	"step": 663
	},
	{
	"epoch": 2.656,
	"grad_norm": 0.9001720547676086,
	"learning_rate": 3.4132151980342255e-07,
	"loss": 0.9865,
	"step": 664
	},
	{
	"epoch": 2.66,
	"grad_norm": 0.9682496786117554,
	"learning_rate": 3.335188998057115e-07,
	"loss": 1.1555,
	"step": 665
	},
	{
	"epoch": 2.664,
	"grad_norm": 0.9241328239440918,
	"learning_rate": 3.2580342025012204e-07,
	"loss": 1.0991,
	"step": 666
	},
	{
	"epoch": 2.668,
	"grad_norm": 0.8437192440032959,
	"learning_rate": 3.1817522521316034e-07,
	"loss": 1.0199,
	"step": 667
	},
	{
	"epoch": 2.672,
	"grad_norm": 0.9753063917160034,
	"learning_rate": 3.106344571414116e-07,
	"loss": 1.1078,
	"step": 668
	},
	{
	"epoch": 2.676,
	"grad_norm": 0.987506091594696,
	"learning_rate": 3.0318125684887233e-07,
	"loss": 1.0607,
	"step": 669
	},
	{
	"epoch": 2.68,
	"grad_norm": 0.9966980218887329,
	"learning_rate": 2.958157635143294e-07,
	"loss": 1.1868,
	"step": 670
	},
	{
	"epoch": 2.684,
	"grad_norm": 0.9446958899497986,
	"learning_rate": 2.8853811467875413e-07,
	"loss": 1.0376,
	"step": 671
	},
	{
	"epoch": 2.6879999999999997,
	"grad_norm": 1.0555483102798462,
	"learning_rate": 2.813484462427357e-07,
	"loss": 1.1838,
	"step": 672
	},
	{
	"epoch": 2.692,
	"grad_norm": 0.9516134858131409,
	"learning_rate": 2.7424689246394685e-07,
	"loss": 1.0569,
	"step": 673
	},
	{
	"epoch": 2.6959999999999997,
	"grad_norm": 0.9849783182144165,
	"learning_rate": 2.672335859546332e-07,
	"loss": 1.0446,
	"step": 674
	},
	{
	"epoch": 2.7,
	"grad_norm": 1.0225852727890015,
	"learning_rate": 2.6030865767913527e-07,
	"loss": 1.197,
	"step": 675
	},
	{
	"epoch": 2.7039999999999997,
	"grad_norm": 1.0124677419662476,
	"learning_rate": 2.534722369514503e-07,
	"loss": 1.1335,
	"step": 676
	},
	{
	"epoch": 2.708,
	"grad_norm": 0.9324035048484802,
	"learning_rate": 2.467244514328082e-07,
	"loss": 1.0847,
	"step": 677
	},
	{
	"epoch": 2.7119999999999997,
	"grad_norm": 0.9841536283493042,
	"learning_rate": 2.400654271292946e-07,
	"loss": 1.1351,
	"step": 678
	},
	{
	"epoch": 2.716,
	"grad_norm": 1.1448701620101929,
	"learning_rate": 2.334952883894942e-07,
	"loss": 1.3025,
	"step": 679
	},
	{
	"epoch": 2.7199999999999998,
	"grad_norm": 0.978304922580719,
	"learning_rate": 2.270141579021695e-07,
	"loss": 1.1859,
	"step": 680
	},
	{
	"epoch": 2.724,
	"grad_norm": 1.0148320198059082,
	"learning_rate": 2.2062215669397201e-07,
	"loss": 1.2038,
	"step": 681
	},
	{
	"epoch": 2.7279999999999998,
	"grad_norm": 1.0819321870803833,
	"learning_rate": 2.1431940412717843e-07,
	"loss": 1.2272,
	"step": 682
	},
	{
	"epoch": 2.732,
	"grad_norm": 0.9233974814414978,
	"learning_rate": 2.081060178974642e-07,
	"loss": 1.047,
	"step": 683
	},
	{
	"epoch": 2.7359999999999998,
	"grad_norm": 0.9904933571815491,
	"learning_rate": 2.019821140317052e-07,
	"loss": 1.1776,
	"step": 684
	},
	{
	"epoch": 2.74,
	"grad_norm": 1.0356868505477905,
	"learning_rate": 1.9594780688581172e-07,
	"loss": 1.2435,
	"step": 685
	},
	{
	"epoch": 2.7439999999999998,
	"grad_norm": 1.0266258716583252,
	"learning_rate": 1.900032091425902e-07,
	"loss": 1.2242,
	"step": 686
	},
	{
	"epoch": 2.748,
	"grad_norm": 1.131581425666809,
	"learning_rate": 1.8414843180964316e-07,
	"loss": 1.2531,
	"step": 687
	},
	{
	"epoch": 2.752,
	"grad_norm": 1.0443313121795654,
	"learning_rate": 1.7838358421729375e-07,
	"loss": 1.1,
	"step": 688
	},
	{
	"epoch": 2.7560000000000002,
	"grad_norm": 0.9902170300483704,
	"learning_rate": 1.7270877401654283e-07,
	"loss": 1.0773,
	"step": 689
	},
	{
	"epoch": 2.76,
	"grad_norm": 0.9638949632644653,
	"learning_rate": 1.6712410717706406e-07,
	"loss": 1.1367,
	"step": 690
	},
	{
	"epoch": 2.7640000000000002,
	"grad_norm": 0.9663549661636353,
	"learning_rate": 1.616296879852175e-07,
	"loss": 1.1683,
	"step": 691
	},
	{
	"epoch": 2.768,
	"grad_norm": 1.010324478149414,
	"learning_rate": 1.562256190421102e-07,
	"loss": 1.1175,
	"step": 692
	},
	{
	"epoch": 2.7720000000000002,
	"grad_norm": 0.9264208078384399,
	"learning_rate": 1.5091200126167328e-07,
	"loss": 1.0529,
	"step": 693
	},
	{
	"epoch": 2.776,
	"grad_norm": 1.1368553638458252,
	"learning_rate": 1.4568893386878057e-07,
	"loss": 1.163,
	"step": 694
	},
	{
	"epoch": 2.7800000000000002,
	"grad_norm": 1.0288695096969604,
	"learning_rate": 1.405565143973986e-07,
	"loss": 1.0929,
	"step": 695
	},
	{
	"epoch": 2.784,
	"grad_norm": 1.0272082090377808,
	"learning_rate": 1.3551483868875836e-07,
	"loss": 1.2123,
	"step": 696
	},
	{
	"epoch": 2.7880000000000003,
	"grad_norm": 0.9298689961433411,
	"learning_rate": 1.30564000889572e-07,
	"loss": 1.0406,
	"step": 697
	},
	{
	"epoch": 2.792,
	"grad_norm": 1.0057530403137207,
	"learning_rate": 1.257040934502729e-07,
	"loss": 1.1671,
	"step": 698
	},
	{
	"epoch": 2.7960000000000003,
	"grad_norm": 0.9338884353637695,
	"learning_rate": 1.209352071232861e-07,
	"loss": 1.121,
	"step": 699
	},
	{
	"epoch": 2.8,
	"grad_norm": 0.9351827502250671,
	"learning_rate": 1.162574309613379e-07,
	"loss": 1.0767,
	"step": 700
	},
	{
	"epoch": 2.8040000000000003,
	"grad_norm": 0.9718006253242493,
	"learning_rate": 1.1167085231579111e-07,
	"loss": 1.0954,
	"step": 701
	},
	{
	"epoch": 2.808,
	"grad_norm": 1.032774567604065,
	"learning_rate": 1.0717555683501413e-07,
	"loss": 1.1855,
	"step": 702
	},
	{
	"epoch": 2.8120000000000003,
	"grad_norm": 1.0385111570358276,
	"learning_rate": 1.027716284627811e-07,
	"loss": 1.1956,
	"step": 703
	},
	{
	"epoch": 2.816,
	"grad_norm": 1.0782874822616577,
	"learning_rate": 9.845914943670432e-08,
	"loss": 1.1951,
	"step": 704
	},
	{
	"epoch": 2.82,
	"grad_norm": 1.0683598518371582,
	"learning_rate": 9.423820028669983e-08,
	"loss": 1.2507,
	"step": 705
	},
	{
	"epoch": 2.824,
	"grad_norm": 0.9356297850608826,
	"learning_rate": 9.010885983348094e-08,
	"loss": 1.1028,
	"step": 706
	},
	{
	"epoch": 2.828,
	"grad_norm": 0.9524960517883301,
	"learning_rate": 8.607120518709156e-08,
	"loss": 1.0402,
	"step": 707
	},
	{
	"epoch": 2.832,
	"grad_norm": 0.9845964312553406,
	"learning_rate": 8.212531174545957e-08,
	"loss": 1.1571,
	"step": 708
	},
	{
	"epoch": 2.836,
	"grad_norm": 0.9666380882263184,
	"learning_rate": 7.827125319299301e-08,
	"loss": 1.0773,
	"step": 709
	},
	{
	"epoch": 2.84,
	"grad_norm": 0.9575058817863464,
	"learning_rate": 7.450910149920499e-08,
	"loss": 1.0366,
	"step": 710
	},
	{
	"epoch": 2.844,
	"grad_norm": 1.0145996809005737,
	"learning_rate": 7.083892691736428e-08,
	"loss": 1.1288,
	"step": 711
	},
	{
	"epoch": 2.848,
	"grad_norm": 1.0520100593566895,
	"learning_rate": 6.726079798319185e-08,
	"loss": 1.183,
	"step": 712
	},
	{
	"epoch": 2.852,
	"grad_norm": 0.9477232694625854,
	"learning_rate": 6.377478151357308e-08,
	"loss": 1.0467,
	"step": 713
	},
	{
	"epoch": 2.856,
	"grad_norm": 1.0197796821594238,
	"learning_rate": 6.038094260531425e-08,
	"loss": 1.2143,
	"step": 714
	},
	{
	"epoch": 2.86,
	"grad_norm": 1.029517650604248,
	"learning_rate": 5.707934463392628e-08,
	"loss": 1.1159,
	"step": 715
	},
	{
	"epoch": 2.864,
	"grad_norm": 1.0391532182693481,
	"learning_rate": 5.387004925244077e-08,
	"loss": 1.1501,
	"step": 716
	},
	{
	"epoch": 2.868,
	"grad_norm": 0.9292702674865723,
	"learning_rate": 5.0753116390258594e-08,
	"loss": 1.1139,
	"step": 717
	},
	{
	"epoch": 2.872,
	"grad_norm": 0.9527564644813538,
	"learning_rate": 4.772860425203252e-08,
	"loss": 1.0644,
	"step": 718
	},
	{
	"epoch": 2.876,
	"grad_norm": 1.0512701272964478,
	"learning_rate": 4.479656931657694e-08,
	"loss": 1.2117,
	"step": 719
	},
	{
	"epoch": 2.88,
	"grad_norm": 1.0136529207229614,
	"learning_rate": 4.195706633581709e-08,
	"loss": 1.1464,
	"step": 720
	},
	{
	"epoch": 2.884,
	"grad_norm": 1.0794901847839355,
	"learning_rate": 3.9210148333763135e-08,
	"loss": 1.21,
	"step": 721
	},
	{
	"epoch": 2.888,
	"grad_norm": 1.0426453351974487,
	"learning_rate": 3.655586660552324e-08,
	"loss": 1.112,
	"step": 722
	},
	{
	"epoch": 2.892,
	"grad_norm": 0.9325045943260193,
	"learning_rate": 3.39942707163432e-08,
	"loss": 1.0395,
	"step": 723
	},
	{
	"epoch": 2.896,
	"grad_norm": 0.9541572332382202,
	"learning_rate": 3.152540850068164e-08,
	"loss": 1.0698,
	"step": 724
	},
	{
	"epoch": 2.9,
	"grad_norm": 0.9602929353713989,
	"learning_rate": 2.9149326061317373e-08,
	"loss": 1.1259,
	"step": 725
	},
	{
	"epoch": 2.904,
	"grad_norm": 0.8852847218513489,
	"learning_rate": 2.686606776848788e-08,
	"loss": 1.0172,
	"step": 726
	},
	{
	"epoch": 2.908,
	"grad_norm": 1.061636209487915,
	"learning_rate": 2.4675676259059976e-08,
	"loss": 1.1733,
	"step": 727
	},
	{
	"epoch": 2.912,
	"grad_norm": 1.0787949562072754,
	"learning_rate": 2.2578192435736555e-08,
	"loss": 1.1884,
	"step": 728
	},
	{
	"epoch": 2.916,
	"grad_norm": 1.0201940536499023,
	"learning_rate": 2.0573655466289423e-08,
	"loss": 1.085,
	"step": 729
	},
	{
	"epoch": 2.92,
	"grad_norm": 0.987388014793396,
	"learning_rate": 1.866210278282876e-08,
	"loss": 1.1002,
	"step": 730
	},
	{
	"epoch": 2.924,
	"grad_norm": 1.0137457847595215,
	"learning_rate": 1.684357008110593e-08,
	"loss": 1.1844,
	"step": 731
	},
	{
	"epoch": 2.928,
	"grad_norm": 0.9481896162033081,
	"learning_rate": 1.5118091319843985e-08,
	"loss": 1.1112,
	"step": 732
	},
	{
	"epoch": 2.932,
	"grad_norm": 0.9766185283660889,
	"learning_rate": 1.3485698720107077e-08,
	"loss": 1.0849,
	"step": 733
	},
	{
	"epoch": 2.936,
	"grad_norm": 1.0705715417861938,
	"learning_rate": 1.1946422764695376e-08,
	"loss": 1.2248,
	"step": 734
	},
	{
	"epoch": 2.94,
	"grad_norm": 1.0736720561981201,
	"learning_rate": 1.0500292197577756e-08,
	"loss": 1.0905,
	"step": 735
	},
	{
	"epoch": 2.944,
	"grad_norm": 1.007784366607666,
	"learning_rate": 9.147334023354437e-09,
	"loss": 1.168,
	"step": 736
	},
	{
	"epoch": 2.948,
	"grad_norm": 1.0883458852767944,
	"learning_rate": 7.887573506752954e-09,
	"loss": 1.1768,
	"step": 737
	},
	{
	"epoch": 2.952,
	"grad_norm": 0.9906151294708252,
	"learning_rate": 6.7210341721563044e-09,
	"loss": 1.0216,
	"step": 738
	},
	{
	"epoch": 2.956,
	"grad_norm": 1.0448439121246338,
	"learning_rate": 5.647737803163855e-09,
	"loss": 1.1375,
	"step": 739
	},
	{
	"epoch": 2.96,
	"grad_norm": 1.081884503364563,
	"learning_rate": 4.667704442183341e-09,
	"loss": 1.1288,
	"step": 740
	},
	{
	"epoch": 2.964,
	"grad_norm": 1.0683910846710205,
	"learning_rate": 3.780952390058379e-09,
	"loss": 1.2389,
	"step": 741
	},
	{
	"epoch": 2.968,
	"grad_norm": 1.0774167776107788,
	"learning_rate": 2.98749820572708e-09,
	"loss": 1.1979,
	"step": 742
	},
	{
	"epoch": 2.972,
	"grad_norm": 1.0830549001693726,
	"learning_rate": 2.2873567059084056e-09,
	"loss": 1.2507,
	"step": 743
	},
	{
	"epoch": 2.976,
	"grad_norm": 1.0182136297225952,
	"learning_rate": 1.680540964832389e-09,
	"loss": 1.1204,
	"step": 744
	},
	{
	"epoch": 2.98,
	"grad_norm": 1.1047148704528809,
	"learning_rate": 1.1670623139903303e-09,
	"loss": 1.288,
	"step": 745
	},
	{
	"epoch": 2.984,
	"grad_norm": 0.9929722547531128,
	"learning_rate": 7.469303419255225e-10,
	"loss": 1.1117,
	"step": 746
	},
	{
	"epoch": 2.988,
	"grad_norm": 1.0203157663345337,
	"learning_rate": 4.2015289405339386e-10,
	"loss": 1.1739,
	"step": 747
	},
	{
	"epoch": 2.992,
	"grad_norm": 0.9244707822799683,
	"learning_rate": 1.8673607251717963e-10,
	"loss": 1.0712,
	"step": 748
	},
	{
	"epoch": 2.996,
	"grad_norm": 0.9131047129631042,
	"learning_rate": 4.66842360713482e-11,
	"loss": 1.0141,
	"step": 749
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.9466648697853088,
	"learning_rate": 0.0,
	"loss": 1.0966,
	"step": 750
	},
	{
	"epoch": 3.0,
	"step": 750,
	"total_flos": 119426084241408.0,
	"train_loss": 1.3708130646546681,
	"train_runtime": 12975.2994,
	"train_samples_per_second": 1.85,
	"train_steps_per_second": 0.058
	}
	],
	"logging_steps": 1,
	"max_steps": 750,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 119426084241408.0,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}