End of training

df77ff3 verified 7 months ago

72.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.9848024316109423,
	"eval_steps": 500,
	"global_step": 411,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00729483282674772,
	"grad_norm": 0.14541301131248474,
	"learning_rate": 2.3809523809523811e-07,
	"loss": 0.7602,
	"step": 1
	},
	{
	"epoch": 0.01458966565349544,
	"grad_norm": 0.1567784547805786,
	"learning_rate": 4.7619047619047623e-07,
	"loss": 0.8215,
	"step": 2
	},
	{
	"epoch": 0.02188449848024316,
	"grad_norm": 0.1584789901971817,
	"learning_rate": 7.142857142857143e-07,
	"loss": 0.8269,
	"step": 3
	},
	{
	"epoch": 0.02917933130699088,
	"grad_norm": 0.157843217253685,
	"learning_rate": 9.523809523809525e-07,
	"loss": 0.7909,
	"step": 4
	},
	{
	"epoch": 0.0364741641337386,
	"grad_norm": 0.1607961654663086,
	"learning_rate": 1.1904761904761906e-06,
	"loss": 0.8198,
	"step": 5
	},
	{
	"epoch": 0.04376899696048632,
	"grad_norm": 0.15348272025585175,
	"learning_rate": 1.4285714285714286e-06,
	"loss": 0.7687,
	"step": 6
	},
	{
	"epoch": 0.05106382978723404,
	"grad_norm": 0.1496104598045349,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.7942,
	"step": 7
	},
	{
	"epoch": 0.05835866261398176,
	"grad_norm": 0.2734036445617676,
	"learning_rate": 1.904761904761905e-06,
	"loss": 0.847,
	"step": 8
	},
	{
	"epoch": 0.06565349544072949,
	"grad_norm": 0.13683773577213287,
	"learning_rate": 2.1428571428571427e-06,
	"loss": 0.754,
	"step": 9
	},
	{
	"epoch": 0.0729483282674772,
	"grad_norm": 0.11306589841842651,
	"learning_rate": 2.380952380952381e-06,
	"loss": 0.6991,
	"step": 10
	},
	{
	"epoch": 0.08024316109422493,
	"grad_norm": 0.12233421206474304,
	"learning_rate": 2.6190476190476192e-06,
	"loss": 0.7829,
	"step": 11
	},
	{
	"epoch": 0.08753799392097264,
	"grad_norm": 0.10262873023748398,
	"learning_rate": 2.8571428571428573e-06,
	"loss": 0.7048,
	"step": 12
	},
	{
	"epoch": 0.09483282674772037,
	"grad_norm": 0.10435234010219574,
	"learning_rate": 3.0952380952380957e-06,
	"loss": 0.768,
	"step": 13
	},
	{
	"epoch": 0.10212765957446808,
	"grad_norm": 0.0735386535525322,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.6147,
	"step": 14
	},
	{
	"epoch": 0.1094224924012158,
	"grad_norm": 0.07339954376220703,
	"learning_rate": 3.5714285714285718e-06,
	"loss": 0.7452,
	"step": 15
	},
	{
	"epoch": 0.11671732522796352,
	"grad_norm": 0.06846445798873901,
	"learning_rate": 3.80952380952381e-06,
	"loss": 0.7383,
	"step": 16
	},
	{
	"epoch": 0.12401215805471125,
	"grad_norm": 0.07185480743646622,
	"learning_rate": 4.047619047619048e-06,
	"loss": 0.7081,
	"step": 17
	},
	{
	"epoch": 0.13130699088145897,
	"grad_norm": 0.06281375139951706,
	"learning_rate": 4.2857142857142855e-06,
	"loss": 0.6171,
	"step": 18
	},
	{
	"epoch": 0.1386018237082067,
	"grad_norm": 0.08302997052669525,
	"learning_rate": 4.523809523809524e-06,
	"loss": 0.6136,
	"step": 19
	},
	{
	"epoch": 0.1458966565349544,
	"grad_norm": 0.07521834969520569,
	"learning_rate": 4.761904761904762e-06,
	"loss": 0.6401,
	"step": 20
	},
	{
	"epoch": 0.15319148936170213,
	"grad_norm": 0.07346966117620468,
	"learning_rate": 5e-06,
	"loss": 0.6575,
	"step": 21
	},
	{
	"epoch": 0.16048632218844985,
	"grad_norm": 0.06220546364784241,
	"learning_rate": 5.2380952380952384e-06,
	"loss": 0.585,
	"step": 22
	},
	{
	"epoch": 0.16778115501519758,
	"grad_norm": 0.06210927292704582,
	"learning_rate": 5.476190476190477e-06,
	"loss": 0.6116,
	"step": 23
	},
	{
	"epoch": 0.17507598784194528,
	"grad_norm": 0.06617508083581924,
	"learning_rate": 5.7142857142857145e-06,
	"loss": 0.6591,
	"step": 24
	},
	{
	"epoch": 0.182370820668693,
	"grad_norm": 0.06115543842315674,
	"learning_rate": 5.9523809523809525e-06,
	"loss": 0.6164,
	"step": 25
	},
	{
	"epoch": 0.18966565349544073,
	"grad_norm": 0.05512455105781555,
	"learning_rate": 6.1904761904761914e-06,
	"loss": 0.6131,
	"step": 26
	},
	{
	"epoch": 0.19696048632218846,
	"grad_norm": 0.05426128953695297,
	"learning_rate": 6.4285714285714295e-06,
	"loss": 0.6233,
	"step": 27
	},
	{
	"epoch": 0.20425531914893616,
	"grad_norm": 0.04495101794600487,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.6017,
	"step": 28
	},
	{
	"epoch": 0.2115501519756839,
	"grad_norm": 0.052700527012348175,
	"learning_rate": 6.9047619047619055e-06,
	"loss": 0.6209,
	"step": 29
	},
	{
	"epoch": 0.2188449848024316,
	"grad_norm": 0.05274520814418793,
	"learning_rate": 7.1428571428571436e-06,
	"loss": 0.562,
	"step": 30
	},
	{
	"epoch": 0.22613981762917934,
	"grad_norm": 0.0418085902929306,
	"learning_rate": 7.380952380952382e-06,
	"loss": 0.5356,
	"step": 31
	},
	{
	"epoch": 0.23343465045592704,
	"grad_norm": 0.04744059965014458,
	"learning_rate": 7.61904761904762e-06,
	"loss": 0.5759,
	"step": 32
	},
	{
	"epoch": 0.24072948328267477,
	"grad_norm": 0.051624756306409836,
	"learning_rate": 7.857142857142858e-06,
	"loss": 0.5989,
	"step": 33
	},
	{
	"epoch": 0.2480243161094225,
	"grad_norm": 0.04632480815052986,
	"learning_rate": 8.095238095238097e-06,
	"loss": 0.6036,
	"step": 34
	},
	{
	"epoch": 0.2553191489361702,
	"grad_norm": 0.040394943207502365,
	"learning_rate": 8.333333333333334e-06,
	"loss": 0.5439,
	"step": 35
	},
	{
	"epoch": 0.26261398176291795,
	"grad_norm": 0.047632846981287,
	"learning_rate": 8.571428571428571e-06,
	"loss": 0.6187,
	"step": 36
	},
	{
	"epoch": 0.26990881458966565,
	"grad_norm": 0.04498811811208725,
	"learning_rate": 8.80952380952381e-06,
	"loss": 0.5686,
	"step": 37
	},
	{
	"epoch": 0.2772036474164134,
	"grad_norm": 0.04858787730336189,
	"learning_rate": 9.047619047619049e-06,
	"loss": 0.6224,
	"step": 38
	},
	{
	"epoch": 0.2844984802431611,
	"grad_norm": 0.04534129053354263,
	"learning_rate": 9.285714285714288e-06,
	"loss": 0.576,
	"step": 39
	},
	{
	"epoch": 0.2917933130699088,
	"grad_norm": 0.04878037050366402,
	"learning_rate": 9.523809523809525e-06,
	"loss": 0.5956,
	"step": 40
	},
	{
	"epoch": 0.29908814589665655,
	"grad_norm": 0.044632136821746826,
	"learning_rate": 9.761904761904762e-06,
	"loss": 0.5748,
	"step": 41
	},
	{
	"epoch": 0.30638297872340425,
	"grad_norm": 0.041874803602695465,
	"learning_rate": 1e-05,
	"loss": 0.5752,
	"step": 42
	},
	{
	"epoch": 0.31367781155015195,
	"grad_norm": 0.041942398995161057,
	"learning_rate": 9.999818789066164e-06,
	"loss": 0.5759,
	"step": 43
	},
	{
	"epoch": 0.3209726443768997,
	"grad_norm": 0.045705121010541916,
	"learning_rate": 9.999275169399614e-06,
	"loss": 0.5962,
	"step": 44
	},
	{
	"epoch": 0.3282674772036474,
	"grad_norm": 0.043411824852228165,
	"learning_rate": 9.998369180404283e-06,
	"loss": 0.54,
	"step": 45
	},
	{
	"epoch": 0.33556231003039516,
	"grad_norm": 0.03998137265443802,
	"learning_rate": 9.997100887750215e-06,
	"loss": 0.5874,
	"step": 46
	},
	{
	"epoch": 0.34285714285714286,
	"grad_norm": 0.047370899468660355,
	"learning_rate": 9.995470383368808e-06,
	"loss": 0.6051,
	"step": 47
	},
	{
	"epoch": 0.35015197568389056,
	"grad_norm": 0.04455406963825226,
	"learning_rate": 9.993477785446151e-06,
	"loss": 0.5604,
	"step": 48
	},
	{
	"epoch": 0.3574468085106383,
	"grad_norm": 0.043418001383543015,
	"learning_rate": 9.991123238414455e-06,
	"loss": 0.5555,
	"step": 49
	},
	{
	"epoch": 0.364741641337386,
	"grad_norm": 0.03939136862754822,
	"learning_rate": 9.988406912941591e-06,
	"loss": 0.5493,
	"step": 50
	},
	{
	"epoch": 0.3720364741641337,
	"grad_norm": 0.04485655948519707,
	"learning_rate": 9.985329005918702e-06,
	"loss": 0.5804,
	"step": 51
	},
	{
	"epoch": 0.37933130699088147,
	"grad_norm": 0.0435781255364418,
	"learning_rate": 9.981889740445958e-06,
	"loss": 0.5617,
	"step": 52
	},
	{
	"epoch": 0.38662613981762917,
	"grad_norm": 0.03838958591222763,
	"learning_rate": 9.978089365816357e-06,
	"loss": 0.5481,
	"step": 53
	},
	{
	"epoch": 0.3939209726443769,
	"grad_norm": 0.03926938772201538,
	"learning_rate": 9.973928157497675e-06,
	"loss": 0.5195,
	"step": 54
	},
	{
	"epoch": 0.4012158054711246,
	"grad_norm": 0.049530286341905594,
	"learning_rate": 9.969406417112489e-06,
	"loss": 0.5854,
	"step": 55
	},
	{
	"epoch": 0.4085106382978723,
	"grad_norm": 0.08943431824445724,
	"learning_rate": 9.964524472416319e-06,
	"loss": 0.5706,
	"step": 56
	},
	{
	"epoch": 0.4158054711246201,
	"grad_norm": 0.04114034026861191,
	"learning_rate": 9.959282677273869e-06,
	"loss": 0.4923,
	"step": 57
	},
	{
	"epoch": 0.4231003039513678,
	"grad_norm": 0.03834295645356178,
	"learning_rate": 9.953681411633376e-06,
	"loss": 0.5151,
	"step": 58
	},
	{
	"epoch": 0.43039513677811553,
	"grad_norm": 0.03940470516681671,
	"learning_rate": 9.947721081499068e-06,
	"loss": 0.5274,
	"step": 59
	},
	{
	"epoch": 0.4376899696048632,
	"grad_norm": 0.05276661738753319,
	"learning_rate": 9.941402118901743e-06,
	"loss": 0.5312,
	"step": 60
	},
	{
	"epoch": 0.4449848024316109,
	"grad_norm": 0.04116562008857727,
	"learning_rate": 9.934724981867447e-06,
	"loss": 0.5073,
	"step": 61
	},
	{
	"epoch": 0.4522796352583587,
	"grad_norm": 0.039049182087183,
	"learning_rate": 9.927690154384273e-06,
	"loss": 0.5367,
	"step": 62
	},
	{
	"epoch": 0.4595744680851064,
	"grad_norm": 0.042383261024951935,
	"learning_rate": 9.920298146367287e-06,
	"loss": 0.5232,
	"step": 63
	},
	{
	"epoch": 0.4668693009118541,
	"grad_norm": 0.04153553023934364,
	"learning_rate": 9.912549493621555e-06,
	"loss": 0.5438,
	"step": 64
	},
	{
	"epoch": 0.47416413373860183,
	"grad_norm": 0.04116344451904297,
	"learning_rate": 9.904444757803322e-06,
	"loss": 0.4803,
	"step": 65
	},
	{
	"epoch": 0.48145896656534953,
	"grad_norm": 0.06467548757791519,
	"learning_rate": 9.895984526379282e-06,
	"loss": 0.5554,
	"step": 66
	},
	{
	"epoch": 0.4887537993920973,
	"grad_norm": 0.04420805722475052,
	"learning_rate": 9.887169412584012e-06,
	"loss": 0.5659,
	"step": 67
	},
	{
	"epoch": 0.496048632218845,
	"grad_norm": 0.04072507843375206,
	"learning_rate": 9.878000055375512e-06,
	"loss": 0.486,
	"step": 68
	},
	{
	"epoch": 0.5033434650455927,
	"grad_norm": 0.04508865624666214,
	"learning_rate": 9.868477119388897e-06,
	"loss": 0.5284,
	"step": 69
	},
	{
	"epoch": 0.5106382978723404,
	"grad_norm": 0.04231835529208183,
	"learning_rate": 9.858601294888212e-06,
	"loss": 0.5185,
	"step": 70
	},
	{
	"epoch": 0.5179331306990882,
	"grad_norm": 0.03981684520840645,
	"learning_rate": 9.848373297716414e-06,
	"loss": 0.5246,
	"step": 71
	},
	{
	"epoch": 0.5252279635258359,
	"grad_norm": 0.045293230563402176,
	"learning_rate": 9.837793869243468e-06,
	"loss": 0.5403,
	"step": 72
	},
	{
	"epoch": 0.5325227963525836,
	"grad_norm": 0.0415407195687294,
	"learning_rate": 9.826863776312621e-06,
	"loss": 0.568,
	"step": 73
	},
	{
	"epoch": 0.5398176291793313,
	"grad_norm": 0.04549698531627655,
	"learning_rate": 9.815583811184809e-06,
	"loss": 0.5547,
	"step": 74
	},
	{
	"epoch": 0.547112462006079,
	"grad_norm": 0.03895876184105873,
	"learning_rate": 9.803954791481239e-06,
	"loss": 0.5374,
	"step": 75
	},
	{
	"epoch": 0.5544072948328268,
	"grad_norm": 0.046192847192287445,
	"learning_rate": 9.79197756012412e-06,
	"loss": 0.5561,
	"step": 76
	},
	{
	"epoch": 0.5617021276595745,
	"grad_norm": 0.03921407088637352,
	"learning_rate": 9.779652985275562e-06,
	"loss": 0.5488,
	"step": 77
	},
	{
	"epoch": 0.5689969604863222,
	"grad_norm": 0.037232838571071625,
	"learning_rate": 9.766981960274653e-06,
	"loss": 0.4963,
	"step": 78
	},
	{
	"epoch": 0.5762917933130699,
	"grad_norm": 0.05492810904979706,
	"learning_rate": 9.753965403572703e-06,
	"loss": 0.5621,
	"step": 79
	},
	{
	"epoch": 0.5835866261398176,
	"grad_norm": 0.04202823340892792,
	"learning_rate": 9.740604258666668e-06,
	"loss": 0.5479,
	"step": 80
	},
	{
	"epoch": 0.5908814589665653,
	"grad_norm": 0.04189832881093025,
	"learning_rate": 9.726899494030768e-06,
	"loss": 0.5802,
	"step": 81
	},
	{
	"epoch": 0.5981762917933131,
	"grad_norm": 0.039709825068712234,
	"learning_rate": 9.712852103046281e-06,
	"loss": 0.5166,
	"step": 82
	},
	{
	"epoch": 0.6054711246200608,
	"grad_norm": 0.04080045223236084,
	"learning_rate": 9.698463103929542e-06,
	"loss": 0.5289,
	"step": 83
	},
	{
	"epoch": 0.6127659574468085,
	"grad_norm": 0.038535572588443756,
	"learning_rate": 9.68373353965814e-06,
	"loss": 0.5352,
	"step": 84
	},
	{
	"epoch": 0.6200607902735562,
	"grad_norm": 0.04705570638179779,
	"learning_rate": 9.66866447789531e-06,
	"loss": 0.5235,
	"step": 85
	},
	{
	"epoch": 0.6273556231003039,
	"grad_norm": 0.042207516729831696,
	"learning_rate": 9.65325701091256e-06,
	"loss": 0.5147,
	"step": 86
	},
	{
	"epoch": 0.6346504559270517,
	"grad_norm": 0.04210168495774269,
	"learning_rate": 9.637512255510475e-06,
	"loss": 0.5241,
	"step": 87
	},
	{
	"epoch": 0.6419452887537994,
	"grad_norm": 0.03785989060997963,
	"learning_rate": 9.62143135293779e-06,
	"loss": 0.5429,
	"step": 88
	},
	{
	"epoch": 0.6492401215805471,
	"grad_norm": 0.04283512756228447,
	"learning_rate": 9.605015468808651e-06,
	"loss": 0.5242,
	"step": 89
	},
	{
	"epoch": 0.6565349544072948,
	"grad_norm": 0.043273307383060455,
	"learning_rate": 9.588265793018141e-06,
	"loss": 0.5455,
	"step": 90
	},
	{
	"epoch": 0.6638297872340425,
	"grad_norm": 0.04218590632081032,
	"learning_rate": 9.571183539656011e-06,
	"loss": 0.5778,
	"step": 91
	},
	{
	"epoch": 0.6711246200607903,
	"grad_norm": 0.03844400867819786,
	"learning_rate": 9.553769946918698e-06,
	"loss": 0.5233,
	"step": 92
	},
	{
	"epoch": 0.678419452887538,
	"grad_norm": 0.04001948982477188,
	"learning_rate": 9.536026277019562e-06,
	"loss": 0.5156,
	"step": 93
	},
	{
	"epoch": 0.6857142857142857,
	"grad_norm": 0.04228726401925087,
	"learning_rate": 9.517953816097396e-06,
	"loss": 0.5138,
	"step": 94
	},
	{
	"epoch": 0.6930091185410334,
	"grad_norm": 0.03879157081246376,
	"learning_rate": 9.499553874123213e-06,
	"loss": 0.4926,
	"step": 95
	},
	{
	"epoch": 0.7003039513677811,
	"grad_norm": 0.04016513749957085,
	"learning_rate": 9.480827784805278e-06,
	"loss": 0.497,
	"step": 96
	},
	{
	"epoch": 0.7075987841945289,
	"grad_norm": 0.03983764350414276,
	"learning_rate": 9.461776905492446e-06,
	"loss": 0.4852,
	"step": 97
	},
	{
	"epoch": 0.7148936170212766,
	"grad_norm": 0.056514669209718704,
	"learning_rate": 9.442402617075765e-06,
	"loss": 0.5288,
	"step": 98
	},
	{
	"epoch": 0.7221884498480243,
	"grad_norm": 0.046206481754779816,
	"learning_rate": 9.422706323888398e-06,
	"loss": 0.5418,
	"step": 99
	},
	{
	"epoch": 0.729483282674772,
	"grad_norm": 0.0474584735929966,
	"learning_rate": 9.402689453603815e-06,
	"loss": 0.5531,
	"step": 100
	},
	{
	"epoch": 0.7367781155015197,
	"grad_norm": 0.037484850734472275,
	"learning_rate": 9.382353457132318e-06,
	"loss": 0.4869,
	"step": 101
	},
	{
	"epoch": 0.7440729483282674,
	"grad_norm": 0.03749077394604683,
	"learning_rate": 9.361699808515877e-06,
	"loss": 0.5275,
	"step": 102
	},
	{
	"epoch": 0.7513677811550152,
	"grad_norm": 0.038470759987831116,
	"learning_rate": 9.340730004821266e-06,
	"loss": 0.5044,
	"step": 103
	},
	{
	"epoch": 0.7586626139817629,
	"grad_norm": 0.038027700036764145,
	"learning_rate": 9.31944556603157e-06,
	"loss": 0.5025,
	"step": 104
	},
	{
	"epoch": 0.7659574468085106,
	"grad_norm": 0.046422988176345825,
	"learning_rate": 9.297848034936007e-06,
	"loss": 0.5341,
	"step": 105
	},
	{
	"epoch": 0.7732522796352583,
	"grad_norm": 0.043657850474119186,
	"learning_rate": 9.275938977018082e-06,
	"loss": 0.5085,
	"step": 106
	},
	{
	"epoch": 0.780547112462006,
	"grad_norm": 0.04235101863741875,
	"learning_rate": 9.253719980342134e-06,
	"loss": 0.5397,
	"step": 107
	},
	{
	"epoch": 0.7878419452887538,
	"grad_norm": 0.04412844404578209,
	"learning_rate": 9.231192655438222e-06,
	"loss": 0.5522,
	"step": 108
	},
	{
	"epoch": 0.7951367781155015,
	"grad_norm": 0.04110129550099373,
	"learning_rate": 9.208358635185372e-06,
	"loss": 0.5785,
	"step": 109
	},
	{
	"epoch": 0.8024316109422492,
	"grad_norm": 0.03757128119468689,
	"learning_rate": 9.185219574693242e-06,
	"loss": 0.4777,
	"step": 110
	},
	{
	"epoch": 0.8097264437689969,
	"grad_norm": 0.03927014395594597,
	"learning_rate": 9.161777151182137e-06,
	"loss": 0.526,
	"step": 111
	},
	{
	"epoch": 0.8170212765957446,
	"grad_norm": 0.03983665257692337,
	"learning_rate": 9.138033063861436e-06,
	"loss": 0.5138,
	"step": 112
	},
	{
	"epoch": 0.8243161094224924,
	"grad_norm": 0.038819894194602966,
	"learning_rate": 9.113989033806434e-06,
	"loss": 0.494,
	"step": 113
	},
	{
	"epoch": 0.8316109422492401,
	"grad_norm": 0.05275421962141991,
	"learning_rate": 9.089646803833589e-06,
	"loss": 0.539,
	"step": 114
	},
	{
	"epoch": 0.8389057750759878,
	"grad_norm": 0.04078809916973114,
	"learning_rate": 9.06500813837419e-06,
	"loss": 0.4778,
	"step": 115
	},
	{
	"epoch": 0.8462006079027355,
	"grad_norm": 0.040415696799755096,
	"learning_rate": 9.040074823346466e-06,
	"loss": 0.5443,
	"step": 116
	},
	{
	"epoch": 0.8534954407294832,
	"grad_norm": 0.03834336996078491,
	"learning_rate": 9.014848666026138e-06,
	"loss": 0.4945,
	"step": 117
	},
	{
	"epoch": 0.8607902735562311,
	"grad_norm": 0.04293690249323845,
	"learning_rate": 8.989331494915417e-06,
	"loss": 0.5404,
	"step": 118
	},
	{
	"epoch": 0.8680851063829788,
	"grad_norm": 0.04116823151707649,
	"learning_rate": 8.963525159610465e-06,
	"loss": 0.5274,
	"step": 119
	},
	{
	"epoch": 0.8753799392097265,
	"grad_norm": 0.04143698886036873,
	"learning_rate": 8.937431530667329e-06,
	"loss": 0.4916,
	"step": 120
	},
	{
	"epoch": 0.8826747720364742,
	"grad_norm": 0.039400726556777954,
	"learning_rate": 8.911052499466358e-06,
	"loss": 0.5573,
	"step": 121
	},
	{
	"epoch": 0.8899696048632219,
	"grad_norm": 0.035739775747060776,
	"learning_rate": 8.884389978075098e-06,
	"loss": 0.4961,
	"step": 122
	},
	{
	"epoch": 0.8972644376899696,
	"grad_norm": 0.04682913422584534,
	"learning_rate": 8.857445899109716e-06,
	"loss": 0.4712,
	"step": 123
	},
	{
	"epoch": 0.9045592705167174,
	"grad_norm": 0.04531010612845421,
	"learning_rate": 8.83022221559489e-06,
	"loss": 0.5242,
	"step": 124
	},
	{
	"epoch": 0.9118541033434651,
	"grad_norm": 0.04528380185365677,
	"learning_rate": 8.80272090082227e-06,
	"loss": 0.5506,
	"step": 125
	},
	{
	"epoch": 0.9191489361702128,
	"grad_norm": 0.03824332728981972,
	"learning_rate": 8.774943948207427e-06,
	"loss": 0.4581,
	"step": 126
	},
	{
	"epoch": 0.9264437689969605,
	"grad_norm": 0.03896916285157204,
	"learning_rate": 8.746893371145367e-06,
	"loss": 0.5504,
	"step": 127
	},
	{
	"epoch": 0.9337386018237082,
	"grad_norm": 0.03746696934103966,
	"learning_rate": 8.718571202864598e-06,
	"loss": 0.4589,
	"step": 128
	},
	{
	"epoch": 0.941033434650456,
	"grad_norm": 0.04142184555530548,
	"learning_rate": 8.689979496279747e-06,
	"loss": 0.5299,
	"step": 129
	},
	{
	"epoch": 0.9483282674772037,
	"grad_norm": 0.03700762987136841,
	"learning_rate": 8.661120323842751e-06,
	"loss": 0.5159,
	"step": 130
	},
	{
	"epoch": 0.9556231003039514,
	"grad_norm": 0.036684855818748474,
	"learning_rate": 8.631995777392645e-06,
	"loss": 0.4854,
	"step": 131
	},
	{
	"epoch": 0.9629179331306991,
	"grad_norm": 0.06939133256673813,
	"learning_rate": 8.602607968003935e-06,
	"loss": 0.5101,
	"step": 132
	},
	{
	"epoch": 0.9702127659574468,
	"grad_norm": 0.039062708616256714,
	"learning_rate": 8.572959025833573e-06,
	"loss": 0.5005,
	"step": 133
	},
	{
	"epoch": 0.9775075987841946,
	"grad_norm": 0.04555986076593399,
	"learning_rate": 8.543051099966558e-06,
	"loss": 0.5465,
	"step": 134
	},
	{
	"epoch": 0.9848024316109423,
	"grad_norm": 0.04333364591002464,
	"learning_rate": 8.512886358260162e-06,
	"loss": 0.5237,
	"step": 135
	},
	{
	"epoch": 0.99209726443769,
	"grad_norm": 0.04095487669110298,
	"learning_rate": 8.482466987186785e-06,
	"loss": 0.5335,
	"step": 136
	},
	{
	"epoch": 0.9993920972644377,
	"grad_norm": 0.0442386157810688,
	"learning_rate": 8.451795191675488e-06,
	"loss": 0.5107,
	"step": 137
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.0442386157810688,
	"learning_rate": 8.420873194952153e-06,
	"loss": 0.465,
	"step": 138
	},
	{
	"epoch": 1.0072948328267477,
	"grad_norm": 0.1445915699005127,
	"learning_rate": 8.38970323837834e-06,
	"loss": 0.4704,
	"step": 139
	},
	{
	"epoch": 1.0145896656534954,
	"grad_norm": 0.042022328823804855,
	"learning_rate": 8.358287581288824e-06,
	"loss": 0.4282,
	"step": 140
	},
	{
	"epoch": 1.021884498480243,
	"grad_norm": 0.04201134666800499,
	"learning_rate": 8.326628500827826e-06,
	"loss": 0.4539,
	"step": 141
	},
	{
	"epoch": 1.0291793313069908,
	"grad_norm": 0.04877388849854469,
	"learning_rate": 8.294728291783967e-06,
	"loss": 0.4641,
	"step": 142
	},
	{
	"epoch": 1.0364741641337385,
	"grad_norm": 0.046164825558662415,
	"learning_rate": 8.262589266423908e-06,
	"loss": 0.419,
	"step": 143
	},
	{
	"epoch": 1.0437689969604864,
	"grad_norm": 0.041141681373119354,
	"learning_rate": 8.230213754324773e-06,
	"loss": 0.4224,
	"step": 144
	},
	{
	"epoch": 1.0510638297872341,
	"grad_norm": 0.03967837244272232,
	"learning_rate": 8.19760410220527e-06,
	"loss": 0.4268,
	"step": 145
	},
	{
	"epoch": 1.0583586626139818,
	"grad_norm": 0.05634555220603943,
	"learning_rate": 8.16476267375561e-06,
	"loss": 0.4025,
	"step": 146
	},
	{
	"epoch": 1.0656534954407295,
	"grad_norm": 0.041606318205595016,
	"learning_rate": 8.131691849466154e-06,
	"loss": 0.4335,
	"step": 147
	},
	{
	"epoch": 1.0729483282674772,
	"grad_norm": 0.03656647726893425,
	"learning_rate": 8.098394026454886e-06,
	"loss": 0.456,
	"step": 148
	},
	{
	"epoch": 1.080243161094225,
	"grad_norm": 0.041005730628967285,
	"learning_rate": 8.064871618293647e-06,
	"loss": 0.3925,
	"step": 149
	},
	{
	"epoch": 1.0875379939209726,
	"grad_norm": 0.04722120240330696,
	"learning_rate": 8.031127054833192e-06,
	"loss": 0.3981,
	"step": 150
	},
	{
	"epoch": 1.0948328267477203,
	"grad_norm": 0.043071143329143524,
	"learning_rate": 7.997162782027061e-06,
	"loss": 0.4296,
	"step": 151
	},
	{
	"epoch": 1.102127659574468,
	"grad_norm": 0.04518291354179382,
	"learning_rate": 7.962981261754295e-06,
	"loss": 0.4376,
	"step": 152
	},
	{
	"epoch": 1.1094224924012157,
	"grad_norm": 0.04998685419559479,
	"learning_rate": 7.928584971640974e-06,
	"loss": 0.452,
	"step": 153
	},
	{
	"epoch": 1.1167173252279636,
	"grad_norm": 0.04469837248325348,
	"learning_rate": 7.893976404880643e-06,
	"loss": 0.4316,
	"step": 154
	},
	{
	"epoch": 1.1240121580547113,
	"grad_norm": 0.040255557745695114,
	"learning_rate": 7.859158070053578e-06,
	"loss": 0.4378,
	"step": 155
	},
	{
	"epoch": 1.131306990881459,
	"grad_norm": 0.04467206820845604,
	"learning_rate": 7.824132490944968e-06,
	"loss": 0.4215,
	"step": 156
	},
	{
	"epoch": 1.1386018237082067,
	"grad_norm": 0.03889721632003784,
	"learning_rate": 7.788902206361974e-06,
	"loss": 0.4257,
	"step": 157
	},
	{
	"epoch": 1.1458966565349544,
	"grad_norm": 0.04140063747763634,
	"learning_rate": 7.753469769949701e-06,
	"loss": 0.4434,
	"step": 158
	},
	{
	"epoch": 1.1531914893617021,
	"grad_norm": 0.039931997656822205,
	"learning_rate": 7.717837750006106e-06,
	"loss": 0.41,
	"step": 159
	},
	{
	"epoch": 1.1604863221884498,
	"grad_norm": 0.03909624367952347,
	"learning_rate": 7.682008729295834e-06,
	"loss": 0.3904,
	"step": 160
	},
	{
	"epoch": 1.1677811550151975,
	"grad_norm": 0.0401025116443634,
	"learning_rate": 7.645985304863004e-06,
	"loss": 0.4618,
	"step": 161
	},
	{
	"epoch": 1.1750759878419452,
	"grad_norm": 0.04733911529183388,
	"learning_rate": 7.609770087842969e-06,
	"loss": 0.4247,
	"step": 162
	},
	{
	"epoch": 1.182370820668693,
	"grad_norm": 0.037687744945287704,
	"learning_rate": 7.573365703273045e-06,
	"loss": 0.4071,
	"step": 163
	},
	{
	"epoch": 1.1896656534954406,
	"grad_norm": 0.039216116070747375,
	"learning_rate": 7.536774789902246e-06,
	"loss": 0.4259,
	"step": 164
	},
	{
	"epoch": 1.1969604863221885,
	"grad_norm": 0.0408397912979126,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.394,
	"step": 165
	},
	{
	"epoch": 1.2042553191489362,
	"grad_norm": 0.04507288709282875,
	"learning_rate": 7.463043999163919e-06,
	"loss": 0.4605,
	"step": 166
	},
	{
	"epoch": 1.211550151975684,
	"grad_norm": 0.03989469259977341,
	"learning_rate": 7.4259094661265685e-06,
	"loss": 0.4285,
	"step": 167
	},
	{
	"epoch": 1.2188449848024316,
	"grad_norm": 0.0407419353723526,
	"learning_rate": 7.388599092561315e-06,
	"loss": 0.4204,
	"step": 168
	},
	{
	"epoch": 1.2261398176291793,
	"grad_norm": 0.040525760501623154,
	"learning_rate": 7.351115582887212e-06,
	"loss": 0.4253,
	"step": 169
	},
	{
	"epoch": 1.233434650455927,
	"grad_norm": 0.04370498284697533,
	"learning_rate": 7.313461654072974e-06,
	"loss": 0.4071,
	"step": 170
	},
	{
	"epoch": 1.2407294832826747,
	"grad_norm": 0.0392344668507576,
	"learning_rate": 7.2756400354400445e-06,
	"loss": 0.4093,
	"step": 171
	},
	{
	"epoch": 1.2480243161094224,
	"grad_norm": 0.03849213197827339,
	"learning_rate": 7.237653468464756e-06,
	"loss": 0.4157,
	"step": 172
	},
	{
	"epoch": 1.2553191489361701,
	"grad_norm": 0.04228688403964043,
	"learning_rate": 7.199504706579617e-06,
	"loss": 0.482,
	"step": 173
	},
	{
	"epoch": 1.262613981762918,
	"grad_norm": 0.037325162440538406,
	"learning_rate": 7.161196514973735e-06,
	"loss": 0.4224,
	"step": 174
	},
	{
	"epoch": 1.2699088145896655,
	"grad_norm": 0.047044239938259125,
	"learning_rate": 7.122731670392381e-06,
	"loss": 0.4249,
	"step": 175
	},
	{
	"epoch": 1.2772036474164135,
	"grad_norm": 0.04322784021496773,
	"learning_rate": 7.0841129609357165e-06,
	"loss": 0.4051,
	"step": 176
	},
	{
	"epoch": 1.2844984802431612,
	"grad_norm": 0.041998326778411865,
	"learning_rate": 7.045343185856701e-06,
	"loss": 0.4106,
	"step": 177
	},
	{
	"epoch": 1.2917933130699089,
	"grad_norm": 0.040727648884058,
	"learning_rate": 7.006425155358195e-06,
	"loss": 0.4427,
	"step": 178
	},
	{
	"epoch": 1.2990881458966566,
	"grad_norm": 0.04059009999036789,
	"learning_rate": 6.967361690389258e-06,
	"loss": 0.437,
	"step": 179
	},
	{
	"epoch": 1.3063829787234043,
	"grad_norm": 0.042023915797472,
	"learning_rate": 6.92815562244068e-06,
	"loss": 0.4315,
	"step": 180
	},
	{
	"epoch": 1.313677811550152,
	"grad_norm": 0.04910752549767494,
	"learning_rate": 6.888809793339729e-06,
	"loss": 0.4436,
	"step": 181
	},
	{
	"epoch": 1.3209726443768997,
	"grad_norm": 0.04180140420794487,
	"learning_rate": 6.849327055044182e-06,
	"loss": 0.3948,
	"step": 182
	},
	{
	"epoch": 1.3282674772036474,
	"grad_norm": 0.03989269211888313,
	"learning_rate": 6.80971026943559e-06,
	"loss": 0.3929,
	"step": 183
	},
	{
	"epoch": 1.335562310030395,
	"grad_norm": 0.04497074335813522,
	"learning_rate": 6.769962308111839e-06,
	"loss": 0.4429,
	"step": 184
	},
	{
	"epoch": 1.342857142857143,
	"grad_norm": 0.04516409710049629,
	"learning_rate": 6.7300860521790034e-06,
	"loss": 0.4363,
	"step": 185
	},
	{
	"epoch": 1.3501519756838904,
	"grad_norm": 0.041362229734659195,
	"learning_rate": 6.690084392042514e-06,
	"loss": 0.4058,
	"step": 186
	},
	{
	"epoch": 1.3574468085106384,
	"grad_norm": 0.04281953349709511,
	"learning_rate": 6.649960227197648e-06,
	"loss": 0.423,
	"step": 187
	},
	{
	"epoch": 1.364741641337386,
	"grad_norm": 0.046076931059360504,
	"learning_rate": 6.609716466019356e-06,
	"loss": 0.4427,
	"step": 188
	},
	{
	"epoch": 1.3720364741641338,
	"grad_norm": 0.03960058465600014,
	"learning_rate": 6.569356025551454e-06,
	"loss": 0.4193,
	"step": 189
	},
	{
	"epoch": 1.3793313069908815,
	"grad_norm": 0.044169649481773376,
	"learning_rate": 6.5288818312951886e-06,
	"loss": 0.4034,
	"step": 190
	},
	{
	"epoch": 1.3866261398176292,
	"grad_norm": 0.04062066227197647,
	"learning_rate": 6.4882968169971734e-06,
	"loss": 0.4018,
	"step": 191
	},
	{
	"epoch": 1.3939209726443769,
	"grad_norm": 0.04406093806028366,
	"learning_rate": 6.447603924436744e-06,
	"loss": 0.4498,
	"step": 192
	},
	{
	"epoch": 1.4012158054711246,
	"grad_norm": 0.04197722300887108,
	"learning_rate": 6.406806103212725e-06,
	"loss": 0.4356,
	"step": 193
	},
	{
	"epoch": 1.4085106382978723,
	"grad_norm": 0.04061530530452728,
	"learning_rate": 6.365906310529631e-06,
	"loss": 0.4441,
	"step": 194
	},
	{
	"epoch": 1.41580547112462,
	"grad_norm": 0.046513479202985764,
	"learning_rate": 6.32490751098331e-06,
	"loss": 0.4166,
	"step": 195
	},
	{
	"epoch": 1.4231003039513679,
	"grad_norm": 0.03948912024497986,
	"learning_rate": 6.2838126763460635e-06,
	"loss": 0.4478,
	"step": 196
	},
	{
	"epoch": 1.4303951367781156,
	"grad_norm": 0.04548676684498787,
	"learning_rate": 6.2426247853512355e-06,
	"loss": 0.4653,
	"step": 197
	},
	{
	"epoch": 1.4376899696048633,
	"grad_norm": 0.041050177067518234,
	"learning_rate": 6.2013468234773034e-06,
	"loss": 0.3953,
	"step": 198
	},
	{
	"epoch": 1.444984802431611,
	"grad_norm": 0.03936685994267464,
	"learning_rate": 6.1599817827314744e-06,
	"loss": 0.4256,
	"step": 199
	},
	{
	"epoch": 1.4522796352583587,
	"grad_norm": 0.041237395256757736,
	"learning_rate": 6.118532661432812e-06,
	"loss": 0.3892,
	"step": 200
	},
	{
	"epoch": 1.4595744680851064,
	"grad_norm": 0.043174393475055695,
	"learning_rate": 6.077002463994908e-06,
	"loss": 0.4174,
	"step": 201
	},
	{
	"epoch": 1.466869300911854,
	"grad_norm": 0.04198073223233223,
	"learning_rate": 6.035394200708104e-06,
	"loss": 0.4278,
	"step": 202
	},
	{
	"epoch": 1.4741641337386018,
	"grad_norm": 0.045515723526477814,
	"learning_rate": 5.993710887521302e-06,
	"loss": 0.4346,
	"step": 203
	},
	{
	"epoch": 1.4814589665653495,
	"grad_norm": 0.04443354532122612,
	"learning_rate": 5.951955545823342e-06,
	"loss": 0.4116,
	"step": 204
	},
	{
	"epoch": 1.4887537993920974,
	"grad_norm": 0.04223044961690903,
	"learning_rate": 5.910131202224011e-06,
	"loss": 0.3844,
	"step": 205
	},
	{
	"epoch": 1.4960486322188449,
	"grad_norm": 0.04305846244096756,
	"learning_rate": 5.8682408883346535e-06,
	"loss": 0.4414,
	"step": 206
	},
	{
	"epoch": 1.5033434650455928,
	"grad_norm": 0.04148327186703682,
	"learning_rate": 5.826287640548425e-06,
	"loss": 0.4327,
	"step": 207
	},
	{
	"epoch": 1.5106382978723403,
	"grad_norm": 0.0433870293200016,
	"learning_rate": 5.784274499820214e-06,
	"loss": 0.3787,
	"step": 208
	},
	{
	"epoch": 1.5179331306990882,
	"grad_norm": 0.041102319955825806,
	"learning_rate": 5.742204511446203e-06,
	"loss": 0.4189,
	"step": 209
	},
	{
	"epoch": 1.525227963525836,
	"grad_norm": 0.04175707325339317,
	"learning_rate": 5.7000807248431466e-06,
	"loss": 0.427,
	"step": 210
	},
	{
	"epoch": 1.5325227963525836,
	"grad_norm": 0.04286907613277435,
	"learning_rate": 5.657906193327325e-06,
	"loss": 0.4,
	"step": 211
	},
	{
	"epoch": 1.5398176291793313,
	"grad_norm": 0.04246861860156059,
	"learning_rate": 5.615683973893235e-06,
	"loss": 0.4097,
	"step": 212
	},
	{
	"epoch": 1.547112462006079,
	"grad_norm": 0.03898885101079941,
	"learning_rate": 5.573417126992004e-06,
	"loss": 0.4237,
	"step": 213
	},
	{
	"epoch": 1.554407294832827,
	"grad_norm": 0.04554813727736473,
	"learning_rate": 5.5311087163095475e-06,
	"loss": 0.436,
	"step": 214
	},
	{
	"epoch": 1.5617021276595744,
	"grad_norm": 0.04189833253622055,
	"learning_rate": 5.4887618085445094e-06,
	"loss": 0.4121,
	"step": 215
	},
	{
	"epoch": 1.5689969604863223,
	"grad_norm": 0.05306672677397728,
	"learning_rate": 5.446379473185972e-06,
	"loss": 0.4015,
	"step": 216
	},
	{
	"epoch": 1.5762917933130698,
	"grad_norm": 0.04060041531920433,
	"learning_rate": 5.403964782290962e-06,
	"loss": 0.3967,
	"step": 217
	},
	{
	"epoch": 1.5835866261398177,
	"grad_norm": 0.045451849699020386,
	"learning_rate": 5.361520810261779e-06,
	"loss": 0.4161,
	"step": 218
	},
	{
	"epoch": 1.5908814589665652,
	"grad_norm": 0.043955542147159576,
	"learning_rate": 5.319050633623141e-06,
	"loss": 0.4205,
	"step": 219
	},
	{
	"epoch": 1.598176291793313,
	"grad_norm": 0.040733452886343,
	"learning_rate": 5.276557330799203e-06,
	"loss": 0.4165,
	"step": 220
	},
	{
	"epoch": 1.6054711246200608,
	"grad_norm": 0.04190356284379959,
	"learning_rate": 5.234043981890395e-06,
	"loss": 0.4515,
	"step": 221
	},
	{
	"epoch": 1.6127659574468085,
	"grad_norm": 0.037713076919317245,
	"learning_rate": 5.191513668450178e-06,
	"loss": 0.4131,
	"step": 222
	},
	{
	"epoch": 1.6200607902735562,
	"grad_norm": 0.038250233978033066,
	"learning_rate": 5.1489694732616805e-06,
	"loss": 0.4028,
	"step": 223
	},
	{
	"epoch": 1.627355623100304,
	"grad_norm": 0.039751507341861725,
	"learning_rate": 5.106414480114238e-06,
	"loss": 0.4121,
	"step": 224
	},
	{
	"epoch": 1.6346504559270518,
	"grad_norm": 0.044864848256111145,
	"learning_rate": 5.06385177357987e-06,
	"loss": 0.4708,
	"step": 225
	},
	{
	"epoch": 1.6419452887537993,
	"grad_norm": 0.04169140383601189,
	"learning_rate": 5.021284438789694e-06,
	"loss": 0.425,
	"step": 226
	},
	{
	"epoch": 1.6492401215805472,
	"grad_norm": 0.04238287732005119,
	"learning_rate": 4.9787155612103076e-06,
	"loss": 0.409,
	"step": 227
	},
	{
	"epoch": 1.6565349544072947,
	"grad_norm": 0.03984750807285309,
	"learning_rate": 4.936148226420133e-06,
	"loss": 0.4451,
	"step": 228
	},
	{
	"epoch": 1.6638297872340426,
	"grad_norm": 0.03823258727788925,
	"learning_rate": 4.893585519885764e-06,
	"loss": 0.4318,
	"step": 229
	},
	{
	"epoch": 1.6711246200607903,
	"grad_norm": 0.043166667222976685,
	"learning_rate": 4.851030526738321e-06,
	"loss": 0.4348,
	"step": 230
	},
	{
	"epoch": 1.678419452887538,
	"grad_norm": 0.04118693992495537,
	"learning_rate": 4.808486331549824e-06,
	"loss": 0.435,
	"step": 231
	},
	{
	"epoch": 1.6857142857142857,
	"grad_norm": 0.040095556527376175,
	"learning_rate": 4.765956018109607e-06,
	"loss": 0.4506,
	"step": 232
	},
	{
	"epoch": 1.6930091185410334,
	"grad_norm": 0.04523642733693123,
	"learning_rate": 4.7234426692007985e-06,
	"loss": 0.4394,
	"step": 233
	},
	{
	"epoch": 1.7003039513677811,
	"grad_norm": 0.041244085878133774,
	"learning_rate": 4.680949366376858e-06,
	"loss": 0.4698,
	"step": 234
	},
	{
	"epoch": 1.7075987841945288,
	"grad_norm": 0.04374610632658005,
	"learning_rate": 4.638479189738224e-06,
	"loss": 0.4129,
	"step": 235
	},
	{
	"epoch": 1.7148936170212767,
	"grad_norm": 0.040487710386514664,
	"learning_rate": 4.596035217709039e-06,
	"loss": 0.4362,
	"step": 236
	},
	{
	"epoch": 1.7221884498480242,
	"grad_norm": 0.044370926916599274,
	"learning_rate": 4.553620526814029e-06,
	"loss": 0.4155,
	"step": 237
	},
	{
	"epoch": 1.7294832826747721,
	"grad_norm": 0.04036295786499977,
	"learning_rate": 4.511238191455491e-06,
	"loss": 0.4214,
	"step": 238
	},
	{
	"epoch": 1.7367781155015196,
	"grad_norm": 0.03773313760757446,
	"learning_rate": 4.468891283690454e-06,
	"loss": 0.4298,
	"step": 239
	},
	{
	"epoch": 1.7440729483282675,
	"grad_norm": 0.045683182775974274,
	"learning_rate": 4.426582873007999e-06,
	"loss": 0.4485,
	"step": 240
	},
	{
	"epoch": 1.7513677811550152,
	"grad_norm": 0.04686903581023216,
	"learning_rate": 4.384316026106766e-06,
	"loss": 0.4303,
	"step": 241
	},
	{
	"epoch": 1.758662613981763,
	"grad_norm": 0.045155324041843414,
	"learning_rate": 4.342093806672678e-06,
	"loss": 0.4409,
	"step": 242
	},
	{
	"epoch": 1.7659574468085106,
	"grad_norm": 0.0418829619884491,
	"learning_rate": 4.299919275156857e-06,
	"loss": 0.4149,
	"step": 243
	},
	{
	"epoch": 1.7732522796352583,
	"grad_norm": 0.041985101997852325,
	"learning_rate": 4.2577954885537985e-06,
	"loss": 0.4293,
	"step": 244
	},
	{
	"epoch": 1.780547112462006,
	"grad_norm": 0.042692556977272034,
	"learning_rate": 4.215725500179788e-06,
	"loss": 0.4258,
	"step": 245
	},
	{
	"epoch": 1.7878419452887537,
	"grad_norm": 0.04013342410326004,
	"learning_rate": 4.173712359451576e-06,
	"loss": 0.4015,
	"step": 246
	},
	{
	"epoch": 1.7951367781155017,
	"grad_norm": 0.038998380303382874,
	"learning_rate": 4.131759111665349e-06,
	"loss": 0.4596,
	"step": 247
	},
	{
	"epoch": 1.8024316109422491,
	"grad_norm": 0.039829254150390625,
	"learning_rate": 4.0898687977759895e-06,
	"loss": 0.4128,
	"step": 248
	},
	{
	"epoch": 1.809726443768997,
	"grad_norm": 0.04312862455844879,
	"learning_rate": 4.048044454176658e-06,
	"loss": 0.4243,
	"step": 249
	},
	{
	"epoch": 1.8170212765957445,
	"grad_norm": 0.04533419758081436,
	"learning_rate": 4.0062891124787e-06,
	"loss": 0.4414,
	"step": 250
	},
	{
	"epoch": 1.8243161094224924,
	"grad_norm": 0.0438460148870945,
	"learning_rate": 3.964605799291897e-06,
	"loss": 0.4553,
	"step": 251
	},
	{
	"epoch": 1.8316109422492401,
	"grad_norm": 0.0429726168513298,
	"learning_rate": 3.922997536005094e-06,
	"loss": 0.4311,
	"step": 252
	},
	{
	"epoch": 1.8389057750759878,
	"grad_norm": 0.039493922144174576,
	"learning_rate": 3.88146733856719e-06,
	"loss": 0.4387,
	"step": 253
	},
	{
	"epoch": 1.8462006079027355,
	"grad_norm": 0.04514075070619583,
	"learning_rate": 3.840018217268527e-06,
	"loss": 0.4442,
	"step": 254
	},
	{
	"epoch": 1.8534954407294832,
	"grad_norm": 0.04080420732498169,
	"learning_rate": 3.7986531765226965e-06,
	"loss": 0.3884,
	"step": 255
	},
	{
	"epoch": 1.8607902735562312,
	"grad_norm": 0.04457089304924011,
	"learning_rate": 3.757375214648764e-06,
	"loss": 0.3804,
	"step": 256
	},
	{
	"epoch": 1.8680851063829786,
	"grad_norm": 0.044411323964595795,
	"learning_rate": 3.716187323653939e-06,
	"loss": 0.4164,
	"step": 257
	},
	{
	"epoch": 1.8753799392097266,
	"grad_norm": 0.04527450352907181,
	"learning_rate": 3.675092489016693e-06,
	"loss": 0.4402,
	"step": 258
	},
	{
	"epoch": 1.882674772036474,
	"grad_norm": 0.039380993694067,
	"learning_rate": 3.6340936894703717e-06,
	"loss": 0.4329,
	"step": 259
	},
	{
	"epoch": 1.889969604863222,
	"grad_norm": 0.04769477993249893,
	"learning_rate": 3.593193896787277e-06,
	"loss": 0.4447,
	"step": 260
	},
	{
	"epoch": 1.8972644376899694,
	"grad_norm": 0.04017976298928261,
	"learning_rate": 3.5523960755632573e-06,
	"loss": 0.4066,
	"step": 261
	},
	{
	"epoch": 1.9045592705167174,
	"grad_norm": 0.04179855436086655,
	"learning_rate": 3.5117031830028274e-06,
	"loss": 0.4048,
	"step": 262
	},
	{
	"epoch": 1.911854103343465,
	"grad_norm": 0.041397638618946075,
	"learning_rate": 3.4711181687048114e-06,
	"loss": 0.4296,
	"step": 263
	},
	{
	"epoch": 1.9191489361702128,
	"grad_norm": 0.05517794191837311,
	"learning_rate": 3.4306439744485453e-06,
	"loss": 0.4266,
	"step": 264
	},
	{
	"epoch": 1.9264437689969605,
	"grad_norm": 0.04322275519371033,
	"learning_rate": 3.3902835339806463e-06,
	"loss": 0.4084,
	"step": 265
	},
	{
	"epoch": 1.9337386018237082,
	"grad_norm": 0.04079868271946907,
	"learning_rate": 3.3500397728023536e-06,
	"loss": 0.3987,
	"step": 266
	},
	{
	"epoch": 1.941033434650456,
	"grad_norm": 0.040178705006837845,
	"learning_rate": 3.309915607957487e-06,
	"loss": 0.3508,
	"step": 267
	},
	{
	"epoch": 1.9483282674772036,
	"grad_norm": 0.042311254888772964,
	"learning_rate": 3.2699139478209987e-06,
	"loss": 0.4315,
	"step": 268
	},
	{
	"epoch": 1.9556231003039515,
	"grad_norm": 0.041265442967414856,
	"learning_rate": 3.2300376918881628e-06,
	"loss": 0.4096,
	"step": 269
	},
	{
	"epoch": 1.962917933130699,
	"grad_norm": 0.035929929465055466,
	"learning_rate": 3.19028973056441e-06,
	"loss": 0.3872,
	"step": 270
	},
	{
	"epoch": 1.9702127659574469,
	"grad_norm": 0.04031127318739891,
	"learning_rate": 3.150672944955818e-06,
	"loss": 0.4299,
	"step": 271
	},
	{
	"epoch": 1.9775075987841946,
	"grad_norm": 0.043629132211208344,
	"learning_rate": 3.111190206660273e-06,
	"loss": 0.4371,
	"step": 272
	},
	{
	"epoch": 1.9848024316109423,
	"grad_norm": 0.03935433551669121,
	"learning_rate": 3.0718443775593233e-06,
	"loss": 0.3912,
	"step": 273
	},
	{
	"epoch": 1.99209726443769,
	"grad_norm": 0.04069478437304497,
	"learning_rate": 3.0326383096107424e-06,
	"loss": 0.416,
	"step": 274
	},
	{
	"epoch": 1.9993920972644377,
	"grad_norm": 0.05225847661495209,
	"learning_rate": 2.993574844641807e-06,
	"loss": 0.3656,
	"step": 275
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.05225847661495209,
	"learning_rate": 2.9546568141433007e-06,
	"loss": 0.5271,
	"step": 276
	},
	{
	"epoch": 2.007294832826748,
	"grad_norm": 0.15690822899341583,
	"learning_rate": 2.915887039064287e-06,
	"loss": 0.3677,
	"step": 277
	},
	{
	"epoch": 2.0145896656534954,
	"grad_norm": 0.040792327374219894,
	"learning_rate": 2.8772683296076197e-06,
	"loss": 0.3493,
	"step": 278
	},
	{
	"epoch": 2.0218844984802433,
	"grad_norm": 0.042940009385347366,
	"learning_rate": 2.838803485026265e-06,
	"loss": 0.3622,
	"step": 279
	},
	{
	"epoch": 2.029179331306991,
	"grad_norm": 0.03872222825884819,
	"learning_rate": 2.800495293420384e-06,
	"loss": 0.3204,
	"step": 280
	},
	{
	"epoch": 2.0364741641337387,
	"grad_norm": 0.03756758198142052,
	"learning_rate": 2.762346531535246e-06,
	"loss": 0.3158,
	"step": 281
	},
	{
	"epoch": 2.043768996960486,
	"grad_norm": 0.04466132074594498,
	"learning_rate": 2.724359964559958e-06,
	"loss": 0.3638,
	"step": 282
	},
	{
	"epoch": 2.051063829787234,
	"grad_norm": 0.04124055802822113,
	"learning_rate": 2.686538345927027e-06,
	"loss": 0.3231,
	"step": 283
	},
	{
	"epoch": 2.0583586626139816,
	"grad_norm": 0.04917893931269646,
	"learning_rate": 2.6488844171127903e-06,
	"loss": 0.3683,
	"step": 284
	},
	{
	"epoch": 2.0656534954407295,
	"grad_norm": 0.04118992015719414,
	"learning_rate": 2.611400907438685e-06,
	"loss": 0.294,
	"step": 285
	},
	{
	"epoch": 2.072948328267477,
	"grad_norm": 0.04872892051935196,
	"learning_rate": 2.574090533873431e-06,
	"loss": 0.3156,
	"step": 286
	},
	{
	"epoch": 2.080243161094225,
	"grad_norm": 0.04159025847911835,
	"learning_rate": 2.5369560008360826e-06,
	"loss": 0.3467,
	"step": 287
	},
	{
	"epoch": 2.087537993920973,
	"grad_norm": 0.04014930874109268,
	"learning_rate": 2.5000000000000015e-06,
	"loss": 0.3303,
	"step": 288
	},
	{
	"epoch": 2.0948328267477203,
	"grad_norm": 0.04120990261435509,
	"learning_rate": 2.4632252100977567e-06,
	"loss": 0.3086,
	"step": 289
	},
	{
	"epoch": 2.1021276595744682,
	"grad_norm": 0.04079623147845268,
	"learning_rate": 2.426634296726955e-06,
	"loss": 0.3364,
	"step": 290
	},
	{
	"epoch": 2.1094224924012157,
	"grad_norm": 0.04097681865096092,
	"learning_rate": 2.3902299121570332e-06,
	"loss": 0.3254,
	"step": 291
	},
	{
	"epoch": 2.1167173252279636,
	"grad_norm": 0.04335152730345726,
	"learning_rate": 2.354014695136997e-06,
	"loss": 0.2875,
	"step": 292
	},
	{
	"epoch": 2.124012158054711,
	"grad_norm": 0.041609250009059906,
	"learning_rate": 2.317991270704167e-06,
	"loss": 0.3585,
	"step": 293
	},
	{
	"epoch": 2.131306990881459,
	"grad_norm": 0.03962058201432228,
	"learning_rate": 2.282162249993895e-06,
	"loss": 0.3094,
	"step": 294
	},
	{
	"epoch": 2.1386018237082065,
	"grad_norm": 0.041423097252845764,
	"learning_rate": 2.2465302300503012e-06,
	"loss": 0.358,
	"step": 295
	},
	{
	"epoch": 2.1458966565349544,
	"grad_norm": 0.044281214475631714,
	"learning_rate": 2.211097793638029e-06,
	"loss": 0.3575,
	"step": 296
	},
	{
	"epoch": 2.153191489361702,
	"grad_norm": 0.04825511574745178,
	"learning_rate": 2.175867509055033e-06,
	"loss": 0.3364,
	"step": 297
	},
	{
	"epoch": 2.16048632218845,
	"grad_norm": 0.04354681074619293,
	"learning_rate": 2.1408419299464245e-06,
	"loss": 0.2979,
	"step": 298
	},
	{
	"epoch": 2.1677811550151977,
	"grad_norm": 0.042697008699178696,
	"learning_rate": 2.106023595119358e-06,
	"loss": 0.3356,
	"step": 299
	},
	{
	"epoch": 2.1750759878419452,
	"grad_norm": 0.047276780009269714,
	"learning_rate": 2.071415028359026e-06,
	"loss": 0.3634,
	"step": 300
	},
	{
	"epoch": 2.182370820668693,
	"grad_norm": 0.041072778403759,
	"learning_rate": 2.037018738245707e-06,
	"loss": 0.3362,
	"step": 301
	},
	{
	"epoch": 2.1896656534954406,
	"grad_norm": 0.04692791774868965,
	"learning_rate": 2.0028372179729405e-06,
	"loss": 0.3511,
	"step": 302
	},
	{
	"epoch": 2.1969604863221885,
	"grad_norm": 0.04538114741444588,
	"learning_rate": 1.9688729451668116e-06,
	"loss": 0.3336,
	"step": 303
	},
	{
	"epoch": 2.204255319148936,
	"grad_norm": 0.044003862887620926,
	"learning_rate": 1.935128381706355e-06,
	"loss": 0.3349,
	"step": 304
	},
	{
	"epoch": 2.211550151975684,
	"grad_norm": 0.045857448130846024,
	"learning_rate": 1.901605973545116e-06,
	"loss": 0.3537,
	"step": 305
	},
	{
	"epoch": 2.2188449848024314,
	"grad_norm": 0.04272821545600891,
	"learning_rate": 1.8683081505338468e-06,
	"loss": 0.3373,
	"step": 306
	},
	{
	"epoch": 2.2261398176291793,
	"grad_norm": 0.04273563250899315,
	"learning_rate": 1.8352373262443918e-06,
	"loss": 0.3436,
	"step": 307
	},
	{
	"epoch": 2.2334346504559273,
	"grad_norm": 0.058361783623695374,
	"learning_rate": 1.8023958977947303e-06,
	"loss": 0.3245,
	"step": 308
	},
	{
	"epoch": 2.2407294832826747,
	"grad_norm": 0.04002346843481064,
	"learning_rate": 1.7697862456752273e-06,
	"loss": 0.3317,
	"step": 309
	},
	{
	"epoch": 2.2480243161094227,
	"grad_norm": 0.039896223694086075,
	"learning_rate": 1.7374107335760937e-06,
	"loss": 0.2976,
	"step": 310
	},
	{
	"epoch": 2.25531914893617,
	"grad_norm": 0.04140615463256836,
	"learning_rate": 1.7052717082160348e-06,
	"loss": 0.3178,
	"step": 311
	},
	{
	"epoch": 2.262613981762918,
	"grad_norm": 0.04329473525285721,
	"learning_rate": 1.6733714991721738e-06,
	"loss": 0.3187,
	"step": 312
	},
	{
	"epoch": 2.2699088145896655,
	"grad_norm": 0.04440492019057274,
	"learning_rate": 1.6417124187111778e-06,
	"loss": 0.3194,
	"step": 313
	},
	{
	"epoch": 2.2772036474164135,
	"grad_norm": 0.03996637463569641,
	"learning_rate": 1.610296761621662e-06,
	"loss": 0.3504,
	"step": 314
	},
	{
	"epoch": 2.284498480243161,
	"grad_norm": 0.04870344325900078,
	"learning_rate": 1.5791268050478487e-06,
	"loss": 0.3599,
	"step": 315
	},
	{
	"epoch": 2.291793313069909,
	"grad_norm": 0.049775756895542145,
	"learning_rate": 1.5482048083245116e-06,
	"loss": 0.3051,
	"step": 316
	},
	{
	"epoch": 2.2990881458966568,
	"grad_norm": 0.04166199639439583,
	"learning_rate": 1.517533012813217e-06,
	"loss": 0.3383,
	"step": 317
	},
	{
	"epoch": 2.3063829787234043,
	"grad_norm": 0.04483890160918236,
	"learning_rate": 1.4871136417398407e-06,
	"loss": 0.3302,
	"step": 318
	},
	{
	"epoch": 2.3136778115501517,
	"grad_norm": 0.04276059940457344,
	"learning_rate": 1.4569489000334435e-06,
	"loss": 0.3615,
	"step": 319
	},
	{
	"epoch": 2.3209726443768997,
	"grad_norm": 0.04011907801032066,
	"learning_rate": 1.427040974166427e-06,
	"loss": 0.3139,
	"step": 320
	},
	{
	"epoch": 2.3282674772036476,
	"grad_norm": 0.043183084577322006,
	"learning_rate": 1.3973920319960654e-06,
	"loss": 0.3327,
	"step": 321
	},
	{
	"epoch": 2.335562310030395,
	"grad_norm": 0.045110031962394714,
	"learning_rate": 1.3680042226073554e-06,
	"loss": 0.3183,
	"step": 322
	},
	{
	"epoch": 2.342857142857143,
	"grad_norm": 0.04653245955705643,
	"learning_rate": 1.3388796761572493e-06,
	"loss": 0.3411,
	"step": 323
	},
	{
	"epoch": 2.3501519756838904,
	"grad_norm": 0.04192928597331047,
	"learning_rate": 1.310020503720254e-06,
	"loss": 0.3722,
	"step": 324
	},
	{
	"epoch": 2.3574468085106384,
	"grad_norm": 0.04330296441912651,
	"learning_rate": 1.2814287971354023e-06,
	"loss": 0.325,
	"step": 325
	},
	{
	"epoch": 2.364741641337386,
	"grad_norm": 0.04404173046350479,
	"learning_rate": 1.253106628854635e-06,
	"loss": 0.3247,
	"step": 326
	},
	{
	"epoch": 2.3720364741641338,
	"grad_norm": 0.04104992374777794,
	"learning_rate": 1.2250560517925747e-06,
	"loss": 0.3079,
	"step": 327
	},
	{
	"epoch": 2.3793313069908812,
	"grad_norm": 0.04262121394276619,
	"learning_rate": 1.197279099177731e-06,
	"loss": 0.3446,
	"step": 328
	},
	{
	"epoch": 2.386626139817629,
	"grad_norm": 0.04929178208112717,
	"learning_rate": 1.1697777844051105e-06,
	"loss": 0.3501,
	"step": 329
	},
	{
	"epoch": 2.393920972644377,
	"grad_norm": 0.04329733923077583,
	"learning_rate": 1.1425541008902852e-06,
	"loss": 0.3213,
	"step": 330
	},
	{
	"epoch": 2.4012158054711246,
	"grad_norm": 0.04333839192986488,
	"learning_rate": 1.1156100219249022e-06,
	"loss": 0.3232,
	"step": 331
	},
	{
	"epoch": 2.4085106382978725,
	"grad_norm": 0.04259442910552025,
	"learning_rate": 1.0889475005336447e-06,
	"loss": 0.3632,
	"step": 332
	},
	{
	"epoch": 2.41580547112462,
	"grad_norm": 0.04376016557216644,
	"learning_rate": 1.0625684693326727e-06,
	"loss": 0.3355,
	"step": 333
	},
	{
	"epoch": 2.423100303951368,
	"grad_norm": 0.04070465639233589,
	"learning_rate": 1.0364748403895368e-06,
	"loss": 0.341,
	"step": 334
	},
	{
	"epoch": 2.4303951367781154,
	"grad_norm": 0.041908472776412964,
	"learning_rate": 1.0106685050845838e-06,
	"loss": 0.3383,
	"step": 335
	},
	{
	"epoch": 2.4376899696048633,
	"grad_norm": 0.04458033666014671,
	"learning_rate": 9.851513339738627e-07,
	"loss": 0.3246,
	"step": 336
	},
	{
	"epoch": 2.4449848024316108,
	"grad_norm": 0.04246847331523895,
	"learning_rate": 9.599251766535344e-07,
	"loss": 0.3418,
	"step": 337
	},
	{
	"epoch": 2.4522796352583587,
	"grad_norm": 0.04456906393170357,
	"learning_rate": 9.349918616258113e-07,
	"loss": 0.3536,
	"step": 338
	},
	{
	"epoch": 2.4595744680851066,
	"grad_norm": 0.041079938411712646,
	"learning_rate": 9.10353196166412e-07,
	"loss": 0.3278,
	"step": 339
	},
	{
	"epoch": 2.466869300911854,
	"grad_norm": 0.049959778785705566,
	"learning_rate": 8.860109661935673e-07,
	"loss": 0.3417,
	"step": 340
	},
	{
	"epoch": 2.474164133738602,
	"grad_norm": 0.044310178607702255,
	"learning_rate": 8.619669361385663e-07,
	"loss": 0.3148,
	"step": 341
	},
	{
	"epoch": 2.4814589665653495,
	"grad_norm": 0.04187872260808945,
	"learning_rate": 8.382228488178639e-07,
	"loss": 0.3392,
	"step": 342
	},
	{
	"epoch": 2.4887537993920974,
	"grad_norm": 0.04105791822075844,
	"learning_rate": 8.147804253067581e-07,
	"loss": 0.3273,
	"step": 343
	},
	{
	"epoch": 2.496048632218845,
	"grad_norm": 0.039138007909059525,
	"learning_rate": 7.916413648146282e-07,
	"loss": 0.3112,
	"step": 344
	},
	{
	"epoch": 2.503343465045593,
	"grad_norm": 0.04459141194820404,
	"learning_rate": 7.6880734456178e-07,
	"loss": 0.3463,
	"step": 345
	},
	{
	"epoch": 2.5106382978723403,
	"grad_norm": 0.043715398758649826,
	"learning_rate": 7.462800196578662e-07,
	"loss": 0.3439,
	"step": 346
	},
	{
	"epoch": 2.517933130699088,
	"grad_norm": 0.043532464653253555,
	"learning_rate": 7.240610229819195e-07,
	"loss": 0.3303,
	"step": 347
	},
	{
	"epoch": 2.525227963525836,
	"grad_norm": 0.04273553937673569,
	"learning_rate": 7.021519650639952e-07,
	"loss": 0.3171,
	"step": 348
	},
	{
	"epoch": 2.5325227963525836,
	"grad_norm": 0.05441723391413689,
	"learning_rate": 6.805544339684295e-07,
	"loss": 0.3239,
	"step": 349
	},
	{
	"epoch": 2.539817629179331,
	"grad_norm": 0.04585114121437073,
	"learning_rate": 6.592699951787362e-07,
	"loss": 0.3378,
	"step": 350
	},
	{
	"epoch": 2.547112462006079,
	"grad_norm": 0.04242338612675667,
	"learning_rate": 6.383001914841252e-07,
	"loss": 0.2992,
	"step": 351
	},
	{
	"epoch": 2.554407294832827,
	"grad_norm": 0.046155836433172226,
	"learning_rate": 6.17646542867682e-07,
	"loss": 0.3503,
	"step": 352
	},
	{
	"epoch": 2.5617021276595744,
	"grad_norm": 0.04374154284596443,
	"learning_rate": 5.973105463961864e-07,
	"loss": 0.3385,
	"step": 353
	},
	{
	"epoch": 2.5689969604863223,
	"grad_norm": 0.04297053441405296,
	"learning_rate": 5.772936761116027e-07,
	"loss": 0.3396,
	"step": 354
	},
	{
	"epoch": 2.57629179331307,
	"grad_norm": 0.04214682802557945,
	"learning_rate": 5.575973829242365e-07,
	"loss": 0.3373,
	"step": 355
	},
	{
	"epoch": 2.5835866261398177,
	"grad_norm": 0.04097369685769081,
	"learning_rate": 5.382230945075556e-07,
	"loss": 0.3386,
	"step": 356
	},
	{
	"epoch": 2.590881458966565,
	"grad_norm": 0.042690787464380264,
	"learning_rate": 5.191722151947227e-07,
	"loss": 0.3319,
	"step": 357
	},
	{
	"epoch": 2.598176291793313,
	"grad_norm": 0.040518004447221756,
	"learning_rate": 5.004461258767873e-07,
	"loss": 0.3174,
	"step": 358
	},
	{
	"epoch": 2.6054711246200606,
	"grad_norm": 0.04100370407104492,
	"learning_rate": 4.820461839026047e-07,
	"loss": 0.34,
	"step": 359
	},
	{
	"epoch": 2.6127659574468085,
	"grad_norm": 0.04036758467555046,
	"learning_rate": 4.639737229804403e-07,
	"loss": 0.3351,
	"step": 360
	},
	{
	"epoch": 2.6200607902735564,
	"grad_norm": 0.04206588491797447,
	"learning_rate": 4.4623005308130243e-07,
	"loss": 0.3244,
	"step": 361
	},
	{
	"epoch": 2.627355623100304,
	"grad_norm": 0.04280061274766922,
	"learning_rate": 4.2881646034398926e-07,
	"loss": 0.3065,
	"step": 362
	},
	{
	"epoch": 2.634650455927052,
	"grad_norm": 0.04229553043842316,
	"learning_rate": 4.1173420698186027e-07,
	"loss": 0.3306,
	"step": 363
	},
	{
	"epoch": 2.6419452887537993,
	"grad_norm": 0.044544368982315063,
	"learning_rate": 3.9498453119134917e-07,
	"loss": 0.3514,
	"step": 364
	},
	{
	"epoch": 2.6492401215805472,
	"grad_norm": 0.045995116233825684,
	"learning_rate": 3.7856864706221187e-07,
	"loss": 0.3498,
	"step": 365
	},
	{
	"epoch": 2.6565349544072947,
	"grad_norm": 0.048596058040857315,
	"learning_rate": 3.6248774448952695e-07,
	"loss": 0.3358,
	"step": 366
	},
	{
	"epoch": 2.6638297872340426,
	"grad_norm": 0.04591159150004387,
	"learning_rate": 3.467429890874424e-07,
	"loss": 0.3129,
	"step": 367
	},
	{
	"epoch": 2.67112462006079,
	"grad_norm": 0.041663773357868195,
	"learning_rate": 3.313355221046888e-07,
	"loss": 0.3213,
	"step": 368
	},
	{
	"epoch": 2.678419452887538,
	"grad_norm": 0.04105694591999054,
	"learning_rate": 3.1626646034186084e-07,
	"loss": 0.345,
	"step": 369
	},
	{
	"epoch": 2.685714285714286,
	"grad_norm": 0.044980090111494064,
	"learning_rate": 3.015368960704584e-07,
	"loss": 0.3265,
	"step": 370
	},
	{
	"epoch": 2.6930091185410334,
	"grad_norm": 0.04313720017671585,
	"learning_rate": 2.871478969537206e-07,
	"loss": 0.3434,
	"step": 371
	},
	{
	"epoch": 2.700303951367781,
	"grad_norm": 0.04387833923101425,
	"learning_rate": 2.7310050596923323e-07,
	"loss": 0.33,
	"step": 372
	},
	{
	"epoch": 2.707598784194529,
	"grad_norm": 0.04352449253201485,
	"learning_rate": 2.593957413333331e-07,
	"loss": 0.3315,
	"step": 373
	},
	{
	"epoch": 2.7148936170212767,
	"grad_norm": 0.04267902672290802,
	"learning_rate": 2.4603459642729867e-07,
	"loss": 0.3574,
	"step": 374
	},
	{
	"epoch": 2.722188449848024,
	"grad_norm": 0.046177759766578674,
	"learning_rate": 2.330180397253473e-07,
	"loss": 0.3428,
	"step": 375
	},
	{
	"epoch": 2.729483282674772,
	"grad_norm": 0.0405619777739048,
	"learning_rate": 2.2034701472443854e-07,
	"loss": 0.2903,
	"step": 376
	},
	{
	"epoch": 2.7367781155015196,
	"grad_norm": 0.04294833540916443,
	"learning_rate": 2.0802243987588068e-07,
	"loss": 0.3664,
	"step": 377
	},
	{
	"epoch": 2.7440729483282675,
	"grad_norm": 0.048284079879522324,
	"learning_rate": 1.9604520851876196e-07,
	"loss": 0.3294,
	"step": 378
	},
	{
	"epoch": 2.7513677811550155,
	"grad_norm": 0.04744973033666611,
	"learning_rate": 1.8441618881519186e-07,
	"loss": 0.321,
	"step": 379
	},
	{
	"epoch": 2.758662613981763,
	"grad_norm": 0.03917940333485603,
	"learning_rate": 1.7313622368738014e-07,
	"loss": 0.307,
	"step": 380
	},
	{
	"epoch": 2.7659574468085104,
	"grad_norm": 0.04587104544043541,
	"learning_rate": 1.6220613075653201e-07,
	"loss": 0.3464,
	"step": 381
	},
	{
	"epoch": 2.7732522796352583,
	"grad_norm": 0.042470064014196396,
	"learning_rate": 1.51626702283586e-07,
	"loss": 0.2907,
	"step": 382
	},
	{
	"epoch": 2.7805471124620063,
	"grad_norm": 0.048345521092414856,
	"learning_rate": 1.4139870511178767e-07,
	"loss": 0.3481,
	"step": 383
	},
	{
	"epoch": 2.7878419452887537,
	"grad_norm": 0.038930460810661316,
	"learning_rate": 1.3152288061110518e-07,
	"loss": 0.2987,
	"step": 384
	},
	{
	"epoch": 2.7951367781155017,
	"grad_norm": 0.04472014680504799,
	"learning_rate": 1.2199994462448906e-07,
	"loss": 0.3612,
	"step": 385
	},
	{
	"epoch": 2.802431610942249,
	"grad_norm": 0.05124653875827789,
	"learning_rate": 1.1283058741598962e-07,
	"loss": 0.3051,
	"step": 386
	},
	{
	"epoch": 2.809726443768997,
	"grad_norm": 0.038610782474279404,
	"learning_rate": 1.0401547362071939e-07,
	"loss": 0.3362,
	"step": 387
	},
	{
	"epoch": 2.8170212765957445,
	"grad_norm": 0.042344819754362106,
	"learning_rate": 9.555524219667989e-08,
	"loss": 0.3206,
	"step": 388
	},
	{
	"epoch": 2.8243161094224924,
	"grad_norm": 0.046877894550561905,
	"learning_rate": 8.745050637844532e-08,
	"loss": 0.3332,
	"step": 389
	},
	{
	"epoch": 2.83161094224924,
	"grad_norm": 0.04104023799300194,
	"learning_rate": 7.970185363271432e-08,
	"loss": 0.2941,
	"step": 390
	},
	{
	"epoch": 2.838905775075988,
	"grad_norm": 0.04339218884706497,
	"learning_rate": 7.230984561572729e-08,
	"loss": 0.3409,
	"step": 391
	},
	{
	"epoch": 2.8462006079027358,
	"grad_norm": 0.047086864709854126,
	"learning_rate": 6.527501813255344e-08,
	"loss": 0.3282,
	"step": 392
	},
	{
	"epoch": 2.8534954407294832,
	"grad_norm": 0.04140612855553627,
	"learning_rate": 5.8597881098257924e-08,
	"loss": 0.3706,
	"step": 393
	},
	{
	"epoch": 2.860790273556231,
	"grad_norm": 0.045086655765771866,
	"learning_rate": 5.227891850093314e-08,
	"loss": 0.3159,
	"step": 394
	},
	{
	"epoch": 2.8680851063829786,
	"grad_norm": 0.04669662564992905,
	"learning_rate": 4.631858836662562e-08,
	"loss": 0.3212,
	"step": 395
	},
	{
	"epoch": 2.8753799392097266,
	"grad_norm": 0.048425789922475815,
	"learning_rate": 4.071732272613149e-08,
	"loss": 0.3781,
	"step": 396
	},
	{
	"epoch": 2.882674772036474,
	"grad_norm": 0.0414654016494751,
	"learning_rate": 3.5475527583681005e-08,
	"loss": 0.3487,
	"step": 397
	},
	{
	"epoch": 2.889969604863222,
	"grad_norm": 0.04240646958351135,
	"learning_rate": 3.059358288751202e-08,
	"loss": 0.3063,
	"step": 398
	},
	{
	"epoch": 2.8972644376899694,
	"grad_norm": 0.047270409762859344,
	"learning_rate": 2.6071842502326526e-08,
	"loss": 0.3352,
	"step": 399
	},
	{
	"epoch": 2.9045592705167174,
	"grad_norm": 0.043454963713884354,
	"learning_rate": 2.1910634183644475e-08,
	"loss": 0.3442,
	"step": 400
	},
	{
	"epoch": 2.9118541033434653,
	"grad_norm": 0.045333363115787506,
	"learning_rate": 1.811025955404333e-08,
	"loss": 0.3196,
	"step": 401
	},
	{
	"epoch": 2.9191489361702128,
	"grad_norm": 0.04678984358906746,
	"learning_rate": 1.4670994081297796e-08,
	"loss": 0.3319,
	"step": 402
	},
	{
	"epoch": 2.9264437689969602,
	"grad_norm": 0.05119337886571884,
	"learning_rate": 1.159308705841078e-08,
	"loss": 0.3614,
	"step": 403
	},
	{
	"epoch": 2.933738601823708,
	"grad_norm": 0.048367924988269806,
	"learning_rate": 8.87676158554507e-09,
	"loss": 0.3615,
	"step": 404
	},
	{
	"epoch": 2.941033434650456,
	"grad_norm": 0.04424307495355606,
	"learning_rate": 6.5222145538501595e-09,
	"loss": 0.3027,
	"step": 405
	},
	{
	"epoch": 2.9483282674772036,
	"grad_norm": 0.0484929159283638,
	"learning_rate": 4.5296166311931125e-09,
	"loss": 0.3259,
	"step": 406
	},
	{
	"epoch": 2.9556231003039515,
	"grad_norm": 0.04274160414934158,
	"learning_rate": 2.899112249786229e-09,
	"loss": 0.3219,
	"step": 407
	},
	{
	"epoch": 2.962917933130699,
	"grad_norm": 0.04609229788184166,
	"learning_rate": 1.6308195957182028e-09,
	"loss": 0.3074,
	"step": 408
	},
	{
	"epoch": 2.970212765957447,
	"grad_norm": 0.05541510134935379,
	"learning_rate": 7.24830600386528e-10,
	"loss": 0.3853,
	"step": 409
	},
	{
	"epoch": 2.977507598784195,
	"grad_norm": 0.0421581007540226,
	"learning_rate": 1.812109338367174e-10,
	"loss": 0.3192,
	"step": 410
	},
	{
	"epoch": 2.9848024316109423,
	"grad_norm": 0.04373352229595184,
	"learning_rate": 0.0,
	"loss": 0.3766,
	"step": 411
	},
	{
	"epoch": 2.9848024316109423,
	"step": 411,
	"total_flos": 3.260394272163103e+17,
	"train_loss": 0.4436677635586175,
	"train_runtime": 142049.243,
	"train_samples_per_second": 0.139,
	"train_steps_per_second": 0.003
	}
	],
	"logging_steps": 1,
	"max_steps": 411,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 3.260394272163103e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}