{ "best_metric": null, "best_model_checkpoint": null, "epoch": 3.0, "eval_steps": 500, "global_step": 1125, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0026666666666666666, "grad_norm": 0.31795796751976013, "learning_rate": 5e-06, "loss": 0.9198, "step": 1 }, { "epoch": 0.005333333333333333, "grad_norm": 0.2965499460697174, "learning_rate": 1e-05, "loss": 0.7987, "step": 2 }, { "epoch": 0.008, "grad_norm": 0.3073004186153412, "learning_rate": 1.5e-05, "loss": 0.8705, "step": 3 }, { "epoch": 0.010666666666666666, "grad_norm": 0.31582117080688477, "learning_rate": 2e-05, "loss": 0.897, "step": 4 }, { "epoch": 0.013333333333333334, "grad_norm": 0.32552069425582886, "learning_rate": 2.5e-05, "loss": 0.8281, "step": 5 }, { "epoch": 0.016, "grad_norm": 0.3633013069629669, "learning_rate": 3e-05, "loss": 0.8817, "step": 6 }, { "epoch": 0.018666666666666668, "grad_norm": 0.30820131301879883, "learning_rate": 3.5e-05, "loss": 0.7883, "step": 7 }, { "epoch": 0.021333333333333333, "grad_norm": 0.2991103529930115, "learning_rate": 4e-05, "loss": 0.8451, "step": 8 }, { "epoch": 0.024, "grad_norm": 0.26918885111808777, "learning_rate": 4.5e-05, "loss": 0.703, "step": 9 }, { "epoch": 0.02666666666666667, "grad_norm": 0.2952805161476135, "learning_rate": 5e-05, "loss": 0.8525, "step": 10 }, { "epoch": 0.029333333333333333, "grad_norm": 0.158904567360878, "learning_rate": 5.500000000000001e-05, "loss": 0.4532, "step": 11 }, { "epoch": 0.032, "grad_norm": 0.24053733050823212, "learning_rate": 6e-05, "loss": 0.7278, "step": 12 }, { "epoch": 0.034666666666666665, "grad_norm": 0.27588018774986267, "learning_rate": 6.500000000000001e-05, "loss": 0.809, "step": 13 }, { "epoch": 0.037333333333333336, "grad_norm": 0.23301595449447632, "learning_rate": 7e-05, "loss": 0.6729, "step": 14 }, { "epoch": 0.04, "grad_norm": 0.28395819664001465, "learning_rate": 7.500000000000001e-05, "loss": 0.6929, "step": 15 }, { "epoch": 0.042666666666666665, "grad_norm": 0.22508470714092255, "learning_rate": 8e-05, "loss": 0.5131, "step": 16 }, { "epoch": 0.04533333333333334, "grad_norm": 0.24023814499378204, "learning_rate": 8.5e-05, "loss": 0.5204, "step": 17 }, { "epoch": 0.048, "grad_norm": 0.2793164551258087, "learning_rate": 9e-05, "loss": 0.6796, "step": 18 }, { "epoch": 0.050666666666666665, "grad_norm": 0.2434774488210678, "learning_rate": 9.5e-05, "loss": 0.5698, "step": 19 }, { "epoch": 0.05333333333333334, "grad_norm": 0.2483493834733963, "learning_rate": 0.0001, "loss": 0.6554, "step": 20 }, { "epoch": 0.056, "grad_norm": 0.18770429491996765, "learning_rate": 0.000105, "loss": 0.5123, "step": 21 }, { "epoch": 0.058666666666666666, "grad_norm": 0.1788586527109146, "learning_rate": 0.00011000000000000002, "loss": 0.4737, "step": 22 }, { "epoch": 0.06133333333333333, "grad_norm": 0.19754257798194885, "learning_rate": 0.00011499999999999999, "loss": 0.4892, "step": 23 }, { "epoch": 0.064, "grad_norm": 0.1977739930152893, "learning_rate": 0.00012, "loss": 0.5444, "step": 24 }, { "epoch": 0.06666666666666667, "grad_norm": 0.17434217035770416, "learning_rate": 0.000125, "loss": 0.4982, "step": 25 }, { "epoch": 0.06933333333333333, "grad_norm": 0.18169911205768585, "learning_rate": 0.00013000000000000002, "loss": 0.5444, "step": 26 }, { "epoch": 0.072, "grad_norm": 0.13374541699886322, "learning_rate": 0.00013500000000000003, "loss": 0.3858, "step": 27 }, { "epoch": 0.07466666666666667, "grad_norm": 0.23194445669651031, "learning_rate": 0.00014, "loss": 0.5971, "step": 28 }, { "epoch": 0.07733333333333334, "grad_norm": 0.226721853017807, "learning_rate": 0.000145, "loss": 0.5912, "step": 29 }, { "epoch": 0.08, "grad_norm": 0.20221616327762604, "learning_rate": 0.00015000000000000001, "loss": 0.5778, "step": 30 }, { "epoch": 0.08266666666666667, "grad_norm": 0.20439280569553375, "learning_rate": 0.000155, "loss": 0.5955, "step": 31 }, { "epoch": 0.08533333333333333, "grad_norm": 0.1792367696762085, "learning_rate": 0.00016, "loss": 0.4539, "step": 32 }, { "epoch": 0.088, "grad_norm": 0.15801019966602325, "learning_rate": 0.000165, "loss": 0.4281, "step": 33 }, { "epoch": 0.09066666666666667, "grad_norm": 0.18995234370231628, "learning_rate": 0.00017, "loss": 0.4919, "step": 34 }, { "epoch": 0.09333333333333334, "grad_norm": 0.18301232159137726, "learning_rate": 0.000175, "loss": 0.4698, "step": 35 }, { "epoch": 0.096, "grad_norm": 0.1516425907611847, "learning_rate": 0.00018, "loss": 0.4706, "step": 36 }, { "epoch": 0.09866666666666667, "grad_norm": 0.15232552587985992, "learning_rate": 0.00018500000000000002, "loss": 0.4412, "step": 37 }, { "epoch": 0.10133333333333333, "grad_norm": 0.18981625139713287, "learning_rate": 0.00019, "loss": 0.5323, "step": 38 }, { "epoch": 0.104, "grad_norm": 0.19589070975780487, "learning_rate": 0.000195, "loss": 0.5426, "step": 39 }, { "epoch": 0.10666666666666667, "grad_norm": 0.14144787192344666, "learning_rate": 0.0002, "loss": 0.3534, "step": 40 }, { "epoch": 0.10933333333333334, "grad_norm": 0.15018980205059052, "learning_rate": 0.00019981566820276498, "loss": 0.4385, "step": 41 }, { "epoch": 0.112, "grad_norm": 0.18116328120231628, "learning_rate": 0.00019963133640552995, "loss": 0.4677, "step": 42 }, { "epoch": 0.11466666666666667, "grad_norm": 0.21125923097133636, "learning_rate": 0.00019944700460829492, "loss": 0.5415, "step": 43 }, { "epoch": 0.11733333333333333, "grad_norm": 0.194460928440094, "learning_rate": 0.00019926267281105992, "loss": 0.5013, "step": 44 }, { "epoch": 0.12, "grad_norm": 0.17403055727481842, "learning_rate": 0.0001990783410138249, "loss": 0.5035, "step": 45 }, { "epoch": 0.12266666666666666, "grad_norm": 0.18710163235664368, "learning_rate": 0.00019889400921658986, "loss": 0.5231, "step": 46 }, { "epoch": 0.12533333333333332, "grad_norm": 0.17051705718040466, "learning_rate": 0.00019870967741935483, "loss": 0.4854, "step": 47 }, { "epoch": 0.128, "grad_norm": 0.17382238805294037, "learning_rate": 0.0001985253456221198, "loss": 0.5179, "step": 48 }, { "epoch": 0.13066666666666665, "grad_norm": 0.15307123959064484, "learning_rate": 0.0001983410138248848, "loss": 0.4356, "step": 49 }, { "epoch": 0.13333333333333333, "grad_norm": 0.16687354445457458, "learning_rate": 0.00019815668202764977, "loss": 0.4648, "step": 50 }, { "epoch": 0.136, "grad_norm": 0.17127734422683716, "learning_rate": 0.00019797235023041477, "loss": 0.4643, "step": 51 }, { "epoch": 0.13866666666666666, "grad_norm": 0.19123542308807373, "learning_rate": 0.00019778801843317974, "loss": 0.4997, "step": 52 }, { "epoch": 0.14133333333333334, "grad_norm": 0.1482383906841278, "learning_rate": 0.00019760368663594472, "loss": 0.4334, "step": 53 }, { "epoch": 0.144, "grad_norm": 0.19939680397510529, "learning_rate": 0.00019741935483870969, "loss": 0.5257, "step": 54 }, { "epoch": 0.14666666666666667, "grad_norm": 0.17752857506275177, "learning_rate": 0.00019723502304147466, "loss": 0.4896, "step": 55 }, { "epoch": 0.14933333333333335, "grad_norm": 0.17946895956993103, "learning_rate": 0.00019705069124423966, "loss": 0.4847, "step": 56 }, { "epoch": 0.152, "grad_norm": 0.15529927611351013, "learning_rate": 0.00019686635944700463, "loss": 0.4338, "step": 57 }, { "epoch": 0.15466666666666667, "grad_norm": 0.18879836797714233, "learning_rate": 0.0001966820276497696, "loss": 0.5359, "step": 58 }, { "epoch": 0.15733333333333333, "grad_norm": 0.12355278432369232, "learning_rate": 0.00019649769585253457, "loss": 0.3539, "step": 59 }, { "epoch": 0.16, "grad_norm": 0.1591000109910965, "learning_rate": 0.00019631336405529954, "loss": 0.436, "step": 60 }, { "epoch": 0.16266666666666665, "grad_norm": 0.19238081574440002, "learning_rate": 0.0001961290322580645, "loss": 0.5082, "step": 61 }, { "epoch": 0.16533333333333333, "grad_norm": 0.12826350331306458, "learning_rate": 0.0001959447004608295, "loss": 0.3597, "step": 62 }, { "epoch": 0.168, "grad_norm": 0.16202542185783386, "learning_rate": 0.00019576036866359448, "loss": 0.4477, "step": 63 }, { "epoch": 0.17066666666666666, "grad_norm": 0.1811097115278244, "learning_rate": 0.00019557603686635945, "loss": 0.486, "step": 64 }, { "epoch": 0.17333333333333334, "grad_norm": 0.1537872850894928, "learning_rate": 0.00019539170506912442, "loss": 0.3969, "step": 65 }, { "epoch": 0.176, "grad_norm": 0.16730304062366486, "learning_rate": 0.0001952073732718894, "loss": 0.4754, "step": 66 }, { "epoch": 0.17866666666666667, "grad_norm": 0.15688396990299225, "learning_rate": 0.00019502304147465436, "loss": 0.4211, "step": 67 }, { "epoch": 0.18133333333333335, "grad_norm": 0.15763093531131744, "learning_rate": 0.00019483870967741936, "loss": 0.4411, "step": 68 }, { "epoch": 0.184, "grad_norm": 0.17456284165382385, "learning_rate": 0.00019465437788018433, "loss": 0.5103, "step": 69 }, { "epoch": 0.18666666666666668, "grad_norm": 0.13075074553489685, "learning_rate": 0.00019447004608294933, "loss": 0.3768, "step": 70 }, { "epoch": 0.18933333333333333, "grad_norm": 0.14194084703922272, "learning_rate": 0.0001942857142857143, "loss": 0.4023, "step": 71 }, { "epoch": 0.192, "grad_norm": 0.1684679538011551, "learning_rate": 0.00019410138248847927, "loss": 0.4368, "step": 72 }, { "epoch": 0.19466666666666665, "grad_norm": 0.1637965440750122, "learning_rate": 0.00019391705069124425, "loss": 0.4172, "step": 73 }, { "epoch": 0.19733333333333333, "grad_norm": 0.13393600285053253, "learning_rate": 0.00019373271889400924, "loss": 0.3464, "step": 74 }, { "epoch": 0.2, "grad_norm": 0.160029336810112, "learning_rate": 0.00019354838709677422, "loss": 0.4253, "step": 75 }, { "epoch": 0.20266666666666666, "grad_norm": 0.14201787114143372, "learning_rate": 0.00019336405529953919, "loss": 0.3711, "step": 76 }, { "epoch": 0.20533333333333334, "grad_norm": 0.1976029872894287, "learning_rate": 0.00019317972350230416, "loss": 0.5179, "step": 77 }, { "epoch": 0.208, "grad_norm": 0.1669568419456482, "learning_rate": 0.00019299539170506913, "loss": 0.435, "step": 78 }, { "epoch": 0.21066666666666667, "grad_norm": 0.15705814957618713, "learning_rate": 0.0001928110599078341, "loss": 0.4277, "step": 79 }, { "epoch": 0.21333333333333335, "grad_norm": 0.171238973736763, "learning_rate": 0.0001926267281105991, "loss": 0.4447, "step": 80 }, { "epoch": 0.216, "grad_norm": 0.18211324512958527, "learning_rate": 0.00019244239631336407, "loss": 0.4871, "step": 81 }, { "epoch": 0.21866666666666668, "grad_norm": 0.17166893184185028, "learning_rate": 0.00019225806451612904, "loss": 0.4585, "step": 82 }, { "epoch": 0.22133333333333333, "grad_norm": 0.13666407763957977, "learning_rate": 0.000192073732718894, "loss": 0.3296, "step": 83 }, { "epoch": 0.224, "grad_norm": 0.14897605776786804, "learning_rate": 0.00019188940092165898, "loss": 0.419, "step": 84 }, { "epoch": 0.22666666666666666, "grad_norm": 0.18019717931747437, "learning_rate": 0.00019170506912442395, "loss": 0.4178, "step": 85 }, { "epoch": 0.22933333333333333, "grad_norm": 0.11701514571905136, "learning_rate": 0.00019152073732718895, "loss": 0.2964, "step": 86 }, { "epoch": 0.232, "grad_norm": 0.178730309009552, "learning_rate": 0.00019133640552995392, "loss": 0.44, "step": 87 }, { "epoch": 0.23466666666666666, "grad_norm": 0.19901369512081146, "learning_rate": 0.0001911520737327189, "loss": 0.4994, "step": 88 }, { "epoch": 0.23733333333333334, "grad_norm": 0.17634202539920807, "learning_rate": 0.0001909677419354839, "loss": 0.4579, "step": 89 }, { "epoch": 0.24, "grad_norm": 0.1528671830892563, "learning_rate": 0.00019078341013824886, "loss": 0.4276, "step": 90 }, { "epoch": 0.24266666666666667, "grad_norm": 0.17885848879814148, "learning_rate": 0.00019059907834101383, "loss": 0.4692, "step": 91 }, { "epoch": 0.24533333333333332, "grad_norm": 0.18216568231582642, "learning_rate": 0.00019041474654377883, "loss": 0.4661, "step": 92 }, { "epoch": 0.248, "grad_norm": 0.14913441240787506, "learning_rate": 0.0001902304147465438, "loss": 0.4069, "step": 93 }, { "epoch": 0.25066666666666665, "grad_norm": 0.14006248116493225, "learning_rate": 0.00019004608294930877, "loss": 0.3241, "step": 94 }, { "epoch": 0.25333333333333335, "grad_norm": 0.17819872498512268, "learning_rate": 0.00018986175115207375, "loss": 0.4391, "step": 95 }, { "epoch": 0.256, "grad_norm": 0.14914186298847198, "learning_rate": 0.00018967741935483872, "loss": 0.3717, "step": 96 }, { "epoch": 0.25866666666666666, "grad_norm": 0.16637903451919556, "learning_rate": 0.0001894930875576037, "loss": 0.4084, "step": 97 }, { "epoch": 0.2613333333333333, "grad_norm": 0.17099635303020477, "learning_rate": 0.00018930875576036869, "loss": 0.4276, "step": 98 }, { "epoch": 0.264, "grad_norm": 0.16819758713245392, "learning_rate": 0.00018912442396313366, "loss": 0.4467, "step": 99 }, { "epoch": 0.26666666666666666, "grad_norm": 0.16596156358718872, "learning_rate": 0.00018894009216589863, "loss": 0.4514, "step": 100 }, { "epoch": 0.2693333333333333, "grad_norm": 0.16137051582336426, "learning_rate": 0.0001887557603686636, "loss": 0.4481, "step": 101 }, { "epoch": 0.272, "grad_norm": 0.17070400714874268, "learning_rate": 0.00018857142857142857, "loss": 0.4799, "step": 102 }, { "epoch": 0.27466666666666667, "grad_norm": 0.1253652125597, "learning_rate": 0.00018838709677419354, "loss": 0.3078, "step": 103 }, { "epoch": 0.2773333333333333, "grad_norm": 0.16735614836215973, "learning_rate": 0.0001882027649769585, "loss": 0.4204, "step": 104 }, { "epoch": 0.28, "grad_norm": 0.16524048149585724, "learning_rate": 0.0001880184331797235, "loss": 0.4001, "step": 105 }, { "epoch": 0.2826666666666667, "grad_norm": 0.1721852570772171, "learning_rate": 0.00018783410138248848, "loss": 0.4256, "step": 106 }, { "epoch": 0.2853333333333333, "grad_norm": 0.18015016615390778, "learning_rate": 0.00018764976958525345, "loss": 0.4357, "step": 107 }, { "epoch": 0.288, "grad_norm": 0.11961845308542252, "learning_rate": 0.00018746543778801845, "loss": 0.3225, "step": 108 }, { "epoch": 0.2906666666666667, "grad_norm": 0.15067099034786224, "learning_rate": 0.00018728110599078342, "loss": 0.3627, "step": 109 }, { "epoch": 0.29333333333333333, "grad_norm": 0.15339131653308868, "learning_rate": 0.0001870967741935484, "loss": 0.3721, "step": 110 }, { "epoch": 0.296, "grad_norm": 0.18400989472866058, "learning_rate": 0.0001869124423963134, "loss": 0.4597, "step": 111 }, { "epoch": 0.2986666666666667, "grad_norm": 0.16479958593845367, "learning_rate": 0.00018672811059907836, "loss": 0.4118, "step": 112 }, { "epoch": 0.30133333333333334, "grad_norm": 0.17011751234531403, "learning_rate": 0.00018654377880184333, "loss": 0.4262, "step": 113 }, { "epoch": 0.304, "grad_norm": 0.1493382602930069, "learning_rate": 0.0001863594470046083, "loss": 0.3703, "step": 114 }, { "epoch": 0.30666666666666664, "grad_norm": 0.1860666126012802, "learning_rate": 0.00018617511520737328, "loss": 0.4457, "step": 115 }, { "epoch": 0.30933333333333335, "grad_norm": 0.1524077206850052, "learning_rate": 0.00018599078341013825, "loss": 0.3729, "step": 116 }, { "epoch": 0.312, "grad_norm": 0.17037904262542725, "learning_rate": 0.00018580645161290325, "loss": 0.4107, "step": 117 }, { "epoch": 0.31466666666666665, "grad_norm": 0.18302559852600098, "learning_rate": 0.00018562211981566822, "loss": 0.4487, "step": 118 }, { "epoch": 0.31733333333333336, "grad_norm": 0.17528630793094635, "learning_rate": 0.0001854377880184332, "loss": 0.4688, "step": 119 }, { "epoch": 0.32, "grad_norm": 0.14254267513751984, "learning_rate": 0.00018525345622119816, "loss": 0.3642, "step": 120 }, { "epoch": 0.32266666666666666, "grad_norm": 0.15180109441280365, "learning_rate": 0.00018506912442396313, "loss": 0.4103, "step": 121 }, { "epoch": 0.3253333333333333, "grad_norm": 0.17394393682479858, "learning_rate": 0.0001848847926267281, "loss": 0.431, "step": 122 }, { "epoch": 0.328, "grad_norm": 0.17153407633304596, "learning_rate": 0.0001847004608294931, "loss": 0.4114, "step": 123 }, { "epoch": 0.33066666666666666, "grad_norm": 0.1269201636314392, "learning_rate": 0.00018451612903225807, "loss": 0.3106, "step": 124 }, { "epoch": 0.3333333333333333, "grad_norm": 0.17708918452262878, "learning_rate": 0.00018433179723502304, "loss": 0.425, "step": 125 }, { "epoch": 0.336, "grad_norm": 0.14768198132514954, "learning_rate": 0.000184147465437788, "loss": 0.3671, "step": 126 }, { "epoch": 0.33866666666666667, "grad_norm": 0.14497029781341553, "learning_rate": 0.000183963133640553, "loss": 0.3541, "step": 127 }, { "epoch": 0.3413333333333333, "grad_norm": 0.16288724541664124, "learning_rate": 0.00018377880184331798, "loss": 0.401, "step": 128 }, { "epoch": 0.344, "grad_norm": 0.16115567088127136, "learning_rate": 0.00018359447004608298, "loss": 0.3901, "step": 129 }, { "epoch": 0.3466666666666667, "grad_norm": 0.1626514345407486, "learning_rate": 0.00018341013824884795, "loss": 0.3974, "step": 130 }, { "epoch": 0.34933333333333333, "grad_norm": 0.17566069960594177, "learning_rate": 0.00018322580645161292, "loss": 0.4441, "step": 131 }, { "epoch": 0.352, "grad_norm": 0.15314380824565887, "learning_rate": 0.0001830414746543779, "loss": 0.3879, "step": 132 }, { "epoch": 0.3546666666666667, "grad_norm": 0.17474164068698883, "learning_rate": 0.00018285714285714286, "loss": 0.4216, "step": 133 }, { "epoch": 0.35733333333333334, "grad_norm": 0.16597336530685425, "learning_rate": 0.00018267281105990784, "loss": 0.4064, "step": 134 }, { "epoch": 0.36, "grad_norm": 0.1585386097431183, "learning_rate": 0.00018248847926267283, "loss": 0.3648, "step": 135 }, { "epoch": 0.3626666666666667, "grad_norm": 0.15614689886569977, "learning_rate": 0.0001823041474654378, "loss": 0.3763, "step": 136 }, { "epoch": 0.36533333333333334, "grad_norm": 0.17746753990650177, "learning_rate": 0.00018211981566820278, "loss": 0.4342, "step": 137 }, { "epoch": 0.368, "grad_norm": 0.14107246696949005, "learning_rate": 0.00018193548387096775, "loss": 0.3201, "step": 138 }, { "epoch": 0.37066666666666664, "grad_norm": 0.18644823133945465, "learning_rate": 0.00018175115207373272, "loss": 0.4427, "step": 139 }, { "epoch": 0.37333333333333335, "grad_norm": 0.1781357079744339, "learning_rate": 0.0001815668202764977, "loss": 0.4406, "step": 140 }, { "epoch": 0.376, "grad_norm": 0.19284285604953766, "learning_rate": 0.0001813824884792627, "loss": 0.4717, "step": 141 }, { "epoch": 0.37866666666666665, "grad_norm": 0.17701680958271027, "learning_rate": 0.00018119815668202766, "loss": 0.4465, "step": 142 }, { "epoch": 0.38133333333333336, "grad_norm": 0.15814925730228424, "learning_rate": 0.00018101382488479263, "loss": 0.3935, "step": 143 }, { "epoch": 0.384, "grad_norm": 0.18513131141662598, "learning_rate": 0.0001808294930875576, "loss": 0.4571, "step": 144 }, { "epoch": 0.38666666666666666, "grad_norm": 0.1542840451002121, "learning_rate": 0.00018064516129032257, "loss": 0.3723, "step": 145 }, { "epoch": 0.3893333333333333, "grad_norm": 0.18084360659122467, "learning_rate": 0.00018046082949308757, "loss": 0.4772, "step": 146 }, { "epoch": 0.392, "grad_norm": 0.16495780646800995, "learning_rate": 0.00018027649769585254, "loss": 0.4235, "step": 147 }, { "epoch": 0.39466666666666667, "grad_norm": 0.17143410444259644, "learning_rate": 0.00018009216589861754, "loss": 0.412, "step": 148 }, { "epoch": 0.3973333333333333, "grad_norm": 0.15966279804706573, "learning_rate": 0.0001799078341013825, "loss": 0.3773, "step": 149 }, { "epoch": 0.4, "grad_norm": 0.17885254323482513, "learning_rate": 0.00017972350230414748, "loss": 0.4526, "step": 150 }, { "epoch": 0.4026666666666667, "grad_norm": 0.14771834015846252, "learning_rate": 0.00017953917050691245, "loss": 0.3577, "step": 151 }, { "epoch": 0.4053333333333333, "grad_norm": 0.19173817336559296, "learning_rate": 0.00017935483870967742, "loss": 0.4465, "step": 152 }, { "epoch": 0.408, "grad_norm": 0.15796253085136414, "learning_rate": 0.00017917050691244242, "loss": 0.389, "step": 153 }, { "epoch": 0.4106666666666667, "grad_norm": 0.19969353079795837, "learning_rate": 0.0001789861751152074, "loss": 0.4537, "step": 154 }, { "epoch": 0.41333333333333333, "grad_norm": 0.17320533096790314, "learning_rate": 0.00017880184331797236, "loss": 0.4191, "step": 155 }, { "epoch": 0.416, "grad_norm": 0.13411633670330048, "learning_rate": 0.00017861751152073734, "loss": 0.3375, "step": 156 }, { "epoch": 0.4186666666666667, "grad_norm": 0.15305060148239136, "learning_rate": 0.0001784331797235023, "loss": 0.3905, "step": 157 }, { "epoch": 0.42133333333333334, "grad_norm": 0.1757674217224121, "learning_rate": 0.00017824884792626728, "loss": 0.4461, "step": 158 }, { "epoch": 0.424, "grad_norm": 0.17182041704654694, "learning_rate": 0.00017806451612903228, "loss": 0.4341, "step": 159 }, { "epoch": 0.4266666666666667, "grad_norm": 0.16976647078990936, "learning_rate": 0.00017788018433179725, "loss": 0.4369, "step": 160 }, { "epoch": 0.42933333333333334, "grad_norm": 0.15003015100955963, "learning_rate": 0.00017769585253456222, "loss": 0.3677, "step": 161 }, { "epoch": 0.432, "grad_norm": 0.15240909159183502, "learning_rate": 0.0001775115207373272, "loss": 0.3564, "step": 162 }, { "epoch": 0.43466666666666665, "grad_norm": 0.12969525158405304, "learning_rate": 0.00017732718894009216, "loss": 0.306, "step": 163 }, { "epoch": 0.43733333333333335, "grad_norm": 0.18351611495018005, "learning_rate": 0.00017714285714285713, "loss": 0.4116, "step": 164 }, { "epoch": 0.44, "grad_norm": 0.1526956856250763, "learning_rate": 0.00017695852534562213, "loss": 0.3528, "step": 165 }, { "epoch": 0.44266666666666665, "grad_norm": 0.15024355053901672, "learning_rate": 0.0001767741935483871, "loss": 0.3712, "step": 166 }, { "epoch": 0.44533333333333336, "grad_norm": 0.15281909704208374, "learning_rate": 0.0001765898617511521, "loss": 0.3551, "step": 167 }, { "epoch": 0.448, "grad_norm": 0.1667689085006714, "learning_rate": 0.00017640552995391707, "loss": 0.3865, "step": 168 }, { "epoch": 0.45066666666666666, "grad_norm": 0.103152796626091, "learning_rate": 0.00017622119815668204, "loss": 0.2435, "step": 169 }, { "epoch": 0.4533333333333333, "grad_norm": 0.1343197375535965, "learning_rate": 0.000176036866359447, "loss": 0.3289, "step": 170 }, { "epoch": 0.456, "grad_norm": 0.1691158562898636, "learning_rate": 0.00017585253456221198, "loss": 0.3897, "step": 171 }, { "epoch": 0.45866666666666667, "grad_norm": 0.16926874220371246, "learning_rate": 0.00017566820276497698, "loss": 0.4109, "step": 172 }, { "epoch": 0.4613333333333333, "grad_norm": 0.14672289788722992, "learning_rate": 0.00017548387096774195, "loss": 0.3582, "step": 173 }, { "epoch": 0.464, "grad_norm": 0.17479246854782104, "learning_rate": 0.00017529953917050692, "loss": 0.4371, "step": 174 }, { "epoch": 0.4666666666666667, "grad_norm": 0.15855465829372406, "learning_rate": 0.0001751152073732719, "loss": 0.3856, "step": 175 }, { "epoch": 0.4693333333333333, "grad_norm": 0.14391499757766724, "learning_rate": 0.00017493087557603687, "loss": 0.3245, "step": 176 }, { "epoch": 0.472, "grad_norm": 0.16085828840732574, "learning_rate": 0.00017474654377880184, "loss": 0.366, "step": 177 }, { "epoch": 0.4746666666666667, "grad_norm": 0.19197571277618408, "learning_rate": 0.00017456221198156684, "loss": 0.4311, "step": 178 }, { "epoch": 0.47733333333333333, "grad_norm": 0.17153812944889069, "learning_rate": 0.0001743778801843318, "loss": 0.4236, "step": 179 }, { "epoch": 0.48, "grad_norm": 0.17264418303966522, "learning_rate": 0.00017419354838709678, "loss": 0.4349, "step": 180 }, { "epoch": 0.4826666666666667, "grad_norm": 0.1292308270931244, "learning_rate": 0.00017400921658986175, "loss": 0.3148, "step": 181 }, { "epoch": 0.48533333333333334, "grad_norm": 0.16159938275814056, "learning_rate": 0.00017382488479262672, "loss": 0.418, "step": 182 }, { "epoch": 0.488, "grad_norm": 0.16956357657909393, "learning_rate": 0.0001736405529953917, "loss": 0.4, "step": 183 }, { "epoch": 0.49066666666666664, "grad_norm": 0.18391053378582, "learning_rate": 0.0001734562211981567, "loss": 0.4406, "step": 184 }, { "epoch": 0.49333333333333335, "grad_norm": 0.1496499478816986, "learning_rate": 0.00017327188940092166, "loss": 0.378, "step": 185 }, { "epoch": 0.496, "grad_norm": 0.1665787696838379, "learning_rate": 0.00017308755760368666, "loss": 0.3853, "step": 186 }, { "epoch": 0.49866666666666665, "grad_norm": 0.20489759743213654, "learning_rate": 0.00017290322580645163, "loss": 0.4377, "step": 187 }, { "epoch": 0.5013333333333333, "grad_norm": 0.14827361702919006, "learning_rate": 0.0001727188940092166, "loss": 0.3546, "step": 188 }, { "epoch": 0.504, "grad_norm": 0.15462061762809753, "learning_rate": 0.00017253456221198157, "loss": 0.349, "step": 189 }, { "epoch": 0.5066666666666667, "grad_norm": 0.15933746099472046, "learning_rate": 0.00017235023041474657, "loss": 0.3949, "step": 190 }, { "epoch": 0.5093333333333333, "grad_norm": 0.1423114538192749, "learning_rate": 0.00017216589861751154, "loss": 0.3282, "step": 191 }, { "epoch": 0.512, "grad_norm": 0.15322059392929077, "learning_rate": 0.0001719815668202765, "loss": 0.3708, "step": 192 }, { "epoch": 0.5146666666666667, "grad_norm": 0.14829488098621368, "learning_rate": 0.00017179723502304148, "loss": 0.3686, "step": 193 }, { "epoch": 0.5173333333333333, "grad_norm": 0.18233701586723328, "learning_rate": 0.00017161290322580645, "loss": 0.4355, "step": 194 }, { "epoch": 0.52, "grad_norm": 0.1339682787656784, "learning_rate": 0.00017142857142857143, "loss": 0.3366, "step": 195 }, { "epoch": 0.5226666666666666, "grad_norm": 0.19841143488883972, "learning_rate": 0.00017124423963133642, "loss": 0.4227, "step": 196 }, { "epoch": 0.5253333333333333, "grad_norm": 0.14212489128112793, "learning_rate": 0.0001710599078341014, "loss": 0.3427, "step": 197 }, { "epoch": 0.528, "grad_norm": 0.173259899020195, "learning_rate": 0.00017087557603686637, "loss": 0.3791, "step": 198 }, { "epoch": 0.5306666666666666, "grad_norm": 0.15233451128005981, "learning_rate": 0.00017069124423963134, "loss": 0.3414, "step": 199 }, { "epoch": 0.5333333333333333, "grad_norm": 0.17846983671188354, "learning_rate": 0.0001705069124423963, "loss": 0.4373, "step": 200 }, { "epoch": 0.536, "grad_norm": 0.1585446149110794, "learning_rate": 0.00017032258064516128, "loss": 0.3765, "step": 201 }, { "epoch": 0.5386666666666666, "grad_norm": 0.13464581966400146, "learning_rate": 0.00017013824884792628, "loss": 0.3006, "step": 202 }, { "epoch": 0.5413333333333333, "grad_norm": 0.14662134647369385, "learning_rate": 0.00016995391705069125, "loss": 0.3567, "step": 203 }, { "epoch": 0.544, "grad_norm": 0.15118283033370972, "learning_rate": 0.00016976958525345622, "loss": 0.3475, "step": 204 }, { "epoch": 0.5466666666666666, "grad_norm": 0.17972949147224426, "learning_rate": 0.00016958525345622122, "loss": 0.4418, "step": 205 }, { "epoch": 0.5493333333333333, "grad_norm": 0.14408893883228302, "learning_rate": 0.0001694009216589862, "loss": 0.3507, "step": 206 }, { "epoch": 0.552, "grad_norm": 0.13158614933490753, "learning_rate": 0.00016921658986175116, "loss": 0.3166, "step": 207 }, { "epoch": 0.5546666666666666, "grad_norm": 0.15383560955524445, "learning_rate": 0.00016903225806451616, "loss": 0.329, "step": 208 }, { "epoch": 0.5573333333333333, "grad_norm": 0.15465512871742249, "learning_rate": 0.00016884792626728113, "loss": 0.3615, "step": 209 }, { "epoch": 0.56, "grad_norm": 0.15681861340999603, "learning_rate": 0.0001686635944700461, "loss": 0.3466, "step": 210 }, { "epoch": 0.5626666666666666, "grad_norm": 0.1434970200061798, "learning_rate": 0.00016847926267281107, "loss": 0.3278, "step": 211 }, { "epoch": 0.5653333333333334, "grad_norm": 0.15641628205776215, "learning_rate": 0.00016829493087557604, "loss": 0.3569, "step": 212 }, { "epoch": 0.568, "grad_norm": 0.1346403956413269, "learning_rate": 0.000168110599078341, "loss": 0.3148, "step": 213 }, { "epoch": 0.5706666666666667, "grad_norm": 0.15052050352096558, "learning_rate": 0.000167926267281106, "loss": 0.366, "step": 214 }, { "epoch": 0.5733333333333334, "grad_norm": 0.1652543991804123, "learning_rate": 0.00016774193548387098, "loss": 0.378, "step": 215 }, { "epoch": 0.576, "grad_norm": 0.1317535787820816, "learning_rate": 0.00016755760368663595, "loss": 0.3063, "step": 216 }, { "epoch": 0.5786666666666667, "grad_norm": 0.16040165722370148, "learning_rate": 0.00016737327188940092, "loss": 0.3696, "step": 217 }, { "epoch": 0.5813333333333334, "grad_norm": 0.16351503133773804, "learning_rate": 0.0001671889400921659, "loss": 0.3619, "step": 218 }, { "epoch": 0.584, "grad_norm": 0.1512780487537384, "learning_rate": 0.00016700460829493087, "loss": 0.3553, "step": 219 }, { "epoch": 0.5866666666666667, "grad_norm": 0.1684075891971588, "learning_rate": 0.00016682027649769587, "loss": 0.4111, "step": 220 }, { "epoch": 0.5893333333333334, "grad_norm": 0.17556628584861755, "learning_rate": 0.00016663594470046084, "loss": 0.3937, "step": 221 }, { "epoch": 0.592, "grad_norm": 0.1315503865480423, "learning_rate": 0.0001664516129032258, "loss": 0.2994, "step": 222 }, { "epoch": 0.5946666666666667, "grad_norm": 0.1683577597141266, "learning_rate": 0.00016626728110599078, "loss": 0.3825, "step": 223 }, { "epoch": 0.5973333333333334, "grad_norm": 0.13307073712348938, "learning_rate": 0.00016608294930875578, "loss": 0.3101, "step": 224 }, { "epoch": 0.6, "grad_norm": 0.182749941945076, "learning_rate": 0.00016589861751152075, "loss": 0.4399, "step": 225 }, { "epoch": 0.6026666666666667, "grad_norm": 0.13908226788043976, "learning_rate": 0.00016571428571428575, "loss": 0.2907, "step": 226 }, { "epoch": 0.6053333333333333, "grad_norm": 0.1431780457496643, "learning_rate": 0.00016552995391705072, "loss": 0.3256, "step": 227 }, { "epoch": 0.608, "grad_norm": 0.1415647268295288, "learning_rate": 0.0001653456221198157, "loss": 0.3539, "step": 228 }, { "epoch": 0.6106666666666667, "grad_norm": 0.16500137746334076, "learning_rate": 0.00016516129032258066, "loss": 0.3995, "step": 229 }, { "epoch": 0.6133333333333333, "grad_norm": 0.14294126629829407, "learning_rate": 0.00016497695852534563, "loss": 0.3516, "step": 230 }, { "epoch": 0.616, "grad_norm": 0.16912704706192017, "learning_rate": 0.0001647926267281106, "loss": 0.3701, "step": 231 }, { "epoch": 0.6186666666666667, "grad_norm": 0.171602264046669, "learning_rate": 0.00016460829493087557, "loss": 0.3902, "step": 232 }, { "epoch": 0.6213333333333333, "grad_norm": 0.139840230345726, "learning_rate": 0.00016442396313364057, "loss": 0.3207, "step": 233 }, { "epoch": 0.624, "grad_norm": 0.1817532330751419, "learning_rate": 0.00016423963133640554, "loss": 0.3992, "step": 234 }, { "epoch": 0.6266666666666667, "grad_norm": 0.15684981644153595, "learning_rate": 0.0001640552995391705, "loss": 0.3728, "step": 235 }, { "epoch": 0.6293333333333333, "grad_norm": 0.1692310869693756, "learning_rate": 0.00016387096774193548, "loss": 0.3749, "step": 236 }, { "epoch": 0.632, "grad_norm": 0.15905971825122833, "learning_rate": 0.00016368663594470046, "loss": 0.3447, "step": 237 }, { "epoch": 0.6346666666666667, "grad_norm": 0.1193050667643547, "learning_rate": 0.00016350230414746543, "loss": 0.2671, "step": 238 }, { "epoch": 0.6373333333333333, "grad_norm": 0.15694352984428406, "learning_rate": 0.00016331797235023042, "loss": 0.3459, "step": 239 }, { "epoch": 0.64, "grad_norm": 0.17581601440906525, "learning_rate": 0.0001631336405529954, "loss": 0.3871, "step": 240 }, { "epoch": 0.6426666666666667, "grad_norm": 0.15232494473457336, "learning_rate": 0.00016294930875576037, "loss": 0.3693, "step": 241 }, { "epoch": 0.6453333333333333, "grad_norm": 0.1606399416923523, "learning_rate": 0.00016276497695852534, "loss": 0.381, "step": 242 }, { "epoch": 0.648, "grad_norm": 0.1719520092010498, "learning_rate": 0.00016258064516129034, "loss": 0.3592, "step": 243 }, { "epoch": 0.6506666666666666, "grad_norm": 0.16019819676876068, "learning_rate": 0.0001623963133640553, "loss": 0.3744, "step": 244 }, { "epoch": 0.6533333333333333, "grad_norm": 0.17567366361618042, "learning_rate": 0.0001622119815668203, "loss": 0.3805, "step": 245 }, { "epoch": 0.656, "grad_norm": 0.14169426262378693, "learning_rate": 0.00016202764976958528, "loss": 0.3137, "step": 246 }, { "epoch": 0.6586666666666666, "grad_norm": 0.14895136654376984, "learning_rate": 0.00016184331797235025, "loss": 0.3569, "step": 247 }, { "epoch": 0.6613333333333333, "grad_norm": 0.16148167848587036, "learning_rate": 0.00016165898617511522, "loss": 0.3638, "step": 248 }, { "epoch": 0.664, "grad_norm": 0.16838644444942474, "learning_rate": 0.0001614746543778802, "loss": 0.388, "step": 249 }, { "epoch": 0.6666666666666666, "grad_norm": 0.15224848687648773, "learning_rate": 0.00016129032258064516, "loss": 0.3545, "step": 250 }, { "epoch": 0.6693333333333333, "grad_norm": 0.16191022098064423, "learning_rate": 0.00016110599078341016, "loss": 0.3816, "step": 251 }, { "epoch": 0.672, "grad_norm": 0.1257759928703308, "learning_rate": 0.00016092165898617513, "loss": 0.2883, "step": 252 }, { "epoch": 0.6746666666666666, "grad_norm": 0.15058423578739166, "learning_rate": 0.0001607373271889401, "loss": 0.3538, "step": 253 }, { "epoch": 0.6773333333333333, "grad_norm": 0.16297395527362823, "learning_rate": 0.00016055299539170507, "loss": 0.3149, "step": 254 }, { "epoch": 0.68, "grad_norm": 0.13175536692142487, "learning_rate": 0.00016036866359447004, "loss": 0.2967, "step": 255 }, { "epoch": 0.6826666666666666, "grad_norm": 0.1673828512430191, "learning_rate": 0.00016018433179723501, "loss": 0.3832, "step": 256 }, { "epoch": 0.6853333333333333, "grad_norm": 0.1622629463672638, "learning_rate": 0.00016, "loss": 0.3682, "step": 257 }, { "epoch": 0.688, "grad_norm": 0.16801975667476654, "learning_rate": 0.00015981566820276498, "loss": 0.3816, "step": 258 }, { "epoch": 0.6906666666666667, "grad_norm": 0.16025444865226746, "learning_rate": 0.00015963133640552996, "loss": 0.4015, "step": 259 }, { "epoch": 0.6933333333333334, "grad_norm": 0.15624813735485077, "learning_rate": 0.00015944700460829493, "loss": 0.3423, "step": 260 }, { "epoch": 0.696, "grad_norm": 0.15024392306804657, "learning_rate": 0.0001592626728110599, "loss": 0.3559, "step": 261 }, { "epoch": 0.6986666666666667, "grad_norm": 0.13429264724254608, "learning_rate": 0.0001590783410138249, "loss": 0.3287, "step": 262 }, { "epoch": 0.7013333333333334, "grad_norm": 0.15059643983840942, "learning_rate": 0.00015889400921658987, "loss": 0.3721, "step": 263 }, { "epoch": 0.704, "grad_norm": 0.16725251078605652, "learning_rate": 0.00015870967741935487, "loss": 0.4083, "step": 264 }, { "epoch": 0.7066666666666667, "grad_norm": 0.17089051008224487, "learning_rate": 0.00015852534562211984, "loss": 0.3818, "step": 265 }, { "epoch": 0.7093333333333334, "grad_norm": 0.16191141307353973, "learning_rate": 0.0001583410138248848, "loss": 0.3877, "step": 266 }, { "epoch": 0.712, "grad_norm": 0.10652066022157669, "learning_rate": 0.00015815668202764978, "loss": 0.2472, "step": 267 }, { "epoch": 0.7146666666666667, "grad_norm": 0.14809884130954742, "learning_rate": 0.00015797235023041475, "loss": 0.3437, "step": 268 }, { "epoch": 0.7173333333333334, "grad_norm": 0.15298527479171753, "learning_rate": 0.00015778801843317975, "loss": 0.3451, "step": 269 }, { "epoch": 0.72, "grad_norm": 0.16368281841278076, "learning_rate": 0.00015760368663594472, "loss": 0.3707, "step": 270 }, { "epoch": 0.7226666666666667, "grad_norm": 0.16910625994205475, "learning_rate": 0.0001574193548387097, "loss": 0.3814, "step": 271 }, { "epoch": 0.7253333333333334, "grad_norm": 0.13161355257034302, "learning_rate": 0.00015723502304147466, "loss": 0.2906, "step": 272 }, { "epoch": 0.728, "grad_norm": 0.15623870491981506, "learning_rate": 0.00015705069124423963, "loss": 0.3569, "step": 273 }, { "epoch": 0.7306666666666667, "grad_norm": 0.1901761293411255, "learning_rate": 0.0001568663594470046, "loss": 0.4412, "step": 274 }, { "epoch": 0.7333333333333333, "grad_norm": 0.17372649908065796, "learning_rate": 0.0001566820276497696, "loss": 0.3818, "step": 275 }, { "epoch": 0.736, "grad_norm": 0.1698993593454361, "learning_rate": 0.00015649769585253457, "loss": 0.3946, "step": 276 }, { "epoch": 0.7386666666666667, "grad_norm": 0.1353125125169754, "learning_rate": 0.00015631336405529954, "loss": 0.3024, "step": 277 }, { "epoch": 0.7413333333333333, "grad_norm": 0.15039609372615814, "learning_rate": 0.00015612903225806451, "loss": 0.344, "step": 278 }, { "epoch": 0.744, "grad_norm": 0.14630864560604095, "learning_rate": 0.00015594470046082949, "loss": 0.3164, "step": 279 }, { "epoch": 0.7466666666666667, "grad_norm": 0.1768413931131363, "learning_rate": 0.00015576036866359446, "loss": 0.4039, "step": 280 }, { "epoch": 0.7493333333333333, "grad_norm": 0.18967677652835846, "learning_rate": 0.00015557603686635946, "loss": 0.3934, "step": 281 }, { "epoch": 0.752, "grad_norm": 0.1499478965997696, "learning_rate": 0.00015539170506912443, "loss": 0.3396, "step": 282 }, { "epoch": 0.7546666666666667, "grad_norm": 0.1615721583366394, "learning_rate": 0.00015520737327188942, "loss": 0.3923, "step": 283 }, { "epoch": 0.7573333333333333, "grad_norm": 0.18911497294902802, "learning_rate": 0.0001550230414746544, "loss": 0.4161, "step": 284 }, { "epoch": 0.76, "grad_norm": 0.1700778603553772, "learning_rate": 0.00015483870967741937, "loss": 0.3802, "step": 285 }, { "epoch": 0.7626666666666667, "grad_norm": 0.16611550748348236, "learning_rate": 0.00015465437788018434, "loss": 0.4055, "step": 286 }, { "epoch": 0.7653333333333333, "grad_norm": 0.11968239396810532, "learning_rate": 0.00015447004608294934, "loss": 0.2623, "step": 287 }, { "epoch": 0.768, "grad_norm": 0.14020052552223206, "learning_rate": 0.0001542857142857143, "loss": 0.3312, "step": 288 }, { "epoch": 0.7706666666666667, "grad_norm": 0.1645808219909668, "learning_rate": 0.00015410138248847928, "loss": 0.3723, "step": 289 }, { "epoch": 0.7733333333333333, "grad_norm": 0.14945979416370392, "learning_rate": 0.00015391705069124425, "loss": 0.3437, "step": 290 }, { "epoch": 0.776, "grad_norm": 0.15359844267368317, "learning_rate": 0.00015373271889400922, "loss": 0.3416, "step": 291 }, { "epoch": 0.7786666666666666, "grad_norm": 0.15382947027683258, "learning_rate": 0.0001535483870967742, "loss": 0.35, "step": 292 }, { "epoch": 0.7813333333333333, "grad_norm": 0.1751420497894287, "learning_rate": 0.0001533640552995392, "loss": 0.3934, "step": 293 }, { "epoch": 0.784, "grad_norm": 0.17973610758781433, "learning_rate": 0.00015317972350230416, "loss": 0.4028, "step": 294 }, { "epoch": 0.7866666666666666, "grad_norm": 0.13859035074710846, "learning_rate": 0.00015299539170506913, "loss": 0.2822, "step": 295 }, { "epoch": 0.7893333333333333, "grad_norm": 0.159519225358963, "learning_rate": 0.0001528110599078341, "loss": 0.3618, "step": 296 }, { "epoch": 0.792, "grad_norm": 0.1519719660282135, "learning_rate": 0.00015262672811059907, "loss": 0.3135, "step": 297 }, { "epoch": 0.7946666666666666, "grad_norm": 0.1638742834329605, "learning_rate": 0.00015244239631336405, "loss": 0.3436, "step": 298 }, { "epoch": 0.7973333333333333, "grad_norm": 0.16452346742153168, "learning_rate": 0.00015225806451612902, "loss": 0.3554, "step": 299 }, { "epoch": 0.8, "grad_norm": 0.1377478837966919, "learning_rate": 0.00015207373271889401, "loss": 0.316, "step": 300 }, { "epoch": 0.8026666666666666, "grad_norm": 0.14339123666286469, "learning_rate": 0.00015188940092165899, "loss": 0.3205, "step": 301 }, { "epoch": 0.8053333333333333, "grad_norm": 0.1550448089838028, "learning_rate": 0.00015170506912442398, "loss": 0.3596, "step": 302 }, { "epoch": 0.808, "grad_norm": 0.17551767826080322, "learning_rate": 0.00015152073732718895, "loss": 0.3962, "step": 303 }, { "epoch": 0.8106666666666666, "grad_norm": 0.12701982259750366, "learning_rate": 0.00015133640552995393, "loss": 0.3008, "step": 304 }, { "epoch": 0.8133333333333334, "grad_norm": 0.16174665093421936, "learning_rate": 0.0001511520737327189, "loss": 0.3806, "step": 305 }, { "epoch": 0.816, "grad_norm": 0.1501130908727646, "learning_rate": 0.0001509677419354839, "loss": 0.3329, "step": 306 }, { "epoch": 0.8186666666666667, "grad_norm": 0.1546219438314438, "learning_rate": 0.00015078341013824887, "loss": 0.35, "step": 307 }, { "epoch": 0.8213333333333334, "grad_norm": 0.15842264890670776, "learning_rate": 0.00015059907834101384, "loss": 0.3464, "step": 308 }, { "epoch": 0.824, "grad_norm": 0.15754717588424683, "learning_rate": 0.0001504147465437788, "loss": 0.3328, "step": 309 }, { "epoch": 0.8266666666666667, "grad_norm": 0.2010168433189392, "learning_rate": 0.00015023041474654378, "loss": 0.376, "step": 310 }, { "epoch": 0.8293333333333334, "grad_norm": 0.15599404275417328, "learning_rate": 0.00015004608294930875, "loss": 0.3522, "step": 311 }, { "epoch": 0.832, "grad_norm": 0.2657049298286438, "learning_rate": 0.00014986175115207375, "loss": 0.3294, "step": 312 }, { "epoch": 0.8346666666666667, "grad_norm": 0.16477878391742706, "learning_rate": 0.00014967741935483872, "loss": 0.3409, "step": 313 }, { "epoch": 0.8373333333333334, "grad_norm": 0.16392506659030914, "learning_rate": 0.0001494930875576037, "loss": 0.3374, "step": 314 }, { "epoch": 0.84, "grad_norm": 0.1208295077085495, "learning_rate": 0.00014930875576036866, "loss": 0.2801, "step": 315 }, { "epoch": 0.8426666666666667, "grad_norm": 0.12793493270874023, "learning_rate": 0.00014912442396313363, "loss": 0.2754, "step": 316 }, { "epoch": 0.8453333333333334, "grad_norm": 0.14537736773490906, "learning_rate": 0.0001489400921658986, "loss": 0.3408, "step": 317 }, { "epoch": 0.848, "grad_norm": 0.15252535045146942, "learning_rate": 0.0001487557603686636, "loss": 0.3493, "step": 318 }, { "epoch": 0.8506666666666667, "grad_norm": 0.14754997193813324, "learning_rate": 0.00014857142857142857, "loss": 0.324, "step": 319 }, { "epoch": 0.8533333333333334, "grad_norm": 0.15408839285373688, "learning_rate": 0.00014838709677419355, "loss": 0.3557, "step": 320 }, { "epoch": 0.856, "grad_norm": 0.15192221105098724, "learning_rate": 0.00014820276497695854, "loss": 0.335, "step": 321 }, { "epoch": 0.8586666666666667, "grad_norm": 0.12445574253797531, "learning_rate": 0.00014801843317972351, "loss": 0.2915, "step": 322 }, { "epoch": 0.8613333333333333, "grad_norm": 0.15413238108158112, "learning_rate": 0.00014783410138248849, "loss": 0.3332, "step": 323 }, { "epoch": 0.864, "grad_norm": 0.14998595416545868, "learning_rate": 0.00014764976958525348, "loss": 0.335, "step": 324 }, { "epoch": 0.8666666666666667, "grad_norm": 0.1280187964439392, "learning_rate": 0.00014746543778801845, "loss": 0.2979, "step": 325 }, { "epoch": 0.8693333333333333, "grad_norm": 0.16464708745479584, "learning_rate": 0.00014728110599078343, "loss": 0.3571, "step": 326 }, { "epoch": 0.872, "grad_norm": 0.15211057662963867, "learning_rate": 0.0001470967741935484, "loss": 0.3678, "step": 327 }, { "epoch": 0.8746666666666667, "grad_norm": 0.15790687501430511, "learning_rate": 0.00014691244239631337, "loss": 0.3479, "step": 328 }, { "epoch": 0.8773333333333333, "grad_norm": 0.17375443875789642, "learning_rate": 0.00014672811059907834, "loss": 0.404, "step": 329 }, { "epoch": 0.88, "grad_norm": 0.14624124765396118, "learning_rate": 0.00014654377880184334, "loss": 0.3035, "step": 330 }, { "epoch": 0.8826666666666667, "grad_norm": 0.12936308979988098, "learning_rate": 0.0001463594470046083, "loss": 0.2838, "step": 331 }, { "epoch": 0.8853333333333333, "grad_norm": 0.13163194060325623, "learning_rate": 0.00014617511520737328, "loss": 0.3032, "step": 332 }, { "epoch": 0.888, "grad_norm": 0.12900876998901367, "learning_rate": 0.00014599078341013825, "loss": 0.2964, "step": 333 }, { "epoch": 0.8906666666666667, "grad_norm": 0.1418975293636322, "learning_rate": 0.00014580645161290322, "loss": 0.325, "step": 334 }, { "epoch": 0.8933333333333333, "grad_norm": 0.15901930630207062, "learning_rate": 0.0001456221198156682, "loss": 0.3485, "step": 335 }, { "epoch": 0.896, "grad_norm": 0.12917467951774597, "learning_rate": 0.0001454377880184332, "loss": 0.3101, "step": 336 }, { "epoch": 0.8986666666666666, "grad_norm": 0.1307375133037567, "learning_rate": 0.00014525345622119816, "loss": 0.2692, "step": 337 }, { "epoch": 0.9013333333333333, "grad_norm": 0.15659134089946747, "learning_rate": 0.00014506912442396313, "loss": 0.3562, "step": 338 }, { "epoch": 0.904, "grad_norm": 0.1662200689315796, "learning_rate": 0.0001448847926267281, "loss": 0.3789, "step": 339 }, { "epoch": 0.9066666666666666, "grad_norm": 0.184801384806633, "learning_rate": 0.0001447004608294931, "loss": 0.4033, "step": 340 }, { "epoch": 0.9093333333333333, "grad_norm": 0.14836148917675018, "learning_rate": 0.00014451612903225807, "loss": 0.3323, "step": 341 }, { "epoch": 0.912, "grad_norm": 0.1291496455669403, "learning_rate": 0.00014433179723502307, "loss": 0.2878, "step": 342 }, { "epoch": 0.9146666666666666, "grad_norm": 0.1760437786579132, "learning_rate": 0.00014414746543778804, "loss": 0.4028, "step": 343 }, { "epoch": 0.9173333333333333, "grad_norm": 0.1543797254562378, "learning_rate": 0.00014396313364055301, "loss": 0.3523, "step": 344 }, { "epoch": 0.92, "grad_norm": 0.11840101331472397, "learning_rate": 0.00014377880184331799, "loss": 0.2498, "step": 345 }, { "epoch": 0.9226666666666666, "grad_norm": 0.17368434369564056, "learning_rate": 0.00014359447004608296, "loss": 0.4288, "step": 346 }, { "epoch": 0.9253333333333333, "grad_norm": 0.14866364002227783, "learning_rate": 0.00014341013824884793, "loss": 0.3427, "step": 347 }, { "epoch": 0.928, "grad_norm": 0.15044787526130676, "learning_rate": 0.00014322580645161293, "loss": 0.3048, "step": 348 }, { "epoch": 0.9306666666666666, "grad_norm": 0.17984692752361298, "learning_rate": 0.0001430414746543779, "loss": 0.3875, "step": 349 }, { "epoch": 0.9333333333333333, "grad_norm": 0.17136484384536743, "learning_rate": 0.00014285714285714287, "loss": 0.4113, "step": 350 }, { "epoch": 0.936, "grad_norm": 0.1462949514389038, "learning_rate": 0.00014267281105990784, "loss": 0.3223, "step": 351 }, { "epoch": 0.9386666666666666, "grad_norm": 0.13263173401355743, "learning_rate": 0.0001424884792626728, "loss": 0.2964, "step": 352 }, { "epoch": 0.9413333333333334, "grad_norm": 0.16512326896190643, "learning_rate": 0.00014230414746543778, "loss": 0.382, "step": 353 }, { "epoch": 0.944, "grad_norm": 0.15281005203723907, "learning_rate": 0.00014211981566820278, "loss": 0.3237, "step": 354 }, { "epoch": 0.9466666666666667, "grad_norm": 0.16622225940227509, "learning_rate": 0.00014193548387096775, "loss": 0.3476, "step": 355 }, { "epoch": 0.9493333333333334, "grad_norm": 0.14663656055927277, "learning_rate": 0.00014175115207373272, "loss": 0.3256, "step": 356 }, { "epoch": 0.952, "grad_norm": 0.14011381566524506, "learning_rate": 0.0001415668202764977, "loss": 0.2808, "step": 357 }, { "epoch": 0.9546666666666667, "grad_norm": 0.17868131399154663, "learning_rate": 0.00014138248847926266, "loss": 0.4023, "step": 358 }, { "epoch": 0.9573333333333334, "grad_norm": 0.14108337461948395, "learning_rate": 0.00014119815668202766, "loss": 0.2917, "step": 359 }, { "epoch": 0.96, "grad_norm": 0.14999185502529144, "learning_rate": 0.00014101382488479263, "loss": 0.3405, "step": 360 }, { "epoch": 0.9626666666666667, "grad_norm": 0.1410456895828247, "learning_rate": 0.00014082949308755763, "loss": 0.296, "step": 361 }, { "epoch": 0.9653333333333334, "grad_norm": 0.19141064584255219, "learning_rate": 0.0001406451612903226, "loss": 0.4072, "step": 362 }, { "epoch": 0.968, "grad_norm": 0.16611899435520172, "learning_rate": 0.00014046082949308757, "loss": 0.3783, "step": 363 }, { "epoch": 0.9706666666666667, "grad_norm": 0.16892562806606293, "learning_rate": 0.00014027649769585254, "loss": 0.392, "step": 364 }, { "epoch": 0.9733333333333334, "grad_norm": 0.14543844759464264, "learning_rate": 0.00014009216589861752, "loss": 0.3362, "step": 365 }, { "epoch": 0.976, "grad_norm": 0.1536979377269745, "learning_rate": 0.0001399078341013825, "loss": 0.3294, "step": 366 }, { "epoch": 0.9786666666666667, "grad_norm": 0.17454853653907776, "learning_rate": 0.00013972350230414749, "loss": 0.3937, "step": 367 }, { "epoch": 0.9813333333333333, "grad_norm": 0.13380491733551025, "learning_rate": 0.00013953917050691246, "loss": 0.3028, "step": 368 }, { "epoch": 0.984, "grad_norm": 0.18040022253990173, "learning_rate": 0.00013935483870967743, "loss": 0.3761, "step": 369 }, { "epoch": 0.9866666666666667, "grad_norm": 0.15009883046150208, "learning_rate": 0.0001391705069124424, "loss": 0.3319, "step": 370 }, { "epoch": 0.9893333333333333, "grad_norm": 0.18103910982608795, "learning_rate": 0.00013898617511520737, "loss": 0.402, "step": 371 }, { "epoch": 0.992, "grad_norm": 0.1751798838376999, "learning_rate": 0.00013880184331797234, "loss": 0.368, "step": 372 }, { "epoch": 0.9946666666666667, "grad_norm": 0.13354599475860596, "learning_rate": 0.00013861751152073734, "loss": 0.2981, "step": 373 }, { "epoch": 0.9973333333333333, "grad_norm": 0.1821356564760208, "learning_rate": 0.0001384331797235023, "loss": 0.3774, "step": 374 }, { "epoch": 1.0, "grad_norm": 0.17267672717571259, "learning_rate": 0.00013824884792626728, "loss": 0.3519, "step": 375 }, { "epoch": 1.0026666666666666, "grad_norm": 0.16836708784103394, "learning_rate": 0.00013806451612903225, "loss": 0.3253, "step": 376 }, { "epoch": 1.0053333333333334, "grad_norm": 0.17477719485759735, "learning_rate": 0.00013788018433179722, "loss": 0.3608, "step": 377 }, { "epoch": 1.008, "grad_norm": 0.1772724837064743, "learning_rate": 0.00013769585253456222, "loss": 0.3447, "step": 378 }, { "epoch": 1.0106666666666666, "grad_norm": 0.12257684767246246, "learning_rate": 0.0001375115207373272, "loss": 0.2177, "step": 379 }, { "epoch": 1.0133333333333334, "grad_norm": 0.16612914204597473, "learning_rate": 0.0001373271889400922, "loss": 0.29, "step": 380 }, { "epoch": 1.016, "grad_norm": 0.1659669578075409, "learning_rate": 0.00013714285714285716, "loss": 0.2863, "step": 381 }, { "epoch": 1.0186666666666666, "grad_norm": 0.10684580355882645, "learning_rate": 0.00013695852534562213, "loss": 0.2036, "step": 382 }, { "epoch": 1.0213333333333334, "grad_norm": 0.18086634576320648, "learning_rate": 0.0001367741935483871, "loss": 0.3264, "step": 383 }, { "epoch": 1.024, "grad_norm": 0.18370379507541656, "learning_rate": 0.00013658986175115208, "loss": 0.3345, "step": 384 }, { "epoch": 1.0266666666666666, "grad_norm": 0.12735684216022491, "learning_rate": 0.00013640552995391707, "loss": 0.2282, "step": 385 }, { "epoch": 1.0293333333333334, "grad_norm": 0.19155777990818024, "learning_rate": 0.00013622119815668204, "loss": 0.3451, "step": 386 }, { "epoch": 1.032, "grad_norm": 0.15170736610889435, "learning_rate": 0.00013603686635944702, "loss": 0.3117, "step": 387 }, { "epoch": 1.0346666666666666, "grad_norm": 0.1189170852303505, "learning_rate": 0.000135852534562212, "loss": 0.2301, "step": 388 }, { "epoch": 1.0373333333333334, "grad_norm": 0.18579140305519104, "learning_rate": 0.00013566820276497696, "loss": 0.35, "step": 389 }, { "epoch": 1.04, "grad_norm": 0.17958171665668488, "learning_rate": 0.00013548387096774193, "loss": 0.3784, "step": 390 }, { "epoch": 1.0426666666666666, "grad_norm": 0.14446499943733215, "learning_rate": 0.00013529953917050693, "loss": 0.2612, "step": 391 }, { "epoch": 1.0453333333333332, "grad_norm": 0.14457960426807404, "learning_rate": 0.0001351152073732719, "loss": 0.2652, "step": 392 }, { "epoch": 1.048, "grad_norm": 0.15731191635131836, "learning_rate": 0.00013493087557603687, "loss": 0.2775, "step": 393 }, { "epoch": 1.0506666666666666, "grad_norm": 0.16172131896018982, "learning_rate": 0.00013474654377880184, "loss": 0.306, "step": 394 }, { "epoch": 1.0533333333333332, "grad_norm": 0.14943663775920868, "learning_rate": 0.0001345622119815668, "loss": 0.2754, "step": 395 }, { "epoch": 1.056, "grad_norm": 0.15502700209617615, "learning_rate": 0.00013437788018433178, "loss": 0.2944, "step": 396 }, { "epoch": 1.0586666666666666, "grad_norm": 0.12555833160877228, "learning_rate": 0.00013419354838709678, "loss": 0.2273, "step": 397 }, { "epoch": 1.0613333333333332, "grad_norm": 0.18065771460533142, "learning_rate": 0.00013400921658986175, "loss": 0.3267, "step": 398 }, { "epoch": 1.064, "grad_norm": 0.18832246959209442, "learning_rate": 0.00013382488479262675, "loss": 0.3257, "step": 399 }, { "epoch": 1.0666666666666667, "grad_norm": 0.1641506552696228, "learning_rate": 0.00013364055299539172, "loss": 0.2909, "step": 400 }, { "epoch": 1.0693333333333332, "grad_norm": 0.1466669887304306, "learning_rate": 0.0001334562211981567, "loss": 0.2769, "step": 401 }, { "epoch": 1.072, "grad_norm": 0.19785748422145844, "learning_rate": 0.00013327188940092166, "loss": 0.3788, "step": 402 }, { "epoch": 1.0746666666666667, "grad_norm": 0.1749541014432907, "learning_rate": 0.00013308755760368666, "loss": 0.3467, "step": 403 }, { "epoch": 1.0773333333333333, "grad_norm": 0.1550755649805069, "learning_rate": 0.00013290322580645163, "loss": 0.3002, "step": 404 }, { "epoch": 1.08, "grad_norm": 0.1549319177865982, "learning_rate": 0.0001327188940092166, "loss": 0.265, "step": 405 }, { "epoch": 1.0826666666666667, "grad_norm": 0.1888841986656189, "learning_rate": 0.00013253456221198157, "loss": 0.3656, "step": 406 }, { "epoch": 1.0853333333333333, "grad_norm": 0.19269292056560516, "learning_rate": 0.00013235023041474655, "loss": 0.3399, "step": 407 }, { "epoch": 1.088, "grad_norm": 0.17310786247253418, "learning_rate": 0.00013216589861751152, "loss": 0.3404, "step": 408 }, { "epoch": 1.0906666666666667, "grad_norm": 0.17707963287830353, "learning_rate": 0.00013198156682027652, "loss": 0.3144, "step": 409 }, { "epoch": 1.0933333333333333, "grad_norm": 0.18884608149528503, "learning_rate": 0.0001317972350230415, "loss": 0.3545, "step": 410 }, { "epoch": 1.096, "grad_norm": 0.17003734409809113, "learning_rate": 0.00013161290322580646, "loss": 0.3041, "step": 411 }, { "epoch": 1.0986666666666667, "grad_norm": 0.15582703053951263, "learning_rate": 0.00013142857142857143, "loss": 0.2777, "step": 412 }, { "epoch": 1.1013333333333333, "grad_norm": 0.19669969379901886, "learning_rate": 0.0001312442396313364, "loss": 0.3497, "step": 413 }, { "epoch": 1.104, "grad_norm": 0.1748334765434265, "learning_rate": 0.00013105990783410137, "loss": 0.3194, "step": 414 }, { "epoch": 1.1066666666666667, "grad_norm": 0.13625746965408325, "learning_rate": 0.00013087557603686637, "loss": 0.2262, "step": 415 }, { "epoch": 1.1093333333333333, "grad_norm": 0.1757451295852661, "learning_rate": 0.00013069124423963134, "loss": 0.3111, "step": 416 }, { "epoch": 1.112, "grad_norm": 0.18365788459777832, "learning_rate": 0.0001305069124423963, "loss": 0.3498, "step": 417 }, { "epoch": 1.1146666666666667, "grad_norm": 0.15181052684783936, "learning_rate": 0.0001303225806451613, "loss": 0.2915, "step": 418 }, { "epoch": 1.1173333333333333, "grad_norm": 0.12344007194042206, "learning_rate": 0.00013013824884792628, "loss": 0.2209, "step": 419 }, { "epoch": 1.12, "grad_norm": 0.15274471044540405, "learning_rate": 0.00012995391705069125, "loss": 0.3069, "step": 420 }, { "epoch": 1.1226666666666667, "grad_norm": 0.18239013850688934, "learning_rate": 0.00012976958525345625, "loss": 0.3499, "step": 421 }, { "epoch": 1.1253333333333333, "grad_norm": 0.1746266633272171, "learning_rate": 0.00012958525345622122, "loss": 0.3441, "step": 422 }, { "epoch": 1.1280000000000001, "grad_norm": 0.18905861675739288, "learning_rate": 0.0001294009216589862, "loss": 0.3507, "step": 423 }, { "epoch": 1.1306666666666667, "grad_norm": 0.18351832032203674, "learning_rate": 0.00012921658986175116, "loss": 0.3473, "step": 424 }, { "epoch": 1.1333333333333333, "grad_norm": 0.1772531270980835, "learning_rate": 0.00012903225806451613, "loss": 0.3138, "step": 425 }, { "epoch": 1.1360000000000001, "grad_norm": 0.17047764360904694, "learning_rate": 0.0001288479262672811, "loss": 0.3033, "step": 426 }, { "epoch": 1.1386666666666667, "grad_norm": 0.16869769990444183, "learning_rate": 0.00012866359447004608, "loss": 0.31, "step": 427 }, { "epoch": 1.1413333333333333, "grad_norm": 0.17232246696949005, "learning_rate": 0.00012847926267281107, "loss": 0.3352, "step": 428 }, { "epoch": 1.144, "grad_norm": 0.18078351020812988, "learning_rate": 0.00012829493087557605, "loss": 0.3201, "step": 429 }, { "epoch": 1.1466666666666667, "grad_norm": 0.16152624785900116, "learning_rate": 0.00012811059907834102, "loss": 0.289, "step": 430 }, { "epoch": 1.1493333333333333, "grad_norm": 0.18361586332321167, "learning_rate": 0.000127926267281106, "loss": 0.3131, "step": 431 }, { "epoch": 1.152, "grad_norm": 0.1870482712984085, "learning_rate": 0.00012774193548387096, "loss": 0.3364, "step": 432 }, { "epoch": 1.1546666666666667, "grad_norm": 0.16466543078422546, "learning_rate": 0.00012755760368663593, "loss": 0.2986, "step": 433 }, { "epoch": 1.1573333333333333, "grad_norm": 0.16390617191791534, "learning_rate": 0.00012737327188940093, "loss": 0.2853, "step": 434 }, { "epoch": 1.16, "grad_norm": 0.1582307517528534, "learning_rate": 0.0001271889400921659, "loss": 0.3015, "step": 435 }, { "epoch": 1.1626666666666667, "grad_norm": 0.18881578743457794, "learning_rate": 0.00012700460829493087, "loss": 0.35, "step": 436 }, { "epoch": 1.1653333333333333, "grad_norm": 0.17530585825443268, "learning_rate": 0.00012682027649769587, "loss": 0.3165, "step": 437 }, { "epoch": 1.168, "grad_norm": 0.1683303713798523, "learning_rate": 0.00012663594470046084, "loss": 0.3147, "step": 438 }, { "epoch": 1.1706666666666667, "grad_norm": 0.15983852744102478, "learning_rate": 0.0001264516129032258, "loss": 0.2814, "step": 439 }, { "epoch": 1.1733333333333333, "grad_norm": 0.12463359534740448, "learning_rate": 0.0001262672811059908, "loss": 0.2101, "step": 440 }, { "epoch": 1.176, "grad_norm": 0.17620094120502472, "learning_rate": 0.00012608294930875578, "loss": 0.3078, "step": 441 }, { "epoch": 1.1786666666666668, "grad_norm": 0.15961304306983948, "learning_rate": 0.00012589861751152075, "loss": 0.2751, "step": 442 }, { "epoch": 1.1813333333333333, "grad_norm": 0.1611575037240982, "learning_rate": 0.00012571428571428572, "loss": 0.2848, "step": 443 }, { "epoch": 1.184, "grad_norm": 0.18253649771213531, "learning_rate": 0.0001255299539170507, "loss": 0.3026, "step": 444 }, { "epoch": 1.1866666666666668, "grad_norm": 0.16647040843963623, "learning_rate": 0.00012534562211981566, "loss": 0.2895, "step": 445 }, { "epoch": 1.1893333333333334, "grad_norm": 0.1810285449028015, "learning_rate": 0.00012516129032258066, "loss": 0.3118, "step": 446 }, { "epoch": 1.192, "grad_norm": 0.16052526235580444, "learning_rate": 0.00012497695852534563, "loss": 0.2812, "step": 447 }, { "epoch": 1.1946666666666665, "grad_norm": 0.14483848214149475, "learning_rate": 0.0001247926267281106, "loss": 0.2484, "step": 448 }, { "epoch": 1.1973333333333334, "grad_norm": 0.16969628632068634, "learning_rate": 0.00012460829493087558, "loss": 0.2916, "step": 449 }, { "epoch": 1.2, "grad_norm": 0.14120320975780487, "learning_rate": 0.00012442396313364055, "loss": 0.2576, "step": 450 }, { "epoch": 1.2026666666666666, "grad_norm": 0.19954310357570648, "learning_rate": 0.00012423963133640552, "loss": 0.3632, "step": 451 }, { "epoch": 1.2053333333333334, "grad_norm": 0.18150478601455688, "learning_rate": 0.00012405529953917052, "loss": 0.3408, "step": 452 }, { "epoch": 1.208, "grad_norm": 0.15250132977962494, "learning_rate": 0.0001238709677419355, "loss": 0.3005, "step": 453 }, { "epoch": 1.2106666666666666, "grad_norm": 0.17641334235668182, "learning_rate": 0.00012368663594470046, "loss": 0.3168, "step": 454 }, { "epoch": 1.2133333333333334, "grad_norm": 0.14669710397720337, "learning_rate": 0.00012350230414746543, "loss": 0.2718, "step": 455 }, { "epoch": 1.216, "grad_norm": 0.18148992955684662, "learning_rate": 0.00012331797235023043, "loss": 0.3446, "step": 456 }, { "epoch": 1.2186666666666666, "grad_norm": 0.19267897307872772, "learning_rate": 0.0001231336405529954, "loss": 0.3368, "step": 457 }, { "epoch": 1.2213333333333334, "grad_norm": 0.16317573189735413, "learning_rate": 0.00012294930875576037, "loss": 0.2787, "step": 458 }, { "epoch": 1.224, "grad_norm": 0.13813409209251404, "learning_rate": 0.00012276497695852537, "loss": 0.237, "step": 459 }, { "epoch": 1.2266666666666666, "grad_norm": 0.19543218612670898, "learning_rate": 0.00012258064516129034, "loss": 0.3286, "step": 460 }, { "epoch": 1.2293333333333334, "grad_norm": 0.16882073879241943, "learning_rate": 0.0001223963133640553, "loss": 0.2783, "step": 461 }, { "epoch": 1.232, "grad_norm": 0.16801773011684418, "learning_rate": 0.00012221198156682028, "loss": 0.3018, "step": 462 }, { "epoch": 1.2346666666666666, "grad_norm": 0.17224004864692688, "learning_rate": 0.00012202764976958525, "loss": 0.2982, "step": 463 }, { "epoch": 1.2373333333333334, "grad_norm": 0.15956328809261322, "learning_rate": 0.00012184331797235025, "loss": 0.3058, "step": 464 }, { "epoch": 1.24, "grad_norm": 0.17795439064502716, "learning_rate": 0.00012165898617511522, "loss": 0.3429, "step": 465 }, { "epoch": 1.2426666666666666, "grad_norm": 0.1681850105524063, "learning_rate": 0.0001214746543778802, "loss": 0.2932, "step": 466 }, { "epoch": 1.2453333333333334, "grad_norm": 0.14882837235927582, "learning_rate": 0.00012129032258064516, "loss": 0.2772, "step": 467 }, { "epoch": 1.248, "grad_norm": 0.1865171641111374, "learning_rate": 0.00012110599078341014, "loss": 0.3526, "step": 468 }, { "epoch": 1.2506666666666666, "grad_norm": 0.1419881284236908, "learning_rate": 0.00012092165898617511, "loss": 0.2556, "step": 469 }, { "epoch": 1.2533333333333334, "grad_norm": 0.1949879229068756, "learning_rate": 0.0001207373271889401, "loss": 0.3512, "step": 470 }, { "epoch": 1.256, "grad_norm": 0.1851123869419098, "learning_rate": 0.00012055299539170508, "loss": 0.3119, "step": 471 }, { "epoch": 1.2586666666666666, "grad_norm": 0.16903844475746155, "learning_rate": 0.00012036866359447006, "loss": 0.2964, "step": 472 }, { "epoch": 1.2613333333333334, "grad_norm": 0.15738247334957123, "learning_rate": 0.00012018433179723503, "loss": 0.3073, "step": 473 }, { "epoch": 1.264, "grad_norm": 0.18394124507904053, "learning_rate": 0.00012, "loss": 0.3529, "step": 474 }, { "epoch": 1.2666666666666666, "grad_norm": 0.16276584565639496, "learning_rate": 0.00011981566820276497, "loss": 0.2824, "step": 475 }, { "epoch": 1.2693333333333334, "grad_norm": 0.19218119978904724, "learning_rate": 0.00011963133640552997, "loss": 0.3145, "step": 476 }, { "epoch": 1.272, "grad_norm": 0.1617254912853241, "learning_rate": 0.00011944700460829494, "loss": 0.3048, "step": 477 }, { "epoch": 1.2746666666666666, "grad_norm": 0.18363742530345917, "learning_rate": 0.00011926267281105991, "loss": 0.3495, "step": 478 }, { "epoch": 1.2773333333333334, "grad_norm": 0.18322618305683136, "learning_rate": 0.00011907834101382489, "loss": 0.323, "step": 479 }, { "epoch": 1.28, "grad_norm": 0.19018413126468658, "learning_rate": 0.00011889400921658986, "loss": 0.3239, "step": 480 }, { "epoch": 1.2826666666666666, "grad_norm": 0.18414224684238434, "learning_rate": 0.00011870967741935484, "loss": 0.3221, "step": 481 }, { "epoch": 1.2853333333333334, "grad_norm": 0.1773815155029297, "learning_rate": 0.00011852534562211983, "loss": 0.2895, "step": 482 }, { "epoch": 1.288, "grad_norm": 0.1861986517906189, "learning_rate": 0.00011834101382488481, "loss": 0.3544, "step": 483 }, { "epoch": 1.2906666666666666, "grad_norm": 0.16993744671344757, "learning_rate": 0.00011815668202764978, "loss": 0.2809, "step": 484 }, { "epoch": 1.2933333333333334, "grad_norm": 0.19634485244750977, "learning_rate": 0.00011797235023041475, "loss": 0.351, "step": 485 }, { "epoch": 1.296, "grad_norm": 0.146186962723732, "learning_rate": 0.00011778801843317972, "loss": 0.2947, "step": 486 }, { "epoch": 1.2986666666666666, "grad_norm": 0.1496630311012268, "learning_rate": 0.0001176036866359447, "loss": 0.24, "step": 487 }, { "epoch": 1.3013333333333335, "grad_norm": 0.15881465375423431, "learning_rate": 0.00011741935483870967, "loss": 0.2679, "step": 488 }, { "epoch": 1.304, "grad_norm": 0.14850527048110962, "learning_rate": 0.00011723502304147466, "loss": 0.2729, "step": 489 }, { "epoch": 1.3066666666666666, "grad_norm": 0.18087144196033478, "learning_rate": 0.00011705069124423964, "loss": 0.3167, "step": 490 }, { "epoch": 1.3093333333333335, "grad_norm": 0.18573027849197388, "learning_rate": 0.00011686635944700462, "loss": 0.3389, "step": 491 }, { "epoch": 1.312, "grad_norm": 0.1348046511411667, "learning_rate": 0.00011668202764976959, "loss": 0.2417, "step": 492 }, { "epoch": 1.3146666666666667, "grad_norm": 0.1142662763595581, "learning_rate": 0.00011649769585253456, "loss": 0.2001, "step": 493 }, { "epoch": 1.3173333333333335, "grad_norm": 0.16688582301139832, "learning_rate": 0.00011631336405529953, "loss": 0.3011, "step": 494 }, { "epoch": 1.32, "grad_norm": 0.13561463356018066, "learning_rate": 0.00011612903225806453, "loss": 0.2247, "step": 495 }, { "epoch": 1.3226666666666667, "grad_norm": 0.1808239072561264, "learning_rate": 0.0001159447004608295, "loss": 0.3396, "step": 496 }, { "epoch": 1.3253333333333333, "grad_norm": 0.1843968629837036, "learning_rate": 0.00011576036866359447, "loss": 0.3445, "step": 497 }, { "epoch": 1.328, "grad_norm": 0.18581481277942657, "learning_rate": 0.00011557603686635945, "loss": 0.3435, "step": 498 }, { "epoch": 1.3306666666666667, "grad_norm": 0.12895582616329193, "learning_rate": 0.00011539170506912442, "loss": 0.2209, "step": 499 }, { "epoch": 1.3333333333333333, "grad_norm": 0.19537444412708282, "learning_rate": 0.0001152073732718894, "loss": 0.3652, "step": 500 }, { "epoch": 1.336, "grad_norm": 0.19190914928913116, "learning_rate": 0.00011502304147465439, "loss": 0.3434, "step": 501 }, { "epoch": 1.3386666666666667, "grad_norm": 0.191707044839859, "learning_rate": 0.00011483870967741937, "loss": 0.3358, "step": 502 }, { "epoch": 1.3413333333333333, "grad_norm": 0.2067241668701172, "learning_rate": 0.00011465437788018434, "loss": 0.34, "step": 503 }, { "epoch": 1.3439999999999999, "grad_norm": 0.2064065933227539, "learning_rate": 0.00011447004608294931, "loss": 0.3692, "step": 504 }, { "epoch": 1.3466666666666667, "grad_norm": 0.1637248992919922, "learning_rate": 0.00011428571428571428, "loss": 0.2737, "step": 505 }, { "epoch": 1.3493333333333333, "grad_norm": 0.15855838358402252, "learning_rate": 0.00011410138248847925, "loss": 0.2843, "step": 506 }, { "epoch": 1.3519999999999999, "grad_norm": 0.16639956831932068, "learning_rate": 0.00011391705069124425, "loss": 0.2998, "step": 507 }, { "epoch": 1.3546666666666667, "grad_norm": 0.20358127355575562, "learning_rate": 0.00011373271889400922, "loss": 0.3536, "step": 508 }, { "epoch": 1.3573333333333333, "grad_norm": 0.17078451812267303, "learning_rate": 0.0001135483870967742, "loss": 0.2982, "step": 509 }, { "epoch": 1.3599999999999999, "grad_norm": 0.15411201119422913, "learning_rate": 0.00011336405529953918, "loss": 0.2828, "step": 510 }, { "epoch": 1.3626666666666667, "grad_norm": 0.1941250115633011, "learning_rate": 0.00011317972350230415, "loss": 0.3128, "step": 511 }, { "epoch": 1.3653333333333333, "grad_norm": 0.15264247357845306, "learning_rate": 0.00011299539170506912, "loss": 0.2604, "step": 512 }, { "epoch": 1.3679999999999999, "grad_norm": 0.15597917139530182, "learning_rate": 0.00011281105990783412, "loss": 0.2838, "step": 513 }, { "epoch": 1.3706666666666667, "grad_norm": 0.1368638128042221, "learning_rate": 0.00011262672811059909, "loss": 0.2389, "step": 514 }, { "epoch": 1.3733333333333333, "grad_norm": 0.16181014478206635, "learning_rate": 0.00011244239631336406, "loss": 0.2864, "step": 515 }, { "epoch": 1.376, "grad_norm": 0.18805274367332458, "learning_rate": 0.00011225806451612903, "loss": 0.3248, "step": 516 }, { "epoch": 1.3786666666666667, "grad_norm": 0.19181305170059204, "learning_rate": 0.000112073732718894, "loss": 0.354, "step": 517 }, { "epoch": 1.3813333333333333, "grad_norm": 0.18321382999420166, "learning_rate": 0.00011188940092165898, "loss": 0.3424, "step": 518 }, { "epoch": 1.384, "grad_norm": 0.18562433123588562, "learning_rate": 0.00011170506912442397, "loss": 0.3392, "step": 519 }, { "epoch": 1.3866666666666667, "grad_norm": 0.18313543498516083, "learning_rate": 0.00011152073732718894, "loss": 0.3298, "step": 520 }, { "epoch": 1.3893333333333333, "grad_norm": 0.18686257302761078, "learning_rate": 0.00011133640552995393, "loss": 0.3415, "step": 521 }, { "epoch": 1.392, "grad_norm": 0.19380803406238556, "learning_rate": 0.0001111520737327189, "loss": 0.3455, "step": 522 }, { "epoch": 1.3946666666666667, "grad_norm": 0.19642230868339539, "learning_rate": 0.00011096774193548387, "loss": 0.3242, "step": 523 }, { "epoch": 1.3973333333333333, "grad_norm": 0.1258707344532013, "learning_rate": 0.00011078341013824884, "loss": 0.2052, "step": 524 }, { "epoch": 1.4, "grad_norm": 0.16860158741474152, "learning_rate": 0.00011059907834101384, "loss": 0.2946, "step": 525 }, { "epoch": 1.4026666666666667, "grad_norm": 0.16111595928668976, "learning_rate": 0.00011041474654377881, "loss": 0.2961, "step": 526 }, { "epoch": 1.4053333333333333, "grad_norm": 0.1360962837934494, "learning_rate": 0.00011023041474654378, "loss": 0.2351, "step": 527 }, { "epoch": 1.408, "grad_norm": 0.182793989777565, "learning_rate": 0.00011004608294930875, "loss": 0.3364, "step": 528 }, { "epoch": 1.4106666666666667, "grad_norm": 0.15777157247066498, "learning_rate": 0.00010986175115207374, "loss": 0.2962, "step": 529 }, { "epoch": 1.4133333333333333, "grad_norm": 0.16440604627132416, "learning_rate": 0.00010967741935483871, "loss": 0.2881, "step": 530 }, { "epoch": 1.416, "grad_norm": 0.12915076315402985, "learning_rate": 0.00010949308755760371, "loss": 0.2443, "step": 531 }, { "epoch": 1.4186666666666667, "grad_norm": 0.15730984508991241, "learning_rate": 0.00010930875576036868, "loss": 0.2861, "step": 532 }, { "epoch": 1.4213333333333333, "grad_norm": 0.16304659843444824, "learning_rate": 0.00010912442396313365, "loss": 0.285, "step": 533 }, { "epoch": 1.424, "grad_norm": 0.17006252706050873, "learning_rate": 0.00010894009216589862, "loss": 0.3, "step": 534 }, { "epoch": 1.4266666666666667, "grad_norm": 0.17501677572727203, "learning_rate": 0.00010875576036866359, "loss": 0.3288, "step": 535 }, { "epoch": 1.4293333333333333, "grad_norm": 0.1846413016319275, "learning_rate": 0.00010857142857142856, "loss": 0.3176, "step": 536 }, { "epoch": 1.432, "grad_norm": 0.16259899735450745, "learning_rate": 0.00010838709677419356, "loss": 0.2782, "step": 537 }, { "epoch": 1.4346666666666668, "grad_norm": 0.12844997644424438, "learning_rate": 0.00010820276497695853, "loss": 0.2297, "step": 538 }, { "epoch": 1.4373333333333334, "grad_norm": 0.18608011305332184, "learning_rate": 0.0001080184331797235, "loss": 0.3139, "step": 539 }, { "epoch": 1.44, "grad_norm": 0.18185369670391083, "learning_rate": 0.00010783410138248849, "loss": 0.3294, "step": 540 }, { "epoch": 1.4426666666666668, "grad_norm": 0.1800394356250763, "learning_rate": 0.00010764976958525346, "loss": 0.309, "step": 541 }, { "epoch": 1.4453333333333334, "grad_norm": 0.1457604616880417, "learning_rate": 0.00010746543778801843, "loss": 0.2472, "step": 542 }, { "epoch": 1.448, "grad_norm": 0.19006659090518951, "learning_rate": 0.00010728110599078343, "loss": 0.3275, "step": 543 }, { "epoch": 1.4506666666666668, "grad_norm": 0.14114591479301453, "learning_rate": 0.0001070967741935484, "loss": 0.2403, "step": 544 }, { "epoch": 1.4533333333333334, "grad_norm": 0.18253850936889648, "learning_rate": 0.00010691244239631337, "loss": 0.3201, "step": 545 }, { "epoch": 1.456, "grad_norm": 0.19325825572013855, "learning_rate": 0.00010672811059907834, "loss": 0.3354, "step": 546 }, { "epoch": 1.4586666666666668, "grad_norm": 0.1377699226140976, "learning_rate": 0.00010654377880184331, "loss": 0.2348, "step": 547 }, { "epoch": 1.4613333333333334, "grad_norm": 0.16220860183238983, "learning_rate": 0.0001063594470046083, "loss": 0.2667, "step": 548 }, { "epoch": 1.464, "grad_norm": 0.2003559172153473, "learning_rate": 0.00010617511520737328, "loss": 0.3381, "step": 549 }, { "epoch": 1.4666666666666668, "grad_norm": 0.19134390354156494, "learning_rate": 0.00010599078341013827, "loss": 0.3281, "step": 550 }, { "epoch": 1.4693333333333334, "grad_norm": 0.16237686574459076, "learning_rate": 0.00010580645161290324, "loss": 0.2751, "step": 551 }, { "epoch": 1.472, "grad_norm": 0.1640011966228485, "learning_rate": 0.00010562211981566821, "loss": 0.2776, "step": 552 }, { "epoch": 1.4746666666666668, "grad_norm": 0.1785988211631775, "learning_rate": 0.00010543778801843318, "loss": 0.3145, "step": 553 }, { "epoch": 1.4773333333333334, "grad_norm": 0.17735683917999268, "learning_rate": 0.00010525345622119815, "loss": 0.3242, "step": 554 }, { "epoch": 1.48, "grad_norm": 0.18513281643390656, "learning_rate": 0.00010506912442396312, "loss": 0.3, "step": 555 }, { "epoch": 1.4826666666666668, "grad_norm": 0.14868293702602386, "learning_rate": 0.00010488479262672812, "loss": 0.2623, "step": 556 }, { "epoch": 1.4853333333333334, "grad_norm": 0.17301423847675323, "learning_rate": 0.00010470046082949309, "loss": 0.3056, "step": 557 }, { "epoch": 1.488, "grad_norm": 0.1782805174589157, "learning_rate": 0.00010451612903225806, "loss": 0.2882, "step": 558 }, { "epoch": 1.4906666666666666, "grad_norm": 0.20248663425445557, "learning_rate": 0.00010433179723502305, "loss": 0.3328, "step": 559 }, { "epoch": 1.4933333333333334, "grad_norm": 0.1364714354276657, "learning_rate": 0.00010414746543778802, "loss": 0.2335, "step": 560 }, { "epoch": 1.496, "grad_norm": 0.2028850018978119, "learning_rate": 0.00010396313364055299, "loss": 0.3421, "step": 561 }, { "epoch": 1.4986666666666666, "grad_norm": 0.13244207203388214, "learning_rate": 0.00010377880184331799, "loss": 0.2093, "step": 562 }, { "epoch": 1.5013333333333332, "grad_norm": 0.15112577378749847, "learning_rate": 0.00010359447004608296, "loss": 0.2585, "step": 563 }, { "epoch": 1.504, "grad_norm": 0.1993844211101532, "learning_rate": 0.00010341013824884793, "loss": 0.3446, "step": 564 }, { "epoch": 1.5066666666666668, "grad_norm": 0.20823368430137634, "learning_rate": 0.0001032258064516129, "loss": 0.3542, "step": 565 }, { "epoch": 1.5093333333333332, "grad_norm": 0.1457061916589737, "learning_rate": 0.00010304147465437787, "loss": 0.2666, "step": 566 }, { "epoch": 1.512, "grad_norm": 0.16721977293491364, "learning_rate": 0.00010285714285714286, "loss": 0.2924, "step": 567 }, { "epoch": 1.5146666666666668, "grad_norm": 0.14939866960048676, "learning_rate": 0.00010267281105990784, "loss": 0.2576, "step": 568 }, { "epoch": 1.5173333333333332, "grad_norm": 0.17903192341327667, "learning_rate": 0.00010248847926267283, "loss": 0.3046, "step": 569 }, { "epoch": 1.52, "grad_norm": 0.1892293095588684, "learning_rate": 0.0001023041474654378, "loss": 0.3295, "step": 570 }, { "epoch": 1.5226666666666666, "grad_norm": 0.1555367410182953, "learning_rate": 0.00010211981566820277, "loss": 0.2896, "step": 571 }, { "epoch": 1.5253333333333332, "grad_norm": 0.17118369042873383, "learning_rate": 0.00010193548387096774, "loss": 0.2932, "step": 572 }, { "epoch": 1.528, "grad_norm": 0.16877052187919617, "learning_rate": 0.00010175115207373271, "loss": 0.2812, "step": 573 }, { "epoch": 1.5306666666666666, "grad_norm": 0.16168168187141418, "learning_rate": 0.00010156682027649771, "loss": 0.2816, "step": 574 }, { "epoch": 1.5333333333333332, "grad_norm": 0.15879429876804352, "learning_rate": 0.00010138248847926268, "loss": 0.2616, "step": 575 }, { "epoch": 1.536, "grad_norm": 0.19214673340320587, "learning_rate": 0.00010119815668202765, "loss": 0.3212, "step": 576 }, { "epoch": 1.5386666666666666, "grad_norm": 0.17753440141677856, "learning_rate": 0.00010101382488479262, "loss": 0.3123, "step": 577 }, { "epoch": 1.5413333333333332, "grad_norm": 0.19256196916103363, "learning_rate": 0.00010082949308755761, "loss": 0.3378, "step": 578 }, { "epoch": 1.544, "grad_norm": 0.1846749186515808, "learning_rate": 0.00010064516129032258, "loss": 0.3174, "step": 579 }, { "epoch": 1.5466666666666666, "grad_norm": 0.1619987040758133, "learning_rate": 0.00010046082949308758, "loss": 0.2987, "step": 580 }, { "epoch": 1.5493333333333332, "grad_norm": 0.19737540185451508, "learning_rate": 0.00010027649769585255, "loss": 0.3267, "step": 581 }, { "epoch": 1.552, "grad_norm": 0.16259047389030457, "learning_rate": 0.00010009216589861752, "loss": 0.2758, "step": 582 }, { "epoch": 1.5546666666666666, "grad_norm": 0.14038518071174622, "learning_rate": 9.990783410138249e-05, "loss": 0.2349, "step": 583 }, { "epoch": 1.5573333333333332, "grad_norm": 0.16080236434936523, "learning_rate": 9.972350230414746e-05, "loss": 0.271, "step": 584 }, { "epoch": 1.56, "grad_norm": 0.15984351933002472, "learning_rate": 9.953917050691245e-05, "loss": 0.2751, "step": 585 }, { "epoch": 1.5626666666666666, "grad_norm": 0.1513066291809082, "learning_rate": 9.935483870967742e-05, "loss": 0.2554, "step": 586 }, { "epoch": 1.5653333333333332, "grad_norm": 0.1554606407880783, "learning_rate": 9.91705069124424e-05, "loss": 0.2765, "step": 587 }, { "epoch": 1.568, "grad_norm": 0.12512949109077454, "learning_rate": 9.898617511520739e-05, "loss": 0.2205, "step": 588 }, { "epoch": 1.5706666666666667, "grad_norm": 0.20193611085414886, "learning_rate": 9.880184331797236e-05, "loss": 0.3534, "step": 589 }, { "epoch": 1.5733333333333333, "grad_norm": 0.15636083483695984, "learning_rate": 9.861751152073733e-05, "loss": 0.2636, "step": 590 }, { "epoch": 1.576, "grad_norm": 0.14711397886276245, "learning_rate": 9.843317972350231e-05, "loss": 0.2547, "step": 591 }, { "epoch": 1.5786666666666667, "grad_norm": 0.17024989426136017, "learning_rate": 9.824884792626728e-05, "loss": 0.2756, "step": 592 }, { "epoch": 1.5813333333333333, "grad_norm": 0.19781805574893951, "learning_rate": 9.806451612903226e-05, "loss": 0.3388, "step": 593 }, { "epoch": 1.584, "grad_norm": 0.15408025681972504, "learning_rate": 9.788018433179724e-05, "loss": 0.2663, "step": 594 }, { "epoch": 1.5866666666666667, "grad_norm": 0.16658498346805573, "learning_rate": 9.769585253456221e-05, "loss": 0.289, "step": 595 }, { "epoch": 1.5893333333333333, "grad_norm": 0.16545739769935608, "learning_rate": 9.751152073732718e-05, "loss": 0.2704, "step": 596 }, { "epoch": 1.592, "grad_norm": 0.15740670263767242, "learning_rate": 9.732718894009217e-05, "loss": 0.2761, "step": 597 }, { "epoch": 1.5946666666666667, "grad_norm": 0.1478232592344284, "learning_rate": 9.714285714285715e-05, "loss": 0.2421, "step": 598 }, { "epoch": 1.5973333333333333, "grad_norm": 0.16017423570156097, "learning_rate": 9.695852534562212e-05, "loss": 0.2824, "step": 599 }, { "epoch": 1.6, "grad_norm": 0.15008029341697693, "learning_rate": 9.677419354838711e-05, "loss": 0.2515, "step": 600 }, { "epoch": 1.6026666666666667, "grad_norm": 0.12063463777303696, "learning_rate": 9.658986175115208e-05, "loss": 0.2345, "step": 601 }, { "epoch": 1.6053333333333333, "grad_norm": 0.17059485614299774, "learning_rate": 9.640552995391705e-05, "loss": 0.2789, "step": 602 }, { "epoch": 1.608, "grad_norm": 0.16321353614330292, "learning_rate": 9.622119815668203e-05, "loss": 0.2656, "step": 603 }, { "epoch": 1.6106666666666667, "grad_norm": 0.18542960286140442, "learning_rate": 9.6036866359447e-05, "loss": 0.3115, "step": 604 }, { "epoch": 1.6133333333333333, "grad_norm": 0.16153669357299805, "learning_rate": 9.585253456221198e-05, "loss": 0.2717, "step": 605 }, { "epoch": 1.616, "grad_norm": 0.16640391945838928, "learning_rate": 9.566820276497696e-05, "loss": 0.2856, "step": 606 }, { "epoch": 1.6186666666666667, "grad_norm": 0.18094532191753387, "learning_rate": 9.548387096774195e-05, "loss": 0.3096, "step": 607 }, { "epoch": 1.6213333333333333, "grad_norm": 0.20450171828269958, "learning_rate": 9.529953917050692e-05, "loss": 0.3556, "step": 608 }, { "epoch": 1.624, "grad_norm": 0.15509480237960815, "learning_rate": 9.51152073732719e-05, "loss": 0.258, "step": 609 }, { "epoch": 1.6266666666666667, "grad_norm": 0.13771817088127136, "learning_rate": 9.493087557603687e-05, "loss": 0.2276, "step": 610 }, { "epoch": 1.6293333333333333, "grad_norm": 0.18167224526405334, "learning_rate": 9.474654377880184e-05, "loss": 0.3353, "step": 611 }, { "epoch": 1.6320000000000001, "grad_norm": 0.16570347547531128, "learning_rate": 9.456221198156683e-05, "loss": 0.3024, "step": 612 }, { "epoch": 1.6346666666666667, "grad_norm": 0.1634126901626587, "learning_rate": 9.43778801843318e-05, "loss": 0.2634, "step": 613 }, { "epoch": 1.6373333333333333, "grad_norm": 0.14047156274318695, "learning_rate": 9.419354838709677e-05, "loss": 0.2543, "step": 614 }, { "epoch": 1.6400000000000001, "grad_norm": 0.17529445886611938, "learning_rate": 9.400921658986176e-05, "loss": 0.3066, "step": 615 }, { "epoch": 1.6426666666666667, "grad_norm": 0.16540557146072388, "learning_rate": 9.382488479262673e-05, "loss": 0.2781, "step": 616 }, { "epoch": 1.6453333333333333, "grad_norm": 0.136048823595047, "learning_rate": 9.364055299539171e-05, "loss": 0.2245, "step": 617 }, { "epoch": 1.6480000000000001, "grad_norm": 0.1329638659954071, "learning_rate": 9.34562211981567e-05, "loss": 0.2233, "step": 618 }, { "epoch": 1.6506666666666665, "grad_norm": 0.18866053223609924, "learning_rate": 9.327188940092167e-05, "loss": 0.324, "step": 619 }, { "epoch": 1.6533333333333333, "grad_norm": 0.1663501262664795, "learning_rate": 9.308755760368664e-05, "loss": 0.2974, "step": 620 }, { "epoch": 1.6560000000000001, "grad_norm": 0.18084169924259186, "learning_rate": 9.290322580645162e-05, "loss": 0.3094, "step": 621 }, { "epoch": 1.6586666666666665, "grad_norm": 0.1708952784538269, "learning_rate": 9.27188940092166e-05, "loss": 0.2672, "step": 622 }, { "epoch": 1.6613333333333333, "grad_norm": 0.19692790508270264, "learning_rate": 9.253456221198156e-05, "loss": 0.3145, "step": 623 }, { "epoch": 1.6640000000000001, "grad_norm": 0.1638392060995102, "learning_rate": 9.235023041474655e-05, "loss": 0.2395, "step": 624 }, { "epoch": 1.6666666666666665, "grad_norm": 0.1826392114162445, "learning_rate": 9.216589861751152e-05, "loss": 0.3002, "step": 625 }, { "epoch": 1.6693333333333333, "grad_norm": 0.18710032105445862, "learning_rate": 9.19815668202765e-05, "loss": 0.3199, "step": 626 }, { "epoch": 1.6720000000000002, "grad_norm": 0.19243071973323822, "learning_rate": 9.179723502304149e-05, "loss": 0.3389, "step": 627 }, { "epoch": 1.6746666666666665, "grad_norm": 0.18418751657009125, "learning_rate": 9.161290322580646e-05, "loss": 0.3178, "step": 628 }, { "epoch": 1.6773333333333333, "grad_norm": 0.13324792683124542, "learning_rate": 9.142857142857143e-05, "loss": 0.2232, "step": 629 }, { "epoch": 1.6800000000000002, "grad_norm": 0.1462545096874237, "learning_rate": 9.124423963133642e-05, "loss": 0.2511, "step": 630 }, { "epoch": 1.6826666666666665, "grad_norm": 0.16245612502098083, "learning_rate": 9.105990783410139e-05, "loss": 0.2857, "step": 631 }, { "epoch": 1.6853333333333333, "grad_norm": 0.19199031591415405, "learning_rate": 9.087557603686636e-05, "loss": 0.3476, "step": 632 }, { "epoch": 1.688, "grad_norm": 0.17788994312286377, "learning_rate": 9.069124423963134e-05, "loss": 0.3118, "step": 633 }, { "epoch": 1.6906666666666665, "grad_norm": 0.1903950423002243, "learning_rate": 9.050691244239631e-05, "loss": 0.3225, "step": 634 }, { "epoch": 1.6933333333333334, "grad_norm": 0.18649978935718536, "learning_rate": 9.032258064516129e-05, "loss": 0.3162, "step": 635 }, { "epoch": 1.696, "grad_norm": 0.16254623234272003, "learning_rate": 9.013824884792627e-05, "loss": 0.2781, "step": 636 }, { "epoch": 1.6986666666666665, "grad_norm": 0.19232486188411713, "learning_rate": 8.995391705069126e-05, "loss": 0.3199, "step": 637 }, { "epoch": 1.7013333333333334, "grad_norm": 0.18568578362464905, "learning_rate": 8.976958525345623e-05, "loss": 0.2928, "step": 638 }, { "epoch": 1.704, "grad_norm": 0.16008365154266357, "learning_rate": 8.958525345622121e-05, "loss": 0.2833, "step": 639 }, { "epoch": 1.7066666666666666, "grad_norm": 0.17495164275169373, "learning_rate": 8.940092165898618e-05, "loss": 0.2905, "step": 640 }, { "epoch": 1.7093333333333334, "grad_norm": 0.1815049946308136, "learning_rate": 8.921658986175115e-05, "loss": 0.307, "step": 641 }, { "epoch": 1.712, "grad_norm": 0.1830923706293106, "learning_rate": 8.903225806451614e-05, "loss": 0.3206, "step": 642 }, { "epoch": 1.7146666666666666, "grad_norm": 0.1680733859539032, "learning_rate": 8.884792626728111e-05, "loss": 0.2792, "step": 643 }, { "epoch": 1.7173333333333334, "grad_norm": 0.18931952118873596, "learning_rate": 8.866359447004608e-05, "loss": 0.3304, "step": 644 }, { "epoch": 1.72, "grad_norm": 0.1606740653514862, "learning_rate": 8.847926267281106e-05, "loss": 0.2717, "step": 645 }, { "epoch": 1.7226666666666666, "grad_norm": 0.35692843794822693, "learning_rate": 8.829493087557605e-05, "loss": 0.2815, "step": 646 }, { "epoch": 1.7253333333333334, "grad_norm": 0.16885492205619812, "learning_rate": 8.811059907834102e-05, "loss": 0.2884, "step": 647 }, { "epoch": 1.728, "grad_norm": 0.1640160083770752, "learning_rate": 8.792626728110599e-05, "loss": 0.2812, "step": 648 }, { "epoch": 1.7306666666666666, "grad_norm": 0.1976490169763565, "learning_rate": 8.774193548387098e-05, "loss": 0.3546, "step": 649 }, { "epoch": 1.7333333333333334, "grad_norm": 0.2002202719449997, "learning_rate": 8.755760368663595e-05, "loss": 0.3298, "step": 650 }, { "epoch": 1.736, "grad_norm": 0.15389132499694824, "learning_rate": 8.737327188940092e-05, "loss": 0.269, "step": 651 }, { "epoch": 1.7386666666666666, "grad_norm": 0.18483757972717285, "learning_rate": 8.71889400921659e-05, "loss": 0.3109, "step": 652 }, { "epoch": 1.7413333333333334, "grad_norm": 0.20180675387382507, "learning_rate": 8.700460829493087e-05, "loss": 0.3371, "step": 653 }, { "epoch": 1.744, "grad_norm": 0.18638424575328827, "learning_rate": 8.682027649769585e-05, "loss": 0.3345, "step": 654 }, { "epoch": 1.7466666666666666, "grad_norm": 0.1799522340297699, "learning_rate": 8.663594470046083e-05, "loss": 0.3144, "step": 655 }, { "epoch": 1.7493333333333334, "grad_norm": 0.16704382002353668, "learning_rate": 8.645161290322581e-05, "loss": 0.2767, "step": 656 }, { "epoch": 1.752, "grad_norm": 0.14942538738250732, "learning_rate": 8.626728110599079e-05, "loss": 0.261, "step": 657 }, { "epoch": 1.7546666666666666, "grad_norm": 0.16195400059223175, "learning_rate": 8.608294930875577e-05, "loss": 0.2732, "step": 658 }, { "epoch": 1.7573333333333334, "grad_norm": 0.1898159235715866, "learning_rate": 8.589861751152074e-05, "loss": 0.3006, "step": 659 }, { "epoch": 1.76, "grad_norm": 0.1874152570962906, "learning_rate": 8.571428571428571e-05, "loss": 0.3053, "step": 660 }, { "epoch": 1.7626666666666666, "grad_norm": 0.14272183179855347, "learning_rate": 8.55299539170507e-05, "loss": 0.2385, "step": 661 }, { "epoch": 1.7653333333333334, "grad_norm": 0.17654938995838165, "learning_rate": 8.534562211981567e-05, "loss": 0.2819, "step": 662 }, { "epoch": 1.768, "grad_norm": 0.1853097826242447, "learning_rate": 8.516129032258064e-05, "loss": 0.2927, "step": 663 }, { "epoch": 1.7706666666666666, "grad_norm": 0.18819859623908997, "learning_rate": 8.497695852534562e-05, "loss": 0.3356, "step": 664 }, { "epoch": 1.7733333333333334, "grad_norm": 0.1614430546760559, "learning_rate": 8.479262672811061e-05, "loss": 0.2602, "step": 665 }, { "epoch": 1.776, "grad_norm": 0.15915413200855255, "learning_rate": 8.460829493087558e-05, "loss": 0.2595, "step": 666 }, { "epoch": 1.7786666666666666, "grad_norm": 0.1936057060956955, "learning_rate": 8.442396313364056e-05, "loss": 0.3432, "step": 667 }, { "epoch": 1.7813333333333334, "grad_norm": 0.17287862300872803, "learning_rate": 8.423963133640554e-05, "loss": 0.2871, "step": 668 }, { "epoch": 1.784, "grad_norm": 0.18533234298229218, "learning_rate": 8.40552995391705e-05, "loss": 0.3259, "step": 669 }, { "epoch": 1.7866666666666666, "grad_norm": 0.15584254264831543, "learning_rate": 8.387096774193549e-05, "loss": 0.2626, "step": 670 }, { "epoch": 1.7893333333333334, "grad_norm": 0.1861247420310974, "learning_rate": 8.368663594470046e-05, "loss": 0.2885, "step": 671 }, { "epoch": 1.792, "grad_norm": 0.17717666923999786, "learning_rate": 8.350230414746543e-05, "loss": 0.3124, "step": 672 }, { "epoch": 1.7946666666666666, "grad_norm": 0.16185526549816132, "learning_rate": 8.331797235023042e-05, "loss": 0.2706, "step": 673 }, { "epoch": 1.7973333333333334, "grad_norm": 0.16284199059009552, "learning_rate": 8.313364055299539e-05, "loss": 0.2698, "step": 674 }, { "epoch": 1.8, "grad_norm": 0.1703667789697647, "learning_rate": 8.294930875576037e-05, "loss": 0.274, "step": 675 }, { "epoch": 1.8026666666666666, "grad_norm": 0.17197850346565247, "learning_rate": 8.276497695852536e-05, "loss": 0.2875, "step": 676 }, { "epoch": 1.8053333333333335, "grad_norm": 0.19215679168701172, "learning_rate": 8.258064516129033e-05, "loss": 0.3228, "step": 677 }, { "epoch": 1.808, "grad_norm": 0.16802360117435455, "learning_rate": 8.23963133640553e-05, "loss": 0.2952, "step": 678 }, { "epoch": 1.8106666666666666, "grad_norm": 0.13980096578598022, "learning_rate": 8.221198156682029e-05, "loss": 0.2353, "step": 679 }, { "epoch": 1.8133333333333335, "grad_norm": 0.1700064092874527, "learning_rate": 8.202764976958526e-05, "loss": 0.2796, "step": 680 }, { "epoch": 1.8159999999999998, "grad_norm": 0.1647680103778839, "learning_rate": 8.184331797235023e-05, "loss": 0.266, "step": 681 }, { "epoch": 1.8186666666666667, "grad_norm": 0.16847248375415802, "learning_rate": 8.165898617511521e-05, "loss": 0.2782, "step": 682 }, { "epoch": 1.8213333333333335, "grad_norm": 0.17646561563014984, "learning_rate": 8.147465437788018e-05, "loss": 0.303, "step": 683 }, { "epoch": 1.8239999999999998, "grad_norm": 0.18398386240005493, "learning_rate": 8.129032258064517e-05, "loss": 0.3125, "step": 684 }, { "epoch": 1.8266666666666667, "grad_norm": 0.13090087473392487, "learning_rate": 8.110599078341015e-05, "loss": 0.2142, "step": 685 }, { "epoch": 1.8293333333333335, "grad_norm": 0.1671331375837326, "learning_rate": 8.092165898617512e-05, "loss": 0.2859, "step": 686 }, { "epoch": 1.8319999999999999, "grad_norm": 0.17385636270046234, "learning_rate": 8.07373271889401e-05, "loss": 0.2696, "step": 687 }, { "epoch": 1.8346666666666667, "grad_norm": 0.1418769508600235, "learning_rate": 8.055299539170508e-05, "loss": 0.2291, "step": 688 }, { "epoch": 1.8373333333333335, "grad_norm": 0.16654452681541443, "learning_rate": 8.036866359447005e-05, "loss": 0.2612, "step": 689 }, { "epoch": 1.8399999999999999, "grad_norm": 0.18424147367477417, "learning_rate": 8.018433179723502e-05, "loss": 0.2876, "step": 690 }, { "epoch": 1.8426666666666667, "grad_norm": 0.1604059934616089, "learning_rate": 8e-05, "loss": 0.2753, "step": 691 }, { "epoch": 1.8453333333333335, "grad_norm": 0.13489925861358643, "learning_rate": 7.981566820276498e-05, "loss": 0.2152, "step": 692 }, { "epoch": 1.8479999999999999, "grad_norm": 0.19340185821056366, "learning_rate": 7.963133640552995e-05, "loss": 0.324, "step": 693 }, { "epoch": 1.8506666666666667, "grad_norm": 0.14436614513397217, "learning_rate": 7.944700460829493e-05, "loss": 0.2469, "step": 694 }, { "epoch": 1.8533333333333335, "grad_norm": 0.12829948961734772, "learning_rate": 7.926267281105992e-05, "loss": 0.1984, "step": 695 }, { "epoch": 1.8559999999999999, "grad_norm": 0.1294345259666443, "learning_rate": 7.907834101382489e-05, "loss": 0.2003, "step": 696 }, { "epoch": 1.8586666666666667, "grad_norm": 0.17007410526275635, "learning_rate": 7.889400921658987e-05, "loss": 0.2927, "step": 697 }, { "epoch": 1.8613333333333333, "grad_norm": 0.19229468703269958, "learning_rate": 7.870967741935484e-05, "loss": 0.3052, "step": 698 }, { "epoch": 1.8639999999999999, "grad_norm": 0.15960730612277985, "learning_rate": 7.852534562211982e-05, "loss": 0.2567, "step": 699 }, { "epoch": 1.8666666666666667, "grad_norm": 0.16838312149047852, "learning_rate": 7.83410138248848e-05, "loss": 0.2666, "step": 700 }, { "epoch": 1.8693333333333333, "grad_norm": 0.1703864485025406, "learning_rate": 7.815668202764977e-05, "loss": 0.2814, "step": 701 }, { "epoch": 1.8719999999999999, "grad_norm": 0.18116213381290436, "learning_rate": 7.797235023041474e-05, "loss": 0.2945, "step": 702 }, { "epoch": 1.8746666666666667, "grad_norm": 0.16404111683368683, "learning_rate": 7.778801843317973e-05, "loss": 0.2628, "step": 703 }, { "epoch": 1.8773333333333333, "grad_norm": 0.1620422750711441, "learning_rate": 7.760368663594471e-05, "loss": 0.2602, "step": 704 }, { "epoch": 1.88, "grad_norm": 0.18525472283363342, "learning_rate": 7.741935483870968e-05, "loss": 0.297, "step": 705 }, { "epoch": 1.8826666666666667, "grad_norm": 0.1908557265996933, "learning_rate": 7.723502304147467e-05, "loss": 0.3101, "step": 706 }, { "epoch": 1.8853333333333333, "grad_norm": 0.14785411953926086, "learning_rate": 7.705069124423964e-05, "loss": 0.2466, "step": 707 }, { "epoch": 1.888, "grad_norm": 0.16629411280155182, "learning_rate": 7.686635944700461e-05, "loss": 0.2686, "step": 708 }, { "epoch": 1.8906666666666667, "grad_norm": 0.1894264668226242, "learning_rate": 7.66820276497696e-05, "loss": 0.3015, "step": 709 }, { "epoch": 1.8933333333333333, "grad_norm": 0.19332143664360046, "learning_rate": 7.649769585253457e-05, "loss": 0.321, "step": 710 }, { "epoch": 1.896, "grad_norm": 0.19467511773109436, "learning_rate": 7.631336405529954e-05, "loss": 0.329, "step": 711 }, { "epoch": 1.8986666666666667, "grad_norm": 0.18550783395767212, "learning_rate": 7.612903225806451e-05, "loss": 0.3076, "step": 712 }, { "epoch": 1.9013333333333333, "grad_norm": 0.17345988750457764, "learning_rate": 7.594470046082949e-05, "loss": 0.2648, "step": 713 }, { "epoch": 1.904, "grad_norm": 0.1728450208902359, "learning_rate": 7.576036866359448e-05, "loss": 0.2763, "step": 714 }, { "epoch": 1.9066666666666667, "grad_norm": 0.18159735202789307, "learning_rate": 7.557603686635945e-05, "loss": 0.2853, "step": 715 }, { "epoch": 1.9093333333333333, "grad_norm": 0.17829135060310364, "learning_rate": 7.539170506912443e-05, "loss": 0.2922, "step": 716 }, { "epoch": 1.912, "grad_norm": 0.15726618468761444, "learning_rate": 7.52073732718894e-05, "loss": 0.281, "step": 717 }, { "epoch": 1.9146666666666667, "grad_norm": 0.1958702802658081, "learning_rate": 7.502304147465438e-05, "loss": 0.3326, "step": 718 }, { "epoch": 1.9173333333333333, "grad_norm": 0.1737392097711563, "learning_rate": 7.483870967741936e-05, "loss": 0.2976, "step": 719 }, { "epoch": 1.92, "grad_norm": 0.12855935096740723, "learning_rate": 7.465437788018433e-05, "loss": 0.203, "step": 720 }, { "epoch": 1.9226666666666667, "grad_norm": 0.13673973083496094, "learning_rate": 7.44700460829493e-05, "loss": 0.2099, "step": 721 }, { "epoch": 1.9253333333333333, "grad_norm": 0.1838173270225525, "learning_rate": 7.428571428571429e-05, "loss": 0.2997, "step": 722 }, { "epoch": 1.928, "grad_norm": 0.17235301434993744, "learning_rate": 7.410138248847927e-05, "loss": 0.2945, "step": 723 }, { "epoch": 1.9306666666666668, "grad_norm": 0.13796474039554596, "learning_rate": 7.391705069124424e-05, "loss": 0.2097, "step": 724 }, { "epoch": 1.9333333333333333, "grad_norm": 0.15858563780784607, "learning_rate": 7.373271889400923e-05, "loss": 0.2575, "step": 725 }, { "epoch": 1.936, "grad_norm": 0.15040184557437897, "learning_rate": 7.35483870967742e-05, "loss": 0.234, "step": 726 }, { "epoch": 1.9386666666666668, "grad_norm": 0.17520880699157715, "learning_rate": 7.336405529953917e-05, "loss": 0.272, "step": 727 }, { "epoch": 1.9413333333333334, "grad_norm": 0.17100732028484344, "learning_rate": 7.317972350230415e-05, "loss": 0.2852, "step": 728 }, { "epoch": 1.944, "grad_norm": 0.17124292254447937, "learning_rate": 7.299539170506913e-05, "loss": 0.2772, "step": 729 }, { "epoch": 1.9466666666666668, "grad_norm": 0.16319064795970917, "learning_rate": 7.28110599078341e-05, "loss": 0.2668, "step": 730 }, { "epoch": 1.9493333333333334, "grad_norm": 0.20069065690040588, "learning_rate": 7.262672811059908e-05, "loss": 0.3414, "step": 731 }, { "epoch": 1.952, "grad_norm": 0.1877623200416565, "learning_rate": 7.244239631336405e-05, "loss": 0.3266, "step": 732 }, { "epoch": 1.9546666666666668, "grad_norm": 0.18862102925777435, "learning_rate": 7.225806451612904e-05, "loss": 0.3233, "step": 733 }, { "epoch": 1.9573333333333334, "grad_norm": 0.15602558851242065, "learning_rate": 7.207373271889402e-05, "loss": 0.2475, "step": 734 }, { "epoch": 1.96, "grad_norm": 0.18717564642429352, "learning_rate": 7.188940092165899e-05, "loss": 0.3177, "step": 735 }, { "epoch": 1.9626666666666668, "grad_norm": 0.17257076501846313, "learning_rate": 7.170506912442396e-05, "loss": 0.2856, "step": 736 }, { "epoch": 1.9653333333333334, "grad_norm": 0.19978205859661102, "learning_rate": 7.152073732718895e-05, "loss": 0.3055, "step": 737 }, { "epoch": 1.968, "grad_norm": 0.15286576747894287, "learning_rate": 7.133640552995392e-05, "loss": 0.2541, "step": 738 }, { "epoch": 1.9706666666666668, "grad_norm": 0.14955423772335052, "learning_rate": 7.115207373271889e-05, "loss": 0.2388, "step": 739 }, { "epoch": 1.9733333333333334, "grad_norm": 0.16089631617069244, "learning_rate": 7.096774193548388e-05, "loss": 0.2674, "step": 740 }, { "epoch": 1.976, "grad_norm": 0.15343688428401947, "learning_rate": 7.078341013824885e-05, "loss": 0.2409, "step": 741 }, { "epoch": 1.9786666666666668, "grad_norm": 0.20841974020004272, "learning_rate": 7.059907834101383e-05, "loss": 0.3221, "step": 742 }, { "epoch": 1.9813333333333332, "grad_norm": 0.13493113219738007, "learning_rate": 7.041474654377882e-05, "loss": 0.2305, "step": 743 }, { "epoch": 1.984, "grad_norm": 0.19111666083335876, "learning_rate": 7.023041474654379e-05, "loss": 0.317, "step": 744 }, { "epoch": 1.9866666666666668, "grad_norm": 0.1622893363237381, "learning_rate": 7.004608294930876e-05, "loss": 0.2782, "step": 745 }, { "epoch": 1.9893333333333332, "grad_norm": 0.19591489434242249, "learning_rate": 6.986175115207374e-05, "loss": 0.3153, "step": 746 }, { "epoch": 1.992, "grad_norm": 0.17614838480949402, "learning_rate": 6.967741935483871e-05, "loss": 0.2765, "step": 747 }, { "epoch": 1.9946666666666668, "grad_norm": 0.16772747039794922, "learning_rate": 6.949308755760368e-05, "loss": 0.2801, "step": 748 }, { "epoch": 1.9973333333333332, "grad_norm": 0.1799980103969574, "learning_rate": 6.930875576036867e-05, "loss": 0.2761, "step": 749 }, { "epoch": 2.0, "grad_norm": 0.17077715694904327, "learning_rate": 6.912442396313364e-05, "loss": 0.2639, "step": 750 }, { "epoch": 2.002666666666667, "grad_norm": 0.1633124053478241, "learning_rate": 6.894009216589861e-05, "loss": 0.2513, "step": 751 }, { "epoch": 2.005333333333333, "grad_norm": 0.1429387778043747, "learning_rate": 6.87557603686636e-05, "loss": 0.2027, "step": 752 }, { "epoch": 2.008, "grad_norm": 0.16289448738098145, "learning_rate": 6.857142857142858e-05, "loss": 0.2562, "step": 753 }, { "epoch": 2.010666666666667, "grad_norm": 0.1556294858455658, "learning_rate": 6.838709677419355e-05, "loss": 0.2149, "step": 754 }, { "epoch": 2.013333333333333, "grad_norm": 0.1885160356760025, "learning_rate": 6.820276497695854e-05, "loss": 0.2674, "step": 755 }, { "epoch": 2.016, "grad_norm": 0.19256852567195892, "learning_rate": 6.801843317972351e-05, "loss": 0.2617, "step": 756 }, { "epoch": 2.018666666666667, "grad_norm": 0.1802372932434082, "learning_rate": 6.783410138248848e-05, "loss": 0.228, "step": 757 }, { "epoch": 2.021333333333333, "grad_norm": 0.16299250721931458, "learning_rate": 6.764976958525346e-05, "loss": 0.2062, "step": 758 }, { "epoch": 2.024, "grad_norm": 0.19721713662147522, "learning_rate": 6.746543778801843e-05, "loss": 0.2525, "step": 759 }, { "epoch": 2.026666666666667, "grad_norm": 0.18933512270450592, "learning_rate": 6.72811059907834e-05, "loss": 0.2271, "step": 760 }, { "epoch": 2.029333333333333, "grad_norm": 0.20451472699642181, "learning_rate": 6.709677419354839e-05, "loss": 0.2562, "step": 761 }, { "epoch": 2.032, "grad_norm": 0.21521085500717163, "learning_rate": 6.691244239631338e-05, "loss": 0.2778, "step": 762 }, { "epoch": 2.034666666666667, "grad_norm": 0.20355567336082458, "learning_rate": 6.672811059907835e-05, "loss": 0.256, "step": 763 }, { "epoch": 2.037333333333333, "grad_norm": 0.16054679453372955, "learning_rate": 6.654377880184333e-05, "loss": 0.211, "step": 764 }, { "epoch": 2.04, "grad_norm": 0.14381106197834015, "learning_rate": 6.63594470046083e-05, "loss": 0.1887, "step": 765 }, { "epoch": 2.042666666666667, "grad_norm": 0.14563830196857452, "learning_rate": 6.617511520737327e-05, "loss": 0.1937, "step": 766 }, { "epoch": 2.0453333333333332, "grad_norm": 0.18439652025699615, "learning_rate": 6.599078341013826e-05, "loss": 0.2438, "step": 767 }, { "epoch": 2.048, "grad_norm": 0.1898227483034134, "learning_rate": 6.580645161290323e-05, "loss": 0.2817, "step": 768 }, { "epoch": 2.050666666666667, "grad_norm": 0.1713884174823761, "learning_rate": 6.56221198156682e-05, "loss": 0.2442, "step": 769 }, { "epoch": 2.0533333333333332, "grad_norm": 0.1894504874944687, "learning_rate": 6.543778801843318e-05, "loss": 0.2559, "step": 770 }, { "epoch": 2.056, "grad_norm": 0.16358236968517303, "learning_rate": 6.525345622119816e-05, "loss": 0.2433, "step": 771 }, { "epoch": 2.058666666666667, "grad_norm": 0.1549631506204605, "learning_rate": 6.506912442396314e-05, "loss": 0.2048, "step": 772 }, { "epoch": 2.0613333333333332, "grad_norm": 0.1814451813697815, "learning_rate": 6.488479262672812e-05, "loss": 0.2471, "step": 773 }, { "epoch": 2.064, "grad_norm": 0.19335006177425385, "learning_rate": 6.47004608294931e-05, "loss": 0.2539, "step": 774 }, { "epoch": 2.066666666666667, "grad_norm": 0.1451120376586914, "learning_rate": 6.451612903225807e-05, "loss": 0.1764, "step": 775 }, { "epoch": 2.0693333333333332, "grad_norm": 0.183383509516716, "learning_rate": 6.433179723502304e-05, "loss": 0.2498, "step": 776 }, { "epoch": 2.072, "grad_norm": 0.203846737742424, "learning_rate": 6.414746543778802e-05, "loss": 0.2632, "step": 777 }, { "epoch": 2.074666666666667, "grad_norm": 0.19181352853775024, "learning_rate": 6.3963133640553e-05, "loss": 0.2435, "step": 778 }, { "epoch": 2.0773333333333333, "grad_norm": 0.20587021112442017, "learning_rate": 6.377880184331797e-05, "loss": 0.2688, "step": 779 }, { "epoch": 2.08, "grad_norm": 0.15669092535972595, "learning_rate": 6.359447004608295e-05, "loss": 0.2011, "step": 780 }, { "epoch": 2.0826666666666664, "grad_norm": 0.2003069370985031, "learning_rate": 6.341013824884793e-05, "loss": 0.2603, "step": 781 }, { "epoch": 2.0853333333333333, "grad_norm": 0.20385725796222687, "learning_rate": 6.32258064516129e-05, "loss": 0.2776, "step": 782 }, { "epoch": 2.088, "grad_norm": 0.13983668386936188, "learning_rate": 6.304147465437789e-05, "loss": 0.187, "step": 783 }, { "epoch": 2.0906666666666665, "grad_norm": 0.201290100812912, "learning_rate": 6.285714285714286e-05, "loss": 0.2611, "step": 784 }, { "epoch": 2.0933333333333333, "grad_norm": 0.18335093557834625, "learning_rate": 6.267281105990783e-05, "loss": 0.2391, "step": 785 }, { "epoch": 2.096, "grad_norm": 0.20194748044013977, "learning_rate": 6.248847926267282e-05, "loss": 0.2538, "step": 786 }, { "epoch": 2.0986666666666665, "grad_norm": 0.19379591941833496, "learning_rate": 6.230414746543779e-05, "loss": 0.2501, "step": 787 }, { "epoch": 2.1013333333333333, "grad_norm": 0.20342446863651276, "learning_rate": 6.211981566820276e-05, "loss": 0.2662, "step": 788 }, { "epoch": 2.104, "grad_norm": 0.1956428438425064, "learning_rate": 6.193548387096774e-05, "loss": 0.2667, "step": 789 }, { "epoch": 2.1066666666666665, "grad_norm": 0.17669370770454407, "learning_rate": 6.175115207373272e-05, "loss": 0.2279, "step": 790 }, { "epoch": 2.1093333333333333, "grad_norm": 0.17823144793510437, "learning_rate": 6.15668202764977e-05, "loss": 0.232, "step": 791 }, { "epoch": 2.112, "grad_norm": 0.1824260950088501, "learning_rate": 6.138248847926268e-05, "loss": 0.2311, "step": 792 }, { "epoch": 2.1146666666666665, "grad_norm": 0.17422372102737427, "learning_rate": 6.119815668202766e-05, "loss": 0.2281, "step": 793 }, { "epoch": 2.1173333333333333, "grad_norm": 0.13453565537929535, "learning_rate": 6.1013824884792627e-05, "loss": 0.1645, "step": 794 }, { "epoch": 2.12, "grad_norm": 0.20188812911510468, "learning_rate": 6.082949308755761e-05, "loss": 0.2517, "step": 795 }, { "epoch": 2.1226666666666665, "grad_norm": 0.1845582127571106, "learning_rate": 6.064516129032258e-05, "loss": 0.2381, "step": 796 }, { "epoch": 2.1253333333333333, "grad_norm": 0.1728835552930832, "learning_rate": 6.0460829493087553e-05, "loss": 0.2357, "step": 797 }, { "epoch": 2.128, "grad_norm": 0.14682193100452423, "learning_rate": 6.027649769585254e-05, "loss": 0.2004, "step": 798 }, { "epoch": 2.1306666666666665, "grad_norm": 0.1783488243818283, "learning_rate": 6.0092165898617516e-05, "loss": 0.2211, "step": 799 }, { "epoch": 2.1333333333333333, "grad_norm": 0.1575060933828354, "learning_rate": 5.990783410138249e-05, "loss": 0.2036, "step": 800 }, { "epoch": 2.136, "grad_norm": 0.17132887244224548, "learning_rate": 5.972350230414747e-05, "loss": 0.2132, "step": 801 }, { "epoch": 2.1386666666666665, "grad_norm": 0.19641931354999542, "learning_rate": 5.953917050691244e-05, "loss": 0.2392, "step": 802 }, { "epoch": 2.1413333333333333, "grad_norm": 0.1785760372877121, "learning_rate": 5.935483870967742e-05, "loss": 0.2305, "step": 803 }, { "epoch": 2.144, "grad_norm": 0.1902862936258316, "learning_rate": 5.9170506912442405e-05, "loss": 0.2601, "step": 804 }, { "epoch": 2.1466666666666665, "grad_norm": 0.19646671414375305, "learning_rate": 5.8986175115207376e-05, "loss": 0.2677, "step": 805 }, { "epoch": 2.1493333333333333, "grad_norm": 0.17630285024642944, "learning_rate": 5.880184331797235e-05, "loss": 0.2344, "step": 806 }, { "epoch": 2.152, "grad_norm": 0.181659534573555, "learning_rate": 5.861751152073733e-05, "loss": 0.2417, "step": 807 }, { "epoch": 2.1546666666666665, "grad_norm": 0.18842129409313202, "learning_rate": 5.843317972350231e-05, "loss": 0.2484, "step": 808 }, { "epoch": 2.1573333333333333, "grad_norm": 0.2049228847026825, "learning_rate": 5.824884792626728e-05, "loss": 0.276, "step": 809 }, { "epoch": 2.16, "grad_norm": 0.17357228696346283, "learning_rate": 5.8064516129032266e-05, "loss": 0.2241, "step": 810 }, { "epoch": 2.1626666666666665, "grad_norm": 0.1905251294374466, "learning_rate": 5.788018433179724e-05, "loss": 0.2499, "step": 811 }, { "epoch": 2.1653333333333333, "grad_norm": 0.20603859424591064, "learning_rate": 5.769585253456221e-05, "loss": 0.2763, "step": 812 }, { "epoch": 2.168, "grad_norm": 0.17379043996334076, "learning_rate": 5.751152073732719e-05, "loss": 0.2302, "step": 813 }, { "epoch": 2.1706666666666665, "grad_norm": 0.18704932928085327, "learning_rate": 5.732718894009217e-05, "loss": 0.2562, "step": 814 }, { "epoch": 2.1733333333333333, "grad_norm": 0.16581858694553375, "learning_rate": 5.714285714285714e-05, "loss": 0.2051, "step": 815 }, { "epoch": 2.176, "grad_norm": 0.1519721895456314, "learning_rate": 5.6958525345622126e-05, "loss": 0.2044, "step": 816 }, { "epoch": 2.1786666666666665, "grad_norm": 0.21112124621868134, "learning_rate": 5.67741935483871e-05, "loss": 0.2724, "step": 817 }, { "epoch": 2.1813333333333333, "grad_norm": 0.1688368320465088, "learning_rate": 5.6589861751152075e-05, "loss": 0.2125, "step": 818 }, { "epoch": 2.184, "grad_norm": 0.14428474009037018, "learning_rate": 5.640552995391706e-05, "loss": 0.1864, "step": 819 }, { "epoch": 2.1866666666666665, "grad_norm": 0.19987855851650238, "learning_rate": 5.622119815668203e-05, "loss": 0.2616, "step": 820 }, { "epoch": 2.1893333333333334, "grad_norm": 0.1781335175037384, "learning_rate": 5.6036866359447e-05, "loss": 0.2172, "step": 821 }, { "epoch": 2.192, "grad_norm": 0.21375764906406403, "learning_rate": 5.585253456221199e-05, "loss": 0.2767, "step": 822 }, { "epoch": 2.1946666666666665, "grad_norm": 0.16845765709877014, "learning_rate": 5.5668202764976965e-05, "loss": 0.2116, "step": 823 }, { "epoch": 2.1973333333333334, "grad_norm": 0.16581523418426514, "learning_rate": 5.5483870967741936e-05, "loss": 0.2091, "step": 824 }, { "epoch": 2.2, "grad_norm": 0.14831623435020447, "learning_rate": 5.529953917050692e-05, "loss": 0.1929, "step": 825 }, { "epoch": 2.2026666666666666, "grad_norm": 0.19845634698867798, "learning_rate": 5.511520737327189e-05, "loss": 0.241, "step": 826 }, { "epoch": 2.2053333333333334, "grad_norm": 0.21646803617477417, "learning_rate": 5.493087557603687e-05, "loss": 0.272, "step": 827 }, { "epoch": 2.208, "grad_norm": 0.20370185375213623, "learning_rate": 5.4746543778801854e-05, "loss": 0.2581, "step": 828 }, { "epoch": 2.2106666666666666, "grad_norm": 0.19999898970127106, "learning_rate": 5.4562211981566825e-05, "loss": 0.2595, "step": 829 }, { "epoch": 2.2133333333333334, "grad_norm": 0.17947052419185638, "learning_rate": 5.4377880184331796e-05, "loss": 0.2322, "step": 830 }, { "epoch": 2.216, "grad_norm": 0.1837109476327896, "learning_rate": 5.419354838709678e-05, "loss": 0.2449, "step": 831 }, { "epoch": 2.2186666666666666, "grad_norm": 0.19303138554096222, "learning_rate": 5.400921658986175e-05, "loss": 0.2328, "step": 832 }, { "epoch": 2.2213333333333334, "grad_norm": 0.1741858273744583, "learning_rate": 5.382488479262673e-05, "loss": 0.2093, "step": 833 }, { "epoch": 2.224, "grad_norm": 0.1743488311767578, "learning_rate": 5.3640552995391715e-05, "loss": 0.2199, "step": 834 }, { "epoch": 2.2266666666666666, "grad_norm": 0.1816837638616562, "learning_rate": 5.3456221198156686e-05, "loss": 0.2231, "step": 835 }, { "epoch": 2.2293333333333334, "grad_norm": 0.21669088304042816, "learning_rate": 5.327188940092166e-05, "loss": 0.2814, "step": 836 }, { "epoch": 2.232, "grad_norm": 0.2027190774679184, "learning_rate": 5.308755760368664e-05, "loss": 0.2676, "step": 837 }, { "epoch": 2.2346666666666666, "grad_norm": 0.21678215265274048, "learning_rate": 5.290322580645162e-05, "loss": 0.2812, "step": 838 }, { "epoch": 2.2373333333333334, "grad_norm": 0.2116953581571579, "learning_rate": 5.271889400921659e-05, "loss": 0.252, "step": 839 }, { "epoch": 2.24, "grad_norm": 0.16538837552070618, "learning_rate": 5.253456221198156e-05, "loss": 0.2023, "step": 840 }, { "epoch": 2.2426666666666666, "grad_norm": 0.20609216392040253, "learning_rate": 5.2350230414746546e-05, "loss": 0.2567, "step": 841 }, { "epoch": 2.2453333333333334, "grad_norm": 0.19656263291835785, "learning_rate": 5.2165898617511524e-05, "loss": 0.2375, "step": 842 }, { "epoch": 2.248, "grad_norm": 0.1345873922109604, "learning_rate": 5.1981566820276495e-05, "loss": 0.164, "step": 843 }, { "epoch": 2.2506666666666666, "grad_norm": 0.2203885316848755, "learning_rate": 5.179723502304148e-05, "loss": 0.2648, "step": 844 }, { "epoch": 2.2533333333333334, "grad_norm": 0.14984656870365143, "learning_rate": 5.161290322580645e-05, "loss": 0.1788, "step": 845 }, { "epoch": 2.2560000000000002, "grad_norm": 0.1774144321680069, "learning_rate": 5.142857142857143e-05, "loss": 0.2132, "step": 846 }, { "epoch": 2.2586666666666666, "grad_norm": 0.18027524650096893, "learning_rate": 5.1244239631336414e-05, "loss": 0.219, "step": 847 }, { "epoch": 2.2613333333333334, "grad_norm": 0.19028416275978088, "learning_rate": 5.1059907834101385e-05, "loss": 0.2423, "step": 848 }, { "epoch": 2.2640000000000002, "grad_norm": 0.17942991852760315, "learning_rate": 5.0875576036866356e-05, "loss": 0.2256, "step": 849 }, { "epoch": 2.2666666666666666, "grad_norm": 0.20197415351867676, "learning_rate": 5.069124423963134e-05, "loss": 0.252, "step": 850 }, { "epoch": 2.2693333333333334, "grad_norm": 0.18713517487049103, "learning_rate": 5.050691244239631e-05, "loss": 0.225, "step": 851 }, { "epoch": 2.2720000000000002, "grad_norm": 0.1841951459646225, "learning_rate": 5.032258064516129e-05, "loss": 0.2431, "step": 852 }, { "epoch": 2.2746666666666666, "grad_norm": 0.15105000138282776, "learning_rate": 5.0138248847926274e-05, "loss": 0.1915, "step": 853 }, { "epoch": 2.2773333333333334, "grad_norm": 0.19592095911502838, "learning_rate": 4.9953917050691245e-05, "loss": 0.2614, "step": 854 }, { "epoch": 2.2800000000000002, "grad_norm": 0.1877017617225647, "learning_rate": 4.976958525345622e-05, "loss": 0.2327, "step": 855 }, { "epoch": 2.2826666666666666, "grad_norm": 0.18034368753433228, "learning_rate": 4.95852534562212e-05, "loss": 0.2277, "step": 856 }, { "epoch": 2.2853333333333334, "grad_norm": 0.16614337265491486, "learning_rate": 4.940092165898618e-05, "loss": 0.2111, "step": 857 }, { "epoch": 2.288, "grad_norm": 0.17970016598701477, "learning_rate": 4.921658986175116e-05, "loss": 0.2379, "step": 858 }, { "epoch": 2.2906666666666666, "grad_norm": 0.18170355260372162, "learning_rate": 4.903225806451613e-05, "loss": 0.2276, "step": 859 }, { "epoch": 2.2933333333333334, "grad_norm": 0.2110476791858673, "learning_rate": 4.8847926267281106e-05, "loss": 0.28, "step": 860 }, { "epoch": 2.296, "grad_norm": 0.187066912651062, "learning_rate": 4.8663594470046084e-05, "loss": 0.2414, "step": 861 }, { "epoch": 2.2986666666666666, "grad_norm": 0.20503658056259155, "learning_rate": 4.847926267281106e-05, "loss": 0.2541, "step": 862 }, { "epoch": 2.3013333333333335, "grad_norm": 0.2017541378736496, "learning_rate": 4.829493087557604e-05, "loss": 0.2718, "step": 863 }, { "epoch": 2.304, "grad_norm": 0.19818656146526337, "learning_rate": 4.811059907834102e-05, "loss": 0.2548, "step": 864 }, { "epoch": 2.3066666666666666, "grad_norm": 0.16166555881500244, "learning_rate": 4.792626728110599e-05, "loss": 0.2041, "step": 865 }, { "epoch": 2.3093333333333335, "grad_norm": 0.14913567900657654, "learning_rate": 4.774193548387097e-05, "loss": 0.199, "step": 866 }, { "epoch": 2.312, "grad_norm": 0.20874328911304474, "learning_rate": 4.755760368663595e-05, "loss": 0.2819, "step": 867 }, { "epoch": 2.3146666666666667, "grad_norm": 0.17748108506202698, "learning_rate": 4.737327188940092e-05, "loss": 0.2074, "step": 868 }, { "epoch": 2.3173333333333335, "grad_norm": 0.21842896938323975, "learning_rate": 4.71889400921659e-05, "loss": 0.2826, "step": 869 }, { "epoch": 2.32, "grad_norm": 0.1887705773115158, "learning_rate": 4.700460829493088e-05, "loss": 0.2449, "step": 870 }, { "epoch": 2.3226666666666667, "grad_norm": 0.22282104194164276, "learning_rate": 4.6820276497695856e-05, "loss": 0.2927, "step": 871 }, { "epoch": 2.3253333333333335, "grad_norm": 0.18185733258724213, "learning_rate": 4.6635944700460833e-05, "loss": 0.2146, "step": 872 }, { "epoch": 2.328, "grad_norm": 0.1490703970193863, "learning_rate": 4.645161290322581e-05, "loss": 0.1961, "step": 873 }, { "epoch": 2.3306666666666667, "grad_norm": 0.22330021858215332, "learning_rate": 4.626728110599078e-05, "loss": 0.3005, "step": 874 }, { "epoch": 2.3333333333333335, "grad_norm": 0.17974190413951874, "learning_rate": 4.608294930875576e-05, "loss": 0.2045, "step": 875 }, { "epoch": 2.336, "grad_norm": 0.2200198769569397, "learning_rate": 4.5898617511520745e-05, "loss": 0.2775, "step": 876 }, { "epoch": 2.3386666666666667, "grad_norm": 0.18184606730937958, "learning_rate": 4.5714285714285716e-05, "loss": 0.2342, "step": 877 }, { "epoch": 2.3413333333333335, "grad_norm": 0.17221882939338684, "learning_rate": 4.5529953917050694e-05, "loss": 0.197, "step": 878 }, { "epoch": 2.344, "grad_norm": 0.16531214118003845, "learning_rate": 4.534562211981567e-05, "loss": 0.194, "step": 879 }, { "epoch": 2.3466666666666667, "grad_norm": 0.19332168996334076, "learning_rate": 4.516129032258064e-05, "loss": 0.2434, "step": 880 }, { "epoch": 2.3493333333333335, "grad_norm": 0.17500852048397064, "learning_rate": 4.497695852534563e-05, "loss": 0.2248, "step": 881 }, { "epoch": 2.352, "grad_norm": 0.21124567091464996, "learning_rate": 4.4792626728110605e-05, "loss": 0.2718, "step": 882 }, { "epoch": 2.3546666666666667, "grad_norm": 0.217422217130661, "learning_rate": 4.4608294930875577e-05, "loss": 0.2611, "step": 883 }, { "epoch": 2.3573333333333335, "grad_norm": 0.18603922426700592, "learning_rate": 4.4423963133640554e-05, "loss": 0.2242, "step": 884 }, { "epoch": 2.36, "grad_norm": 0.20880885422229767, "learning_rate": 4.423963133640553e-05, "loss": 0.2487, "step": 885 }, { "epoch": 2.3626666666666667, "grad_norm": 0.1718357503414154, "learning_rate": 4.405529953917051e-05, "loss": 0.219, "step": 886 }, { "epoch": 2.3653333333333335, "grad_norm": 0.17314431071281433, "learning_rate": 4.387096774193549e-05, "loss": 0.2087, "step": 887 }, { "epoch": 2.368, "grad_norm": 0.1635102778673172, "learning_rate": 4.368663594470046e-05, "loss": 0.2035, "step": 888 }, { "epoch": 2.3706666666666667, "grad_norm": 0.20796184241771698, "learning_rate": 4.350230414746544e-05, "loss": 0.2579, "step": 889 }, { "epoch": 2.3733333333333335, "grad_norm": 0.20987685024738312, "learning_rate": 4.3317972350230415e-05, "loss": 0.264, "step": 890 }, { "epoch": 2.376, "grad_norm": 0.2164434939622879, "learning_rate": 4.313364055299539e-05, "loss": 0.275, "step": 891 }, { "epoch": 2.3786666666666667, "grad_norm": 0.13395971059799194, "learning_rate": 4.294930875576037e-05, "loss": 0.1686, "step": 892 }, { "epoch": 2.3813333333333335, "grad_norm": 0.17936541140079498, "learning_rate": 4.276497695852535e-05, "loss": 0.2244, "step": 893 }, { "epoch": 2.384, "grad_norm": 0.20712970197200775, "learning_rate": 4.258064516129032e-05, "loss": 0.2779, "step": 894 }, { "epoch": 2.3866666666666667, "grad_norm": 0.20002251863479614, "learning_rate": 4.2396313364055304e-05, "loss": 0.2728, "step": 895 }, { "epoch": 2.389333333333333, "grad_norm": 0.1540747731924057, "learning_rate": 4.221198156682028e-05, "loss": 0.1943, "step": 896 }, { "epoch": 2.392, "grad_norm": 0.21586114168167114, "learning_rate": 4.202764976958525e-05, "loss": 0.2682, "step": 897 }, { "epoch": 2.3946666666666667, "grad_norm": 0.20333416759967804, "learning_rate": 4.184331797235023e-05, "loss": 0.2434, "step": 898 }, { "epoch": 2.397333333333333, "grad_norm": 0.21139296889305115, "learning_rate": 4.165898617511521e-05, "loss": 0.2833, "step": 899 }, { "epoch": 2.4, "grad_norm": 0.21288971602916718, "learning_rate": 4.147465437788019e-05, "loss": 0.2474, "step": 900 }, { "epoch": 2.4026666666666667, "grad_norm": 0.19103677570819855, "learning_rate": 4.1290322580645165e-05, "loss": 0.2288, "step": 901 }, { "epoch": 2.405333333333333, "grad_norm": 0.17376349866390228, "learning_rate": 4.110599078341014e-05, "loss": 0.2106, "step": 902 }, { "epoch": 2.408, "grad_norm": 0.1701132208108902, "learning_rate": 4.0921658986175114e-05, "loss": 0.2051, "step": 903 }, { "epoch": 2.4106666666666667, "grad_norm": 0.21110019087791443, "learning_rate": 4.073732718894009e-05, "loss": 0.2508, "step": 904 }, { "epoch": 2.413333333333333, "grad_norm": 0.1796679049730301, "learning_rate": 4.0552995391705076e-05, "loss": 0.2193, "step": 905 }, { "epoch": 2.416, "grad_norm": 0.22056160867214203, "learning_rate": 4.036866359447005e-05, "loss": 0.2807, "step": 906 }, { "epoch": 2.4186666666666667, "grad_norm": 0.1826774775981903, "learning_rate": 4.0184331797235025e-05, "loss": 0.2211, "step": 907 }, { "epoch": 2.421333333333333, "grad_norm": 0.1666688472032547, "learning_rate": 4e-05, "loss": 0.2135, "step": 908 }, { "epoch": 2.424, "grad_norm": 0.18800964951515198, "learning_rate": 3.9815668202764974e-05, "loss": 0.2225, "step": 909 }, { "epoch": 2.4266666666666667, "grad_norm": 0.19935664534568787, "learning_rate": 3.963133640552996e-05, "loss": 0.2376, "step": 910 }, { "epoch": 2.429333333333333, "grad_norm": 0.17138448357582092, "learning_rate": 3.944700460829494e-05, "loss": 0.2089, "step": 911 }, { "epoch": 2.432, "grad_norm": 0.1743897944688797, "learning_rate": 3.926267281105991e-05, "loss": 0.1951, "step": 912 }, { "epoch": 2.4346666666666668, "grad_norm": 0.17688778042793274, "learning_rate": 3.9078341013824886e-05, "loss": 0.242, "step": 913 }, { "epoch": 2.437333333333333, "grad_norm": 0.21720516681671143, "learning_rate": 3.8894009216589864e-05, "loss": 0.2439, "step": 914 }, { "epoch": 2.44, "grad_norm": 0.1564093679189682, "learning_rate": 3.870967741935484e-05, "loss": 0.1977, "step": 915 }, { "epoch": 2.4426666666666668, "grad_norm": 0.20037341117858887, "learning_rate": 3.852534562211982e-05, "loss": 0.2764, "step": 916 }, { "epoch": 2.445333333333333, "grad_norm": 0.2075718194246292, "learning_rate": 3.83410138248848e-05, "loss": 0.2488, "step": 917 }, { "epoch": 2.448, "grad_norm": 0.21193648874759674, "learning_rate": 3.815668202764977e-05, "loss": 0.2591, "step": 918 }, { "epoch": 2.4506666666666668, "grad_norm": 0.20360888540744781, "learning_rate": 3.7972350230414746e-05, "loss": 0.247, "step": 919 }, { "epoch": 2.453333333333333, "grad_norm": 0.2143157422542572, "learning_rate": 3.7788018433179724e-05, "loss": 0.2698, "step": 920 }, { "epoch": 2.456, "grad_norm": 0.19040510058403015, "learning_rate": 3.76036866359447e-05, "loss": 0.2372, "step": 921 }, { "epoch": 2.458666666666667, "grad_norm": 0.18285666406154633, "learning_rate": 3.741935483870968e-05, "loss": 0.2211, "step": 922 }, { "epoch": 2.461333333333333, "grad_norm": 0.20220457017421722, "learning_rate": 3.723502304147465e-05, "loss": 0.2466, "step": 923 }, { "epoch": 2.464, "grad_norm": 0.15328292548656464, "learning_rate": 3.7050691244239636e-05, "loss": 0.1782, "step": 924 }, { "epoch": 2.466666666666667, "grad_norm": 0.1970095932483673, "learning_rate": 3.6866359447004614e-05, "loss": 0.2221, "step": 925 }, { "epoch": 2.469333333333333, "grad_norm": 0.1428355723619461, "learning_rate": 3.6682027649769585e-05, "loss": 0.1735, "step": 926 }, { "epoch": 2.472, "grad_norm": 0.16083119809627533, "learning_rate": 3.649769585253456e-05, "loss": 0.1959, "step": 927 }, { "epoch": 2.474666666666667, "grad_norm": 0.15381105244159698, "learning_rate": 3.631336405529954e-05, "loss": 0.1856, "step": 928 }, { "epoch": 2.477333333333333, "grad_norm": 0.2157757729291916, "learning_rate": 3.612903225806452e-05, "loss": 0.2459, "step": 929 }, { "epoch": 2.48, "grad_norm": 0.16414602100849152, "learning_rate": 3.5944700460829496e-05, "loss": 0.1991, "step": 930 }, { "epoch": 2.482666666666667, "grad_norm": 0.17288298904895782, "learning_rate": 3.5760368663594474e-05, "loss": 0.2145, "step": 931 }, { "epoch": 2.485333333333333, "grad_norm": 0.21028447151184082, "learning_rate": 3.5576036866359445e-05, "loss": 0.2544, "step": 932 }, { "epoch": 2.488, "grad_norm": 0.20613770186901093, "learning_rate": 3.539170506912442e-05, "loss": 0.2563, "step": 933 }, { "epoch": 2.490666666666667, "grad_norm": 0.1776965856552124, "learning_rate": 3.520737327188941e-05, "loss": 0.2262, "step": 934 }, { "epoch": 2.493333333333333, "grad_norm": 0.2085586041212082, "learning_rate": 3.502304147465438e-05, "loss": 0.2762, "step": 935 }, { "epoch": 2.496, "grad_norm": 0.19237564504146576, "learning_rate": 3.483870967741936e-05, "loss": 0.2315, "step": 936 }, { "epoch": 2.498666666666667, "grad_norm": 0.21122056245803833, "learning_rate": 3.4654377880184335e-05, "loss": 0.2505, "step": 937 }, { "epoch": 2.501333333333333, "grad_norm": 0.19145233929157257, "learning_rate": 3.4470046082949306e-05, "loss": 0.2419, "step": 938 }, { "epoch": 2.504, "grad_norm": 0.18055494129657745, "learning_rate": 3.428571428571429e-05, "loss": 0.2142, "step": 939 }, { "epoch": 2.506666666666667, "grad_norm": 0.21248942613601685, "learning_rate": 3.410138248847927e-05, "loss": 0.2635, "step": 940 }, { "epoch": 2.509333333333333, "grad_norm": 0.1798650324344635, "learning_rate": 3.391705069124424e-05, "loss": 0.2319, "step": 941 }, { "epoch": 2.512, "grad_norm": 0.2010336071252823, "learning_rate": 3.373271889400922e-05, "loss": 0.2508, "step": 942 }, { "epoch": 2.514666666666667, "grad_norm": 0.2169940322637558, "learning_rate": 3.3548387096774195e-05, "loss": 0.2535, "step": 943 }, { "epoch": 2.517333333333333, "grad_norm": 0.1709452122449875, "learning_rate": 3.336405529953917e-05, "loss": 0.2023, "step": 944 }, { "epoch": 2.52, "grad_norm": 0.1932317465543747, "learning_rate": 3.317972350230415e-05, "loss": 0.2381, "step": 945 }, { "epoch": 2.522666666666667, "grad_norm": 0.16008716821670532, "learning_rate": 3.299539170506913e-05, "loss": 0.1883, "step": 946 }, { "epoch": 2.525333333333333, "grad_norm": 0.1866675168275833, "learning_rate": 3.28110599078341e-05, "loss": 0.2264, "step": 947 }, { "epoch": 2.528, "grad_norm": 0.22268185019493103, "learning_rate": 3.262672811059908e-05, "loss": 0.2701, "step": 948 }, { "epoch": 2.530666666666667, "grad_norm": 0.1895384043455124, "learning_rate": 3.244239631336406e-05, "loss": 0.2323, "step": 949 }, { "epoch": 2.533333333333333, "grad_norm": 0.19184856116771698, "learning_rate": 3.2258064516129034e-05, "loss": 0.2307, "step": 950 }, { "epoch": 2.536, "grad_norm": 0.1593741774559021, "learning_rate": 3.207373271889401e-05, "loss": 0.1978, "step": 951 }, { "epoch": 2.538666666666667, "grad_norm": 0.21028544008731842, "learning_rate": 3.188940092165898e-05, "loss": 0.2517, "step": 952 }, { "epoch": 2.541333333333333, "grad_norm": 0.17770890891551971, "learning_rate": 3.170506912442397e-05, "loss": 0.2168, "step": 953 }, { "epoch": 2.544, "grad_norm": 0.21473906934261322, "learning_rate": 3.1520737327188945e-05, "loss": 0.259, "step": 954 }, { "epoch": 2.546666666666667, "grad_norm": 0.16704760491847992, "learning_rate": 3.1336405529953916e-05, "loss": 0.1952, "step": 955 }, { "epoch": 2.5493333333333332, "grad_norm": 0.19720260798931122, "learning_rate": 3.1152073732718894e-05, "loss": 0.2388, "step": 956 }, { "epoch": 2.552, "grad_norm": 0.19212587177753448, "learning_rate": 3.096774193548387e-05, "loss": 0.2425, "step": 957 }, { "epoch": 2.554666666666667, "grad_norm": 0.23281149566173553, "learning_rate": 3.078341013824885e-05, "loss": 0.2674, "step": 958 }, { "epoch": 2.5573333333333332, "grad_norm": 0.15486465394496918, "learning_rate": 3.059907834101383e-05, "loss": 0.1979, "step": 959 }, { "epoch": 2.56, "grad_norm": 0.1730332374572754, "learning_rate": 3.0414746543778806e-05, "loss": 0.2132, "step": 960 }, { "epoch": 2.562666666666667, "grad_norm": 0.15302078425884247, "learning_rate": 3.0230414746543777e-05, "loss": 0.1883, "step": 961 }, { "epoch": 2.5653333333333332, "grad_norm": 0.1920948028564453, "learning_rate": 3.0046082949308758e-05, "loss": 0.2335, "step": 962 }, { "epoch": 2.568, "grad_norm": 0.19951973855495453, "learning_rate": 2.9861751152073736e-05, "loss": 0.2308, "step": 963 }, { "epoch": 2.570666666666667, "grad_norm": 0.20758463442325592, "learning_rate": 2.967741935483871e-05, "loss": 0.2425, "step": 964 }, { "epoch": 2.5733333333333333, "grad_norm": 0.20747657120227814, "learning_rate": 2.9493087557603688e-05, "loss": 0.2539, "step": 965 }, { "epoch": 2.576, "grad_norm": 0.20756056904792786, "learning_rate": 2.9308755760368666e-05, "loss": 0.2335, "step": 966 }, { "epoch": 2.578666666666667, "grad_norm": 0.19419220089912415, "learning_rate": 2.912442396313364e-05, "loss": 0.2401, "step": 967 }, { "epoch": 2.5813333333333333, "grad_norm": 0.17146585881710052, "learning_rate": 2.894009216589862e-05, "loss": 0.2113, "step": 968 }, { "epoch": 2.584, "grad_norm": 0.23277591168880463, "learning_rate": 2.8755760368663596e-05, "loss": 0.2754, "step": 969 }, { "epoch": 2.586666666666667, "grad_norm": 0.18789474666118622, "learning_rate": 2.857142857142857e-05, "loss": 0.2352, "step": 970 }, { "epoch": 2.5893333333333333, "grad_norm": 0.2088879495859146, "learning_rate": 2.838709677419355e-05, "loss": 0.2717, "step": 971 }, { "epoch": 2.592, "grad_norm": 0.2042110413312912, "learning_rate": 2.820276497695853e-05, "loss": 0.239, "step": 972 }, { "epoch": 2.594666666666667, "grad_norm": 0.1706562489271164, "learning_rate": 2.80184331797235e-05, "loss": 0.1999, "step": 973 }, { "epoch": 2.5973333333333333, "grad_norm": 0.14103630185127258, "learning_rate": 2.7834101382488482e-05, "loss": 0.1716, "step": 974 }, { "epoch": 2.6, "grad_norm": 0.21575360000133514, "learning_rate": 2.764976958525346e-05, "loss": 0.2647, "step": 975 }, { "epoch": 2.602666666666667, "grad_norm": 0.18506750464439392, "learning_rate": 2.7465437788018435e-05, "loss": 0.2325, "step": 976 }, { "epoch": 2.6053333333333333, "grad_norm": 0.21291320025920868, "learning_rate": 2.7281105990783413e-05, "loss": 0.2477, "step": 977 }, { "epoch": 2.608, "grad_norm": 0.1804783195257187, "learning_rate": 2.709677419354839e-05, "loss": 0.2205, "step": 978 }, { "epoch": 2.610666666666667, "grad_norm": 0.1673409789800644, "learning_rate": 2.6912442396313365e-05, "loss": 0.2066, "step": 979 }, { "epoch": 2.6133333333333333, "grad_norm": 0.18242265284061432, "learning_rate": 2.6728110599078343e-05, "loss": 0.2267, "step": 980 }, { "epoch": 2.616, "grad_norm": 0.18229256570339203, "learning_rate": 2.654377880184332e-05, "loss": 0.2292, "step": 981 }, { "epoch": 2.618666666666667, "grad_norm": 0.16991081833839417, "learning_rate": 2.6359447004608295e-05, "loss": 0.2012, "step": 982 }, { "epoch": 2.6213333333333333, "grad_norm": 0.2170930951833725, "learning_rate": 2.6175115207373273e-05, "loss": 0.2554, "step": 983 }, { "epoch": 2.624, "grad_norm": 0.23414736986160278, "learning_rate": 2.5990783410138248e-05, "loss": 0.2678, "step": 984 }, { "epoch": 2.626666666666667, "grad_norm": 0.20255883038043976, "learning_rate": 2.5806451612903226e-05, "loss": 0.2276, "step": 985 }, { "epoch": 2.6293333333333333, "grad_norm": 0.21123245358467102, "learning_rate": 2.5622119815668207e-05, "loss": 0.2691, "step": 986 }, { "epoch": 2.632, "grad_norm": 0.1825953722000122, "learning_rate": 2.5437788018433178e-05, "loss": 0.2138, "step": 987 }, { "epoch": 2.634666666666667, "grad_norm": 0.17699141800403595, "learning_rate": 2.5253456221198156e-05, "loss": 0.2106, "step": 988 }, { "epoch": 2.6373333333333333, "grad_norm": 0.18593303859233856, "learning_rate": 2.5069124423963137e-05, "loss": 0.2108, "step": 989 }, { "epoch": 2.64, "grad_norm": 0.2082303762435913, "learning_rate": 2.488479262672811e-05, "loss": 0.2423, "step": 990 }, { "epoch": 2.642666666666667, "grad_norm": 0.17860785126686096, "learning_rate": 2.470046082949309e-05, "loss": 0.224, "step": 991 }, { "epoch": 2.6453333333333333, "grad_norm": 0.1743408441543579, "learning_rate": 2.4516129032258064e-05, "loss": 0.1911, "step": 992 }, { "epoch": 2.648, "grad_norm": 0.16802458465099335, "learning_rate": 2.4331797235023042e-05, "loss": 0.1942, "step": 993 }, { "epoch": 2.6506666666666665, "grad_norm": 0.20897972583770752, "learning_rate": 2.414746543778802e-05, "loss": 0.2459, "step": 994 }, { "epoch": 2.6533333333333333, "grad_norm": 0.19246900081634521, "learning_rate": 2.3963133640552994e-05, "loss": 0.223, "step": 995 }, { "epoch": 2.656, "grad_norm": 0.1829095482826233, "learning_rate": 2.3778801843317975e-05, "loss": 0.2105, "step": 996 }, { "epoch": 2.6586666666666665, "grad_norm": 0.21779794991016388, "learning_rate": 2.359447004608295e-05, "loss": 0.2497, "step": 997 }, { "epoch": 2.6613333333333333, "grad_norm": 0.16111710667610168, "learning_rate": 2.3410138248847928e-05, "loss": 0.1858, "step": 998 }, { "epoch": 2.664, "grad_norm": 0.20577044785022736, "learning_rate": 2.3225806451612906e-05, "loss": 0.2343, "step": 999 }, { "epoch": 2.6666666666666665, "grad_norm": 0.18634682893753052, "learning_rate": 2.304147465437788e-05, "loss": 0.2227, "step": 1000 }, { "epoch": 2.6693333333333333, "grad_norm": 0.17292581498622894, "learning_rate": 2.2857142857142858e-05, "loss": 0.1999, "step": 1001 }, { "epoch": 2.672, "grad_norm": 0.22535468637943268, "learning_rate": 2.2672811059907836e-05, "loss": 0.275, "step": 1002 }, { "epoch": 2.6746666666666665, "grad_norm": 0.2133495956659317, "learning_rate": 2.2488479262672814e-05, "loss": 0.2586, "step": 1003 }, { "epoch": 2.6773333333333333, "grad_norm": 0.1874510943889618, "learning_rate": 2.2304147465437788e-05, "loss": 0.2277, "step": 1004 }, { "epoch": 2.68, "grad_norm": 0.1860281080007553, "learning_rate": 2.2119815668202766e-05, "loss": 0.2337, "step": 1005 }, { "epoch": 2.6826666666666665, "grad_norm": 0.19864605367183685, "learning_rate": 2.1935483870967744e-05, "loss": 0.2359, "step": 1006 }, { "epoch": 2.6853333333333333, "grad_norm": 0.2221938669681549, "learning_rate": 2.175115207373272e-05, "loss": 0.3103, "step": 1007 }, { "epoch": 2.6879999999999997, "grad_norm": 0.17687197029590607, "learning_rate": 2.1566820276497696e-05, "loss": 0.2054, "step": 1008 }, { "epoch": 2.6906666666666665, "grad_norm": 0.2088635116815567, "learning_rate": 2.1382488479262674e-05, "loss": 0.2394, "step": 1009 }, { "epoch": 2.6933333333333334, "grad_norm": 0.1783912628889084, "learning_rate": 2.1198156682027652e-05, "loss": 0.2143, "step": 1010 }, { "epoch": 2.6959999999999997, "grad_norm": 0.16451089084148407, "learning_rate": 2.1013824884792627e-05, "loss": 0.1991, "step": 1011 }, { "epoch": 2.6986666666666665, "grad_norm": 0.1732214242219925, "learning_rate": 2.0829493087557605e-05, "loss": 0.1994, "step": 1012 }, { "epoch": 2.7013333333333334, "grad_norm": 0.154001846909523, "learning_rate": 2.0645161290322582e-05, "loss": 0.1894, "step": 1013 }, { "epoch": 2.7039999999999997, "grad_norm": 0.21132534742355347, "learning_rate": 2.0460829493087557e-05, "loss": 0.2614, "step": 1014 }, { "epoch": 2.7066666666666666, "grad_norm": 0.2212495058774948, "learning_rate": 2.0276497695852538e-05, "loss": 0.2734, "step": 1015 }, { "epoch": 2.7093333333333334, "grad_norm": 0.21257886290550232, "learning_rate": 2.0092165898617513e-05, "loss": 0.2502, "step": 1016 }, { "epoch": 2.7119999999999997, "grad_norm": 0.2010204941034317, "learning_rate": 1.9907834101382487e-05, "loss": 0.2473, "step": 1017 }, { "epoch": 2.7146666666666666, "grad_norm": 0.1727273017168045, "learning_rate": 1.972350230414747e-05, "loss": 0.2149, "step": 1018 }, { "epoch": 2.7173333333333334, "grad_norm": 0.2235029637813568, "learning_rate": 1.9539170506912443e-05, "loss": 0.2684, "step": 1019 }, { "epoch": 2.7199999999999998, "grad_norm": 0.17692206799983978, "learning_rate": 1.935483870967742e-05, "loss": 0.2115, "step": 1020 }, { "epoch": 2.7226666666666666, "grad_norm": 0.14756979048252106, "learning_rate": 1.91705069124424e-05, "loss": 0.1747, "step": 1021 }, { "epoch": 2.7253333333333334, "grad_norm": 0.17219822108745575, "learning_rate": 1.8986175115207373e-05, "loss": 0.1999, "step": 1022 }, { "epoch": 2.7279999999999998, "grad_norm": 0.21106815338134766, "learning_rate": 1.880184331797235e-05, "loss": 0.2626, "step": 1023 }, { "epoch": 2.7306666666666666, "grad_norm": 0.1658838987350464, "learning_rate": 1.8617511520737326e-05, "loss": 0.2067, "step": 1024 }, { "epoch": 2.7333333333333334, "grad_norm": 0.22568367421627045, "learning_rate": 1.8433179723502307e-05, "loss": 0.2689, "step": 1025 }, { "epoch": 2.7359999999999998, "grad_norm": 0.21281591057777405, "learning_rate": 1.824884792626728e-05, "loss": 0.2449, "step": 1026 }, { "epoch": 2.7386666666666666, "grad_norm": 0.2305043637752533, "learning_rate": 1.806451612903226e-05, "loss": 0.2683, "step": 1027 }, { "epoch": 2.7413333333333334, "grad_norm": 0.19869396090507507, "learning_rate": 1.7880184331797237e-05, "loss": 0.2343, "step": 1028 }, { "epoch": 2.7439999999999998, "grad_norm": 0.18491441011428833, "learning_rate": 1.769585253456221e-05, "loss": 0.2225, "step": 1029 }, { "epoch": 2.7466666666666666, "grad_norm": 0.2185884416103363, "learning_rate": 1.751152073732719e-05, "loss": 0.242, "step": 1030 }, { "epoch": 2.7493333333333334, "grad_norm": 0.2175767570734024, "learning_rate": 1.7327188940092167e-05, "loss": 0.2693, "step": 1031 }, { "epoch": 2.752, "grad_norm": 0.21260294318199158, "learning_rate": 1.7142857142857145e-05, "loss": 0.2393, "step": 1032 }, { "epoch": 2.7546666666666666, "grad_norm": 0.17641869187355042, "learning_rate": 1.695852534562212e-05, "loss": 0.2152, "step": 1033 }, { "epoch": 2.7573333333333334, "grad_norm": 0.18810798227787018, "learning_rate": 1.6774193548387098e-05, "loss": 0.2258, "step": 1034 }, { "epoch": 2.76, "grad_norm": 0.23104557394981384, "learning_rate": 1.6589861751152075e-05, "loss": 0.2627, "step": 1035 }, { "epoch": 2.7626666666666666, "grad_norm": 0.21564984321594238, "learning_rate": 1.640552995391705e-05, "loss": 0.2649, "step": 1036 }, { "epoch": 2.7653333333333334, "grad_norm": 0.22177806496620178, "learning_rate": 1.622119815668203e-05, "loss": 0.2517, "step": 1037 }, { "epoch": 2.768, "grad_norm": 0.1822693794965744, "learning_rate": 1.6036866359447006e-05, "loss": 0.2181, "step": 1038 }, { "epoch": 2.7706666666666666, "grad_norm": 0.19776242971420288, "learning_rate": 1.5852534562211984e-05, "loss": 0.2305, "step": 1039 }, { "epoch": 2.7733333333333334, "grad_norm": 0.2073931246995926, "learning_rate": 1.5668202764976958e-05, "loss": 0.2439, "step": 1040 }, { "epoch": 2.776, "grad_norm": 0.1732424795627594, "learning_rate": 1.5483870967741936e-05, "loss": 0.2088, "step": 1041 }, { "epoch": 2.7786666666666666, "grad_norm": 0.2119382917881012, "learning_rate": 1.5299539170506914e-05, "loss": 0.2546, "step": 1042 }, { "epoch": 2.7813333333333334, "grad_norm": 0.2035003900527954, "learning_rate": 1.5115207373271888e-05, "loss": 0.2295, "step": 1043 }, { "epoch": 2.784, "grad_norm": 0.20325753092765808, "learning_rate": 1.4930875576036868e-05, "loss": 0.2604, "step": 1044 }, { "epoch": 2.7866666666666666, "grad_norm": 0.21441249549388885, "learning_rate": 1.4746543778801844e-05, "loss": 0.2587, "step": 1045 }, { "epoch": 2.7893333333333334, "grad_norm": 0.19458211958408356, "learning_rate": 1.456221198156682e-05, "loss": 0.239, "step": 1046 }, { "epoch": 2.792, "grad_norm": 0.2018086016178131, "learning_rate": 1.4377880184331798e-05, "loss": 0.2406, "step": 1047 }, { "epoch": 2.7946666666666666, "grad_norm": 0.2204471081495285, "learning_rate": 1.4193548387096774e-05, "loss": 0.2644, "step": 1048 }, { "epoch": 2.7973333333333334, "grad_norm": 0.20601236820220947, "learning_rate": 1.400921658986175e-05, "loss": 0.2501, "step": 1049 }, { "epoch": 2.8, "grad_norm": 0.20629119873046875, "learning_rate": 1.382488479262673e-05, "loss": 0.2443, "step": 1050 }, { "epoch": 2.8026666666666666, "grad_norm": 0.15330874919891357, "learning_rate": 1.3640552995391706e-05, "loss": 0.1709, "step": 1051 }, { "epoch": 2.8053333333333335, "grad_norm": 0.18779538571834564, "learning_rate": 1.3456221198156683e-05, "loss": 0.2215, "step": 1052 }, { "epoch": 2.808, "grad_norm": 0.20751351118087769, "learning_rate": 1.327188940092166e-05, "loss": 0.2484, "step": 1053 }, { "epoch": 2.8106666666666666, "grad_norm": 0.18701356649398804, "learning_rate": 1.3087557603686637e-05, "loss": 0.2236, "step": 1054 }, { "epoch": 2.8133333333333335, "grad_norm": 0.17528961598873138, "learning_rate": 1.2903225806451613e-05, "loss": 0.2149, "step": 1055 }, { "epoch": 2.816, "grad_norm": 0.221915602684021, "learning_rate": 1.2718894009216589e-05, "loss": 0.2629, "step": 1056 }, { "epoch": 2.8186666666666667, "grad_norm": 0.19992965459823608, "learning_rate": 1.2534562211981569e-05, "loss": 0.2494, "step": 1057 }, { "epoch": 2.8213333333333335, "grad_norm": 0.22890964150428772, "learning_rate": 1.2350230414746545e-05, "loss": 0.256, "step": 1058 }, { "epoch": 2.824, "grad_norm": 0.18345974385738373, "learning_rate": 1.2165898617511521e-05, "loss": 0.209, "step": 1059 }, { "epoch": 2.8266666666666667, "grad_norm": 0.22195008397102356, "learning_rate": 1.1981566820276497e-05, "loss": 0.2662, "step": 1060 }, { "epoch": 2.8293333333333335, "grad_norm": 0.20280492305755615, "learning_rate": 1.1797235023041475e-05, "loss": 0.2319, "step": 1061 }, { "epoch": 2.832, "grad_norm": 0.17780129611492157, "learning_rate": 1.1612903225806453e-05, "loss": 0.2015, "step": 1062 }, { "epoch": 2.8346666666666667, "grad_norm": 0.2141536921262741, "learning_rate": 1.1428571428571429e-05, "loss": 0.2541, "step": 1063 }, { "epoch": 2.8373333333333335, "grad_norm": 0.20493169128894806, "learning_rate": 1.1244239631336407e-05, "loss": 0.2409, "step": 1064 }, { "epoch": 2.84, "grad_norm": 0.2049335092306137, "learning_rate": 1.1059907834101383e-05, "loss": 0.2405, "step": 1065 }, { "epoch": 2.8426666666666667, "grad_norm": 0.18142537772655487, "learning_rate": 1.087557603686636e-05, "loss": 0.2093, "step": 1066 }, { "epoch": 2.8453333333333335, "grad_norm": 0.17172765731811523, "learning_rate": 1.0691244239631337e-05, "loss": 0.2103, "step": 1067 }, { "epoch": 2.848, "grad_norm": 0.19257913529872894, "learning_rate": 1.0506912442396313e-05, "loss": 0.231, "step": 1068 }, { "epoch": 2.8506666666666667, "grad_norm": 0.20332762598991394, "learning_rate": 1.0322580645161291e-05, "loss": 0.2529, "step": 1069 }, { "epoch": 2.8533333333333335, "grad_norm": 0.22266137599945068, "learning_rate": 1.0138248847926269e-05, "loss": 0.2711, "step": 1070 }, { "epoch": 2.856, "grad_norm": 0.1876412332057953, "learning_rate": 9.953917050691244e-06, "loss": 0.2284, "step": 1071 }, { "epoch": 2.8586666666666667, "grad_norm": 0.18878604471683502, "learning_rate": 9.769585253456221e-06, "loss": 0.2321, "step": 1072 }, { "epoch": 2.8613333333333335, "grad_norm": 0.2148466259241104, "learning_rate": 9.5852534562212e-06, "loss": 0.2591, "step": 1073 }, { "epoch": 2.864, "grad_norm": 0.16964668035507202, "learning_rate": 9.400921658986176e-06, "loss": 0.1898, "step": 1074 }, { "epoch": 2.8666666666666667, "grad_norm": 0.17524507641792297, "learning_rate": 9.216589861751153e-06, "loss": 0.2157, "step": 1075 }, { "epoch": 2.8693333333333335, "grad_norm": 0.18534080684185028, "learning_rate": 9.03225806451613e-06, "loss": 0.2212, "step": 1076 }, { "epoch": 2.872, "grad_norm": 0.17894750833511353, "learning_rate": 8.847926267281106e-06, "loss": 0.2127, "step": 1077 }, { "epoch": 2.8746666666666667, "grad_norm": 0.1959470510482788, "learning_rate": 8.663594470046084e-06, "loss": 0.2411, "step": 1078 }, { "epoch": 2.8773333333333335, "grad_norm": 0.18759533762931824, "learning_rate": 8.47926267281106e-06, "loss": 0.2191, "step": 1079 }, { "epoch": 2.88, "grad_norm": 0.1770099252462387, "learning_rate": 8.294930875576038e-06, "loss": 0.2025, "step": 1080 }, { "epoch": 2.8826666666666667, "grad_norm": 0.2285805642604828, "learning_rate": 8.110599078341016e-06, "loss": 0.2711, "step": 1081 }, { "epoch": 2.8853333333333335, "grad_norm": 0.19250483810901642, "learning_rate": 7.926267281105992e-06, "loss": 0.2283, "step": 1082 }, { "epoch": 2.888, "grad_norm": 0.16648288071155548, "learning_rate": 7.741935483870968e-06, "loss": 0.1887, "step": 1083 }, { "epoch": 2.8906666666666667, "grad_norm": 0.18730421364307404, "learning_rate": 7.557603686635944e-06, "loss": 0.2315, "step": 1084 }, { "epoch": 2.8933333333333335, "grad_norm": 0.18976031243801117, "learning_rate": 7.373271889400922e-06, "loss": 0.2277, "step": 1085 }, { "epoch": 2.896, "grad_norm": 0.19229745864868164, "learning_rate": 7.188940092165899e-06, "loss": 0.2163, "step": 1086 }, { "epoch": 2.8986666666666667, "grad_norm": 0.18816886842250824, "learning_rate": 7.004608294930875e-06, "loss": 0.2393, "step": 1087 }, { "epoch": 2.9013333333333335, "grad_norm": 0.18578150868415833, "learning_rate": 6.820276497695853e-06, "loss": 0.2179, "step": 1088 }, { "epoch": 2.904, "grad_norm": 0.2083587795495987, "learning_rate": 6.63594470046083e-06, "loss": 0.2515, "step": 1089 }, { "epoch": 2.9066666666666667, "grad_norm": 0.22908279299736023, "learning_rate": 6.451612903225806e-06, "loss": 0.2657, "step": 1090 }, { "epoch": 2.9093333333333335, "grad_norm": 0.2060592770576477, "learning_rate": 6.267281105990784e-06, "loss": 0.2386, "step": 1091 }, { "epoch": 2.912, "grad_norm": 0.21622027456760406, "learning_rate": 6.0829493087557604e-06, "loss": 0.2654, "step": 1092 }, { "epoch": 2.9146666666666667, "grad_norm": 0.18219618499279022, "learning_rate": 5.8986175115207375e-06, "loss": 0.2014, "step": 1093 }, { "epoch": 2.9173333333333336, "grad_norm": 0.16209164261817932, "learning_rate": 5.7142857142857145e-06, "loss": 0.188, "step": 1094 }, { "epoch": 2.92, "grad_norm": 0.2103581577539444, "learning_rate": 5.5299539170506915e-06, "loss": 0.2643, "step": 1095 }, { "epoch": 2.9226666666666667, "grad_norm": 0.21437743306159973, "learning_rate": 5.345622119815669e-06, "loss": 0.2691, "step": 1096 }, { "epoch": 2.9253333333333336, "grad_norm": 0.2066657394170761, "learning_rate": 5.161290322580646e-06, "loss": 0.253, "step": 1097 }, { "epoch": 2.928, "grad_norm": 0.18037202954292297, "learning_rate": 4.976958525345622e-06, "loss": 0.214, "step": 1098 }, { "epoch": 2.9306666666666668, "grad_norm": 0.18680045008659363, "learning_rate": 4.7926267281106e-06, "loss": 0.2329, "step": 1099 }, { "epoch": 2.9333333333333336, "grad_norm": 0.21466372907161713, "learning_rate": 4.608294930875577e-06, "loss": 0.2434, "step": 1100 }, { "epoch": 2.936, "grad_norm": 0.166558176279068, "learning_rate": 4.423963133640553e-06, "loss": 0.1876, "step": 1101 }, { "epoch": 2.9386666666666668, "grad_norm": 0.22108784317970276, "learning_rate": 4.23963133640553e-06, "loss": 0.2651, "step": 1102 }, { "epoch": 2.9413333333333336, "grad_norm": 0.1992163211107254, "learning_rate": 4.055299539170508e-06, "loss": 0.2315, "step": 1103 }, { "epoch": 2.944, "grad_norm": 0.23224449157714844, "learning_rate": 3.870967741935484e-06, "loss": 0.2748, "step": 1104 }, { "epoch": 2.9466666666666668, "grad_norm": 0.21536001563072205, "learning_rate": 3.686635944700461e-06, "loss": 0.2466, "step": 1105 }, { "epoch": 2.9493333333333336, "grad_norm": 0.2141130566596985, "learning_rate": 3.5023041474654376e-06, "loss": 0.2478, "step": 1106 }, { "epoch": 2.952, "grad_norm": 0.15023496747016907, "learning_rate": 3.317972350230415e-06, "loss": 0.1743, "step": 1107 }, { "epoch": 2.9546666666666668, "grad_norm": 0.1586221605539322, "learning_rate": 3.133640552995392e-06, "loss": 0.1957, "step": 1108 }, { "epoch": 2.9573333333333336, "grad_norm": 0.21682856976985931, "learning_rate": 2.9493087557603687e-06, "loss": 0.2566, "step": 1109 }, { "epoch": 2.96, "grad_norm": 0.19096557796001434, "learning_rate": 2.7649769585253458e-06, "loss": 0.2202, "step": 1110 }, { "epoch": 2.962666666666667, "grad_norm": 0.21746596693992615, "learning_rate": 2.580645161290323e-06, "loss": 0.2344, "step": 1111 }, { "epoch": 2.9653333333333336, "grad_norm": 0.15653283894062042, "learning_rate": 2.3963133640553e-06, "loss": 0.1882, "step": 1112 }, { "epoch": 2.968, "grad_norm": 0.18830817937850952, "learning_rate": 2.2119815668202764e-06, "loss": 0.2101, "step": 1113 }, { "epoch": 2.970666666666667, "grad_norm": 0.15795008838176727, "learning_rate": 2.027649769585254e-06, "loss": 0.182, "step": 1114 }, { "epoch": 2.9733333333333336, "grad_norm": 0.2204478234052658, "learning_rate": 1.8433179723502305e-06, "loss": 0.2447, "step": 1115 }, { "epoch": 2.976, "grad_norm": 0.204703226685524, "learning_rate": 1.6589861751152075e-06, "loss": 0.2261, "step": 1116 }, { "epoch": 2.978666666666667, "grad_norm": 0.2186543494462967, "learning_rate": 1.4746543778801844e-06, "loss": 0.2494, "step": 1117 }, { "epoch": 2.981333333333333, "grad_norm": 0.18065595626831055, "learning_rate": 1.2903225806451614e-06, "loss": 0.2198, "step": 1118 }, { "epoch": 2.984, "grad_norm": 0.23505060374736786, "learning_rate": 1.1059907834101382e-06, "loss": 0.285, "step": 1119 }, { "epoch": 2.986666666666667, "grad_norm": 0.20345298945903778, "learning_rate": 9.216589861751153e-07, "loss": 0.2326, "step": 1120 }, { "epoch": 2.989333333333333, "grad_norm": 0.17036734521389008, "learning_rate": 7.373271889400922e-07, "loss": 0.2005, "step": 1121 }, { "epoch": 2.992, "grad_norm": 0.22150498628616333, "learning_rate": 5.529953917050691e-07, "loss": 0.2532, "step": 1122 }, { "epoch": 2.994666666666667, "grad_norm": 0.17782063782215118, "learning_rate": 3.686635944700461e-07, "loss": 0.212, "step": 1123 }, { "epoch": 2.997333333333333, "grad_norm": 0.20019815862178802, "learning_rate": 1.8433179723502305e-07, "loss": 0.2356, "step": 1124 }, { "epoch": 3.0, "grad_norm": 0.22706852853298187, "learning_rate": 0.0, "loss": 0.2505, "step": 1125 } ], "logging_steps": 1, "max_steps": 1125, "num_input_tokens_seen": 0, "num_train_epochs": 3, "save_steps": 500, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 2.2306486123089838e+18, "train_batch_size": 4, "trial_name": null, "trial_params": null }