TokenSkip-Qwen2.5-14B-Instruct-GSM8K / trainer_state.json

Upload 14 files

467cd56 verified about 1 year ago

22.4 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.9040063466878223,
	"eval_steps": 300,
	"global_step": 1200,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.01586671955573185,
	"grad_norm": 0.6832552552223206,
	"learning_rate": 2.6455026455026455e-06,
	"loss": 1.3171,
	"step": 10
	},
	{
	"epoch": 0.0317334391114637,
	"grad_norm": 0.9994391798973083,
	"learning_rate": 5.291005291005291e-06,
	"loss": 1.1922,
	"step": 20
	},
	{
	"epoch": 0.04760015866719556,
	"grad_norm": 0.9905434846878052,
	"learning_rate": 7.936507936507936e-06,
	"loss": 1.2352,
	"step": 30
	},
	{
	"epoch": 0.0634668782229274,
	"grad_norm": 1.0371067523956299,
	"learning_rate": 1.0582010582010582e-05,
	"loss": 1.1191,
	"step": 40
	},
	{
	"epoch": 0.07933359777865927,
	"grad_norm": 0.9686773419380188,
	"learning_rate": 1.3227513227513228e-05,
	"loss": 1.0697,
	"step": 50
	},
	{
	"epoch": 0.09520031733439112,
	"grad_norm": 0.5632955431938171,
	"learning_rate": 1.5873015873015872e-05,
	"loss": 0.741,
	"step": 60
	},
	{
	"epoch": 0.11106703689012297,
	"grad_norm": 0.4180806875228882,
	"learning_rate": 1.8518518518518518e-05,
	"loss": 0.6942,
	"step": 70
	},
	{
	"epoch": 0.1269337564458548,
	"grad_norm": 0.3943168520927429,
	"learning_rate": 2.1164021164021164e-05,
	"loss": 0.6314,
	"step": 80
	},
	{
	"epoch": 0.14280047600158668,
	"grad_norm": 0.3465676009654999,
	"learning_rate": 2.380952380952381e-05,
	"loss": 0.6257,
	"step": 90
	},
	{
	"epoch": 0.15866719555731854,
	"grad_norm": 0.3200153708457947,
	"learning_rate": 2.6455026455026456e-05,
	"loss": 0.5426,
	"step": 100
	},
	{
	"epoch": 0.1745339151130504,
	"grad_norm": 0.28294724225997925,
	"learning_rate": 2.91005291005291e-05,
	"loss": 0.5209,
	"step": 110
	},
	{
	"epoch": 0.19040063466878224,
	"grad_norm": 0.3477802574634552,
	"learning_rate": 3.1746031746031745e-05,
	"loss": 0.4633,
	"step": 120
	},
	{
	"epoch": 0.2062673542245141,
	"grad_norm": 0.36890918016433716,
	"learning_rate": 3.439153439153439e-05,
	"loss": 0.3798,
	"step": 130
	},
	{
	"epoch": 0.22213407378024594,
	"grad_norm": 0.38711702823638916,
	"learning_rate": 3.7037037037037037e-05,
	"loss": 0.4397,
	"step": 140
	},
	{
	"epoch": 0.2380007933359778,
	"grad_norm": 0.4116644859313965,
	"learning_rate": 3.968253968253968e-05,
	"loss": 0.4021,
	"step": 150
	},
	{
	"epoch": 0.2538675128917096,
	"grad_norm": 0.402497798204422,
	"learning_rate": 4.232804232804233e-05,
	"loss": 0.3796,
	"step": 160
	},
	{
	"epoch": 0.2697342324474415,
	"grad_norm": 0.6916673183441162,
	"learning_rate": 4.4973544973544974e-05,
	"loss": 0.4462,
	"step": 170
	},
	{
	"epoch": 0.28560095200317337,
	"grad_norm": 0.49015486240386963,
	"learning_rate": 4.761904761904762e-05,
	"loss": 0.3902,
	"step": 180
	},
	{
	"epoch": 0.3014676715589052,
	"grad_norm": 0.4605613648891449,
	"learning_rate": 4.999995736158938e-05,
	"loss": 0.3751,
	"step": 190
	},
	{
	"epoch": 0.31733439111463707,
	"grad_norm": 0.3663236200809479,
	"learning_rate": 4.999484092829756e-05,
	"loss": 0.3399,
	"step": 200
	},
	{
	"epoch": 0.3332011106703689,
	"grad_norm": 0.6052913069725037,
	"learning_rate": 4.998119881260576e-05,
	"loss": 0.3738,
	"step": 210
	},
	{
	"epoch": 0.3490678302261008,
	"grad_norm": 0.5979182720184326,
	"learning_rate": 4.995903566780805e-05,
	"loss": 0.3732,
	"step": 220
	},
	{
	"epoch": 0.3649345497818326,
	"grad_norm": 0.7640148401260376,
	"learning_rate": 4.992835905370186e-05,
	"loss": 0.4339,
	"step": 230
	},
	{
	"epoch": 0.3808012693375645,
	"grad_norm": 0.5569157600402832,
	"learning_rate": 4.988917943400924e-05,
	"loss": 0.3893,
	"step": 240
	},
	{
	"epoch": 0.3966679888932963,
	"grad_norm": 0.6464380621910095,
	"learning_rate": 4.9841510172807834e-05,
	"loss": 0.3642,
	"step": 250
	},
	{
	"epoch": 0.4125347084490282,
	"grad_norm": 0.5494194030761719,
	"learning_rate": 4.97853675299723e-05,
	"loss": 0.3481,
	"step": 260
	},
	{
	"epoch": 0.42840142800476,
	"grad_norm": 0.5208620429039001,
	"learning_rate": 4.972077065562821e-05,
	"loss": 0.3968,
	"step": 270
	},
	{
	"epoch": 0.4442681475604919,
	"grad_norm": 0.6078989505767822,
	"learning_rate": 4.964774158361991e-05,
	"loss": 0.337,
	"step": 280
	},
	{
	"epoch": 0.4601348671162237,
	"grad_norm": 0.5791096687316895,
	"learning_rate": 4.956630522399487e-05,
	"loss": 0.3495,
	"step": 290
	},
	{
	"epoch": 0.4760015866719556,
	"grad_norm": 0.5267443060874939,
	"learning_rate": 4.947648935450689e-05,
	"loss": 0.3191,
	"step": 300
	},
	{
	"epoch": 0.4760015866719556,
	"eval_loss": 0.38255831599235535,
	"eval_runtime": 93.6436,
	"eval_samples_per_second": 5.991,
	"eval_steps_per_second": 5.991,
	"step": 300
	},
	{
	"epoch": 0.4918683062276874,
	"grad_norm": 0.42828086018562317,
	"learning_rate": 4.937832461114123e-05,
	"loss": 0.3164,
	"step": 310
	},
	{
	"epoch": 0.5077350257834192,
	"grad_norm": 0.5684987306594849,
	"learning_rate": 4.927184447766467e-05,
	"loss": 0.3047,
	"step": 320
	},
	{
	"epoch": 0.5236017453391512,
	"grad_norm": 0.6015241742134094,
	"learning_rate": 4.915708527420435e-05,
	"loss": 0.2568,
	"step": 330
	},
	{
	"epoch": 0.539468464894883,
	"grad_norm": 0.7351698279380798,
	"learning_rate": 4.903408614485899e-05,
	"loss": 0.3554,
	"step": 340
	},
	{
	"epoch": 0.5553351844506148,
	"grad_norm": 0.5476783514022827,
	"learning_rate": 4.890288904434699e-05,
	"loss": 0.2934,
	"step": 350
	},
	{
	"epoch": 0.5712019040063467,
	"grad_norm": 0.7653456330299377,
	"learning_rate": 4.8763538723695726e-05,
	"loss": 0.3548,
	"step": 360
	},
	{
	"epoch": 0.5870686235620786,
	"grad_norm": 0.5909974575042725,
	"learning_rate": 4.8616082714977097e-05,
	"loss": 0.2958,
	"step": 370
	},
	{
	"epoch": 0.6029353431178104,
	"grad_norm": 0.8618314266204834,
	"learning_rate": 4.8460571315094456e-05,
	"loss": 0.3323,
	"step": 380
	},
	{
	"epoch": 0.6188020626735422,
	"grad_norm": 0.43425798416137695,
	"learning_rate": 4.829705756862642e-05,
	"loss": 0.3256,
	"step": 390
	},
	{
	"epoch": 0.6346687822292741,
	"grad_norm": 0.6728402972221375,
	"learning_rate": 4.812559724973355e-05,
	"loss": 0.3289,
	"step": 400
	},
	{
	"epoch": 0.650535501785006,
	"grad_norm": 0.6804693341255188,
	"learning_rate": 4.79462488431338e-05,
	"loss": 0.3494,
	"step": 410
	},
	{
	"epoch": 0.6664022213407378,
	"grad_norm": 0.7322263121604919,
	"learning_rate": 4.775907352415367e-05,
	"loss": 0.286,
	"step": 420
	},
	{
	"epoch": 0.6822689408964696,
	"grad_norm": 0.5389537215232849,
	"learning_rate": 4.75641351378613e-05,
	"loss": 0.2597,
	"step": 430
	},
	{
	"epoch": 0.6981356604522015,
	"grad_norm": 0.7679384350776672,
	"learning_rate": 4.7361500177289156e-05,
	"loss": 0.3265,
	"step": 440
	},
	{
	"epoch": 0.7140023800079334,
	"grad_norm": 0.9662689566612244,
	"learning_rate": 4.715123776075336e-05,
	"loss": 0.3493,
	"step": 450
	},
	{
	"epoch": 0.7298690995636652,
	"grad_norm": 0.7264727354049683,
	"learning_rate": 4.693341960827764e-05,
	"loss": 0.3412,
	"step": 460
	},
	{
	"epoch": 0.745735819119397,
	"grad_norm": 0.6046968698501587,
	"learning_rate": 4.670812001712973e-05,
	"loss": 0.349,
	"step": 470
	},
	{
	"epoch": 0.761602538675129,
	"grad_norm": 0.7867446541786194,
	"learning_rate": 4.647541583647883e-05,
	"loss": 0.3394,
	"step": 480
	},
	{
	"epoch": 0.7774692582308608,
	"grad_norm": 0.7447336912155151,
	"learning_rate": 4.623538644118244e-05,
	"loss": 0.3738,
	"step": 490
	},
	{
	"epoch": 0.7933359777865926,
	"grad_norm": 0.5049989819526672,
	"learning_rate": 4.5988113704711846e-05,
	"loss": 0.2899,
	"step": 500
	},
	{
	"epoch": 0.8092026973423245,
	"grad_norm": 0.8148102164268494,
	"learning_rate": 4.573368197122524e-05,
	"loss": 0.3144,
	"step": 510
	},
	{
	"epoch": 0.8250694168980564,
	"grad_norm": 0.7628346681594849,
	"learning_rate": 4.547217802679814e-05,
	"loss": 0.2996,
	"step": 520
	},
	{
	"epoch": 0.8409361364537882,
	"grad_norm": 0.6373751759529114,
	"learning_rate": 4.520369106982084e-05,
	"loss": 0.2887,
	"step": 530
	},
	{
	"epoch": 0.85680285600952,
	"grad_norm": 0.6852309107780457,
	"learning_rate": 4.4928312680573064e-05,
	"loss": 0.2862,
	"step": 540
	},
	{
	"epoch": 0.8726695755652519,
	"grad_norm": 0.7369856238365173,
	"learning_rate": 4.464613678998612e-05,
	"loss": 0.3386,
	"step": 550
	},
	{
	"epoch": 0.8885362951209838,
	"grad_norm": 0.6538604497909546,
	"learning_rate": 4.435725964760331e-05,
	"loss": 0.3225,
	"step": 560
	},
	{
	"epoch": 0.9044030146767156,
	"grad_norm": 0.8635338544845581,
	"learning_rate": 4.406177978874941e-05,
	"loss": 0.3328,
	"step": 570
	},
	{
	"epoch": 0.9202697342324474,
	"grad_norm": 0.9363442063331604,
	"learning_rate": 4.3759798000920496e-05,
	"loss": 0.3315,
	"step": 580
	},
	{
	"epoch": 0.9361364537881793,
	"grad_norm": 0.7191005349159241,
	"learning_rate": 4.3451417289405586e-05,
	"loss": 0.271,
	"step": 590
	},
	{
	"epoch": 0.9520031733439112,
	"grad_norm": 0.7281237244606018,
	"learning_rate": 4.313674284215176e-05,
	"loss": 0.2945,
	"step": 600
	},
	{
	"epoch": 0.9520031733439112,
	"eval_loss": 0.3320656418800354,
	"eval_runtime": 93.5162,
	"eval_samples_per_second": 5.999,
	"eval_steps_per_second": 5.999,
	"step": 600
	},
	{
	"epoch": 0.967869892899643,
	"grad_norm": 0.6777219176292419,
	"learning_rate": 4.281588199388476e-05,
	"loss": 0.2844,
	"step": 610
	},
	{
	"epoch": 0.9837366124553748,
	"grad_norm": 0.7066994905471802,
	"learning_rate": 4.248894418949746e-05,
	"loss": 0.3348,
	"step": 620
	},
	{
	"epoch": 0.9996033320111067,
	"grad_norm": 0.5948446989059448,
	"learning_rate": 4.215604094671835e-05,
	"loss": 0.2532,
	"step": 630
	},
	{
	"epoch": 1.0154700515668384,
	"grad_norm": 0.8124284744262695,
	"learning_rate": 4.181728581807316e-05,
	"loss": 0.3068,
	"step": 640
	},
	{
	"epoch": 1.0313367711225705,
	"grad_norm": 0.6020251512527466,
	"learning_rate": 4.1472794352152366e-05,
	"loss": 0.2912,
	"step": 650
	},
	{
	"epoch": 1.0472034906783023,
	"grad_norm": 0.9106693863868713,
	"learning_rate": 4.112268405419782e-05,
	"loss": 0.2739,
	"step": 660
	},
	{
	"epoch": 1.0630702102340341,
	"grad_norm": 0.9437083005905151,
	"learning_rate": 4.076707434602194e-05,
	"loss": 0.2563,
	"step": 670
	},
	{
	"epoch": 1.078936929789766,
	"grad_norm": 0.7824203968048096,
	"learning_rate": 4.040608652527328e-05,
	"loss": 0.2898,
	"step": 680
	},
	{
	"epoch": 1.0948036493454978,
	"grad_norm": 0.8340286612510681,
	"learning_rate": 4.003984372406212e-05,
	"loss": 0.2665,
	"step": 690
	},
	{
	"epoch": 1.1106703689012296,
	"grad_norm": 0.7771459817886353,
	"learning_rate": 3.966847086696045e-05,
	"loss": 0.2711,
	"step": 700
	},
	{
	"epoch": 1.1265370884569614,
	"grad_norm": 0.6131294369697571,
	"learning_rate": 3.929209462839041e-05,
	"loss": 0.2825,
	"step": 710
	},
	{
	"epoch": 1.1424038080126935,
	"grad_norm": 0.8090108633041382,
	"learning_rate": 3.891084338941603e-05,
	"loss": 0.2725,
	"step": 720
	},
	{
	"epoch": 1.1582705275684253,
	"grad_norm": 0.6462133526802063,
	"learning_rate": 3.852484719395264e-05,
	"loss": 0.2406,
	"step": 730
	},
	{
	"epoch": 1.1741372471241571,
	"grad_norm": 0.7676876783370972,
	"learning_rate": 3.8134237704409295e-05,
	"loss": 0.2648,
	"step": 740
	},
	{
	"epoch": 1.190003966679889,
	"grad_norm": 0.8399226665496826,
	"learning_rate": 3.773914815677897e-05,
	"loss": 0.2693,
	"step": 750
	},
	{
	"epoch": 1.2058706862356208,
	"grad_norm": 0.7439931631088257,
	"learning_rate": 3.733971331519206e-05,
	"loss": 0.2602,
	"step": 760
	},
	{
	"epoch": 1.2217374057913526,
	"grad_norm": 0.7992270588874817,
	"learning_rate": 3.693606942594873e-05,
	"loss": 0.2647,
	"step": 770
	},
	{
	"epoch": 1.2376041253470844,
	"grad_norm": 0.8335320949554443,
	"learning_rate": 3.65283541710455e-05,
	"loss": 0.2723,
	"step": 780
	},
	{
	"epoch": 1.2534708449028162,
	"grad_norm": 0.813829779624939,
	"learning_rate": 3.611670662121234e-05,
	"loss": 0.2285,
	"step": 790
	},
	{
	"epoch": 1.269337564458548,
	"grad_norm": 1.047428846359253,
	"learning_rate": 3.570126718847589e-05,
	"loss": 0.2788,
	"step": 800
	},
	{
	"epoch": 1.28520428401428,
	"grad_norm": 1.1291059255599976,
	"learning_rate": 3.5282177578265296e-05,
	"loss": 0.3008,
	"step": 810
	},
	{
	"epoch": 1.301071003570012,
	"grad_norm": 0.6732133626937866,
	"learning_rate": 3.485958074107677e-05,
	"loss": 0.2446,
	"step": 820
	},
	{
	"epoch": 1.3169377231257438,
	"grad_norm": 0.8102436065673828,
	"learning_rate": 3.4433620823713564e-05,
	"loss": 0.2646,
	"step": 830
	},
	{
	"epoch": 1.3328044426814756,
	"grad_norm": 0.8745511770248413,
	"learning_rate": 3.400444312011776e-05,
	"loss": 0.2606,
	"step": 840
	},
	{
	"epoch": 1.3486711622372074,
	"grad_norm": 0.8574343323707581,
	"learning_rate": 3.3572194021810896e-05,
	"loss": 0.2294,
	"step": 850
	},
	{
	"epoch": 1.3645378817929394,
	"grad_norm": 0.9338182806968689,
	"learning_rate": 3.3137020967960154e-05,
	"loss": 0.2551,
	"step": 860
	},
	{
	"epoch": 1.3804046013486713,
	"grad_norm": 0.7893859148025513,
	"learning_rate": 3.269907239508714e-05,
	"loss": 0.231,
	"step": 870
	},
	{
	"epoch": 1.396271320904403,
	"grad_norm": 0.9416842460632324,
	"learning_rate": 3.2258497686436606e-05,
	"loss": 0.2528,
	"step": 880
	},
	{
	"epoch": 1.412138040460135,
	"grad_norm": 0.7524838447570801,
	"learning_rate": 3.181544712102216e-05,
	"loss": 0.2669,
	"step": 890
	},
	{
	"epoch": 1.4280047600158667,
	"grad_norm": 0.9508939981460571,
	"learning_rate": 3.137007182236637e-05,
	"loss": 0.2436,
	"step": 900
	},
	{
	"epoch": 1.4280047600158667,
	"eval_loss": 0.31376519799232483,
	"eval_runtime": 93.4332,
	"eval_samples_per_second": 6.004,
	"eval_steps_per_second": 6.004,
	"step": 900
	},
	{
	"epoch": 1.4438714795715986,
	"grad_norm": 1.3880516290664673,
	"learning_rate": 3.092252370695298e-05,
	"loss": 0.2781,
	"step": 910
	},
	{
	"epoch": 1.4597381991273304,
	"grad_norm": 0.7659589648246765,
	"learning_rate": 3.0472955432408485e-05,
	"loss": 0.294,
	"step": 920
	},
	{
	"epoch": 1.4756049186830622,
	"grad_norm": 0.7849363088607788,
	"learning_rate": 3.002152034543098e-05,
	"loss": 0.2768,
	"step": 930
	},
	{
	"epoch": 1.491471638238794,
	"grad_norm": 0.666022777557373,
	"learning_rate": 2.9568372429483966e-05,
	"loss": 0.2526,
	"step": 940
	},
	{
	"epoch": 1.5073383577945259,
	"grad_norm": 0.9934321641921997,
	"learning_rate": 2.9113666252272943e-05,
	"loss": 0.2524,
	"step": 950
	},
	{
	"epoch": 1.5232050773502577,
	"grad_norm": 0.8849703073501587,
	"learning_rate": 2.865755691302272e-05,
	"loss": 0.2905,
	"step": 960
	},
	{
	"epoch": 1.5390717969059897,
	"grad_norm": 0.7805452942848206,
	"learning_rate": 2.8200199989573432e-05,
	"loss": 0.242,
	"step": 970
	},
	{
	"epoch": 1.5549385164617215,
	"grad_norm": 0.9101535081863403,
	"learning_rate": 2.7741751485313296e-05,
	"loss": 0.2178,
	"step": 980
	},
	{
	"epoch": 1.5708052360174534,
	"grad_norm": 1.0016871690750122,
	"learning_rate": 2.728236777596621e-05,
	"loss": 0.2738,
	"step": 990
	},
	{
	"epoch": 1.5866719555731852,
	"grad_norm": 0.7558535933494568,
	"learning_rate": 2.6822205556252383e-05,
	"loss": 0.2363,
	"step": 1000
	},
	{
	"epoch": 1.6025386751289172,
	"grad_norm": 0.886492908000946,
	"learning_rate": 2.636142178644009e-05,
	"loss": 0.2645,
	"step": 1010
	},
	{
	"epoch": 1.618405394684649,
	"grad_norm": 0.9074681997299194,
	"learning_rate": 2.590017363880691e-05,
	"loss": 0.2616,
	"step": 1020
	},
	{
	"epoch": 1.6342721142403809,
	"grad_norm": 0.7710486054420471,
	"learning_rate": 2.5438618444028627e-05,
	"loss": 0.2776,
	"step": 1030
	},
	{
	"epoch": 1.6501388337961127,
	"grad_norm": 0.5658883452415466,
	"learning_rate": 2.4976913637514103e-05,
	"loss": 0.2259,
	"step": 1040
	},
	{
	"epoch": 1.6660055533518445,
	"grad_norm": 0.871059000492096,
	"learning_rate": 2.4515216705704395e-05,
	"loss": 0.2106,
	"step": 1050
	},
	{
	"epoch": 1.6818722729075763,
	"grad_norm": 0.6641427874565125,
	"learning_rate": 2.405368513235453e-05,
	"loss": 0.2242,
	"step": 1060
	},
	{
	"epoch": 1.6977389924633082,
	"grad_norm": 0.8793797492980957,
	"learning_rate": 2.359247634481615e-05,
	"loss": 0.2555,
	"step": 1070
	},
	{
	"epoch": 1.71360571201904,
	"grad_norm": 0.9106749296188354,
	"learning_rate": 2.3131747660339394e-05,
	"loss": 0.2903,
	"step": 1080
	},
	{
	"epoch": 1.7294724315747718,
	"grad_norm": 0.8714670538902283,
	"learning_rate": 2.2671656232412378e-05,
	"loss": 0.2885,
	"step": 1090
	},
	{
	"epoch": 1.7453391511305036,
	"grad_norm": 0.7964282631874084,
	"learning_rate": 2.2212358997156445e-05,
	"loss": 0.2579,
	"step": 1100
	},
	{
	"epoch": 1.7612058706862355,
	"grad_norm": 0.855613648891449,
	"learning_rate": 2.175401261979569e-05,
	"loss": 0.2926,
	"step": 1110
	},
	{
	"epoch": 1.7770725902419675,
	"grad_norm": 0.8496893048286438,
	"learning_rate": 2.1296773441218787e-05,
	"loss": 0.2404,
	"step": 1120
	},
	{
	"epoch": 1.7929393097976993,
	"grad_norm": 0.7642855644226074,
	"learning_rate": 2.084079742465142e-05,
	"loss": 0.2471,
	"step": 1130
	},
	{
	"epoch": 1.8088060293534312,
	"grad_norm": 0.8110942244529724,
	"learning_rate": 2.0386240102457682e-05,
	"loss": 0.236,
	"step": 1140
	},
	{
	"epoch": 1.824672748909163,
	"grad_norm": 0.9976955056190491,
	"learning_rate": 1.993325652308828e-05,
	"loss": 0.2609,
	"step": 1150
	},
	{
	"epoch": 1.840539468464895,
	"grad_norm": 0.8436864614486694,
	"learning_rate": 1.9482001198193882e-05,
	"loss": 0.2771,
	"step": 1160
	},
	{
	"epoch": 1.8564061880206268,
	"grad_norm": 0.8823544979095459,
	"learning_rate": 1.903262804992156e-05,
	"loss": 0.2399,
	"step": 1170
	},
	{
	"epoch": 1.8722729075763587,
	"grad_norm": 0.6062878370285034,
	"learning_rate": 1.8585290358412297e-05,
	"loss": 0.2344,
	"step": 1180
	},
	{
	"epoch": 1.8881396271320905,
	"grad_norm": 0.7493007183074951,
	"learning_rate": 1.8140140709517465e-05,
	"loss": 0.2311,
	"step": 1190
	},
	{
	"epoch": 1.9040063466878223,
	"grad_norm": 0.8461095094680786,
	"learning_rate": 1.7697330942752193e-05,
	"loss": 0.2414,
	"step": 1200
	},
	{
	"epoch": 1.9040063466878223,
	"eval_loss": 0.3031667470932007,
	"eval_runtime": 93.4886,
	"eval_samples_per_second": 6.001,
	"eval_steps_per_second": 6.001,
	"step": 1200
	}
	],
	"logging_steps": 10,
	"max_steps": 1890,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 300,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 2.7498295064425267e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}