Model save

Browse files

Files changed (3) hide show

README.md +11 -10
adapter_model.safetensors +1 -1
trainer_state.json +116 -101

README.md CHANGED Viewed

@@ -19,7 +19,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7595
 ## Model description
@@ -53,15 +53,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 0.8984        | 0.3361 | 20   | 0.8835          |
-| 0.8801        | 0.6723 | 40   | 0.8205          |
-| 0.7978        | 1.0    | 60   | 0.7939          |
-| 0.7223        | 1.3361 | 80   | 0.7812          |
-| 0.7371        | 1.6723 | 100  | 0.7724          |
-| 0.6279        | 2.0    | 120  | 0.7595          |
-| 0.5718        | 2.3361 | 140  | 0.7720          |
-| 0.5764        | 2.6723 | 160  | 0.7730          |
-| 0.5958        | 3.0    | 180  | 0.7697          |
 ### Framework versions

 This model is a fine-tuned version of [Qwen/Qwen2.5-Coder-7B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Coder-7B-Instruct) on the None dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8553
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 0.9584        | 0.2974 | 20   | 0.9885          |
+| 0.8218        | 0.5948 | 40   | 0.9364          |
+| 0.7618        | 0.8922 | 60   | 0.9027          |
+| 0.6981        | 1.1784 | 80   | 0.8842          |
+| 0.7566        | 1.4758 | 100  | 0.8678          |
+| 0.6459        | 1.7732 | 120  | 0.8576          |
+| 0.6026        | 2.0595 | 140  | 0.8553          |
+| 0.6211        | 2.3569 | 160  | 0.8604          |
+| 0.4883        | 2.6543 | 180  | 0.8642          |
+| 0.5752        | 2.9517 | 200  | 0.8622          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80d5fc62d3c85e08b599cc189cf02a4b46700a939b122459f92d43dde1d94652
 size 323014168

 version https://git-lfs.github.com/spec/v1
+oid sha256:5848642e6ab97926e3049fd764b2faf34d7700eeb44b0b98b684add03fb39355
 size 323014168

trainer_state.json CHANGED Viewed

@@ -1,169 +1,184 @@
 {
-  "best_global_step": 120,
-  "best_metric": 0.7594600915908813,
-  "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-7B_v1/checkpoint-120",
-  "epoch": 3.0,
   "eval_steps": 20,
-  "global_step": 180,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.33613445378151263,
-      "grad_norm": 0.4482860267162323,
-      "learning_rate": 9.252873563218392e-05,
-      "loss": 0.8984,
       "step": 20
     },
     {
-      "epoch": 0.33613445378151263,
-      "eval_loss": 0.8834584355354309,
-      "eval_runtime": 16.2682,
-      "eval_samples_per_second": 3.381,
-      "eval_steps_per_second": 0.43,
       "step": 20
     },
     {
-      "epoch": 0.6722689075630253,
-      "grad_norm": 0.31251004338264465,
-      "learning_rate": 8.103448275862069e-05,
-      "loss": 0.8801,
       "step": 40
     },
     {
-      "epoch": 0.6722689075630253,
-      "eval_loss": 0.8205494284629822,
-      "eval_runtime": 14.3181,
-      "eval_samples_per_second": 3.841,
-      "eval_steps_per_second": 0.489,
       "step": 40
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.3656582236289978,
-      "learning_rate": 6.954022988505747e-05,
-      "loss": 0.7978,
       "step": 60
     },
     {
-      "epoch": 1.0,
-      "eval_loss": 0.7939355969429016,
-      "eval_runtime": 14.3226,
-      "eval_samples_per_second": 3.84,
-      "eval_steps_per_second": 0.489,
       "step": 60
     },
     {
-      "epoch": 1.3361344537815127,
-      "grad_norm": 0.5589117407798767,
-      "learning_rate": 5.8045977011494254e-05,
-      "loss": 0.7223,
       "step": 80
     },
     {
-      "epoch": 1.3361344537815127,
-      "eval_loss": 0.7812108993530273,
-      "eval_runtime": 14.3201,
-      "eval_samples_per_second": 3.841,
-      "eval_steps_per_second": 0.489,
       "step": 80
     },
     {
-      "epoch": 1.6722689075630253,
-      "grad_norm": 0.5989664793014526,
-      "learning_rate": 4.655172413793104e-05,
-      "loss": 0.7371,
       "step": 100
     },
     {
-      "epoch": 1.6722689075630253,
-      "eval_loss": 0.7724329233169556,
-      "eval_runtime": 14.3105,
-      "eval_samples_per_second": 3.843,
-      "eval_steps_per_second": 0.489,
       "step": 100
     },
     {
-      "epoch": 2.0,
-      "grad_norm": 1.47295343875885,
-      "learning_rate": 3.505747126436782e-05,
-      "loss": 0.6279,
       "step": 120
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.7594600915908813,
-      "eval_runtime": 14.3138,
-      "eval_samples_per_second": 3.842,
-      "eval_steps_per_second": 0.489,
       "step": 120
     },
     {
-      "epoch": 2.3361344537815127,
-      "grad_norm": 0.5978106260299683,
-      "learning_rate": 2.3563218390804597e-05,
-      "loss": 0.5718,
       "step": 140
     },
     {
-      "epoch": 2.3361344537815127,
-      "eval_loss": 0.7720052599906921,
-      "eval_runtime": 14.3148,
-      "eval_samples_per_second": 3.842,
-      "eval_steps_per_second": 0.489,
       "step": 140
     },
     {
-      "epoch": 2.6722689075630255,
-      "grad_norm": 0.5382282137870789,
-      "learning_rate": 1.206896551724138e-05,
-      "loss": 0.5764,
       "step": 160
     },
     {
-      "epoch": 2.6722689075630255,
-      "eval_loss": 0.772979736328125,
-      "eval_runtime": 14.3279,
-      "eval_samples_per_second": 3.839,
-      "eval_steps_per_second": 0.489,
       "step": 160
     },
     {
-      "epoch": 3.0,
-      "grad_norm": 0.9302071332931519,
-      "learning_rate": 5.747126436781609e-07,
-      "loss": 0.5958,
       "step": 180
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.7697007656097412,
-      "eval_runtime": 14.3234,
-      "eval_samples_per_second": 3.84,
-      "eval_steps_per_second": 0.489,
       "step": 180
     },
     {
-      "epoch": 3.0,
-      "step": 180,
-      "total_flos": 7.62172871614802e+16,
-      "train_loss": 0.7119400660196941,
-      "train_runtime": 1075.5336,
-      "train_samples_per_second": 1.325,
-      "train_steps_per_second": 0.167
     },
     {
-      "epoch": 3.0,
-      "eval_loss": 0.7594600915908813,
-      "eval_runtime": 14.2724,
-      "eval_samples_per_second": 3.854,
-      "eval_steps_per_second": 0.49,
-      "step": 180
     }
   ],
   "logging_steps": 20,
-  "max_steps": 180,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 20,
@@ -188,7 +203,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.62172871614802e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 140,
+  "best_metric": 0.8553072810173035,
+  "best_model_checkpoint": "j05hr3d/SFT-Qwen2.5-Coder-7B_v1/checkpoint-140",
+  "epoch": 2.9516728624535316,
   "eval_steps": 20,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.29739776951672864,
+      "grad_norm": 0.3168877959251404,
+      "learning_rate": 9.390862944162437e-05,
+      "loss": 0.9584,
       "step": 20
     },
     {
+      "epoch": 0.29739776951672864,
+      "eval_loss": 0.9884762167930603,
+      "eval_runtime": 21.8941,
+      "eval_samples_per_second": 2.649,
+      "eval_steps_per_second": 0.365,
       "step": 20
     },
     {
+      "epoch": 0.5947955390334573,
+      "grad_norm": 0.43252885341644287,
+      "learning_rate": 8.375634517766498e-05,
+      "loss": 0.8218,
       "step": 40
     },
     {
+      "epoch": 0.5947955390334573,
+      "eval_loss": 0.9363918900489807,
+      "eval_runtime": 19.8022,
+      "eval_samples_per_second": 2.929,
+      "eval_steps_per_second": 0.404,
       "step": 40
     },
     {
+      "epoch": 0.8921933085501859,
+      "grad_norm": 0.420043021440506,
+      "learning_rate": 7.360406091370558e-05,
+      "loss": 0.7618,
       "step": 60
     },
     {
+      "epoch": 0.8921933085501859,
+      "eval_loss": 0.9027390480041504,
+      "eval_runtime": 19.7842,
+      "eval_samples_per_second": 2.932,
+      "eval_steps_per_second": 0.404,
       "step": 60
     },
     {
+      "epoch": 1.178438661710037,
+      "grad_norm": 0.5402843356132507,
+      "learning_rate": 6.34517766497462e-05,
+      "loss": 0.6981,
       "step": 80
     },
     {
+      "epoch": 1.178438661710037,
+      "eval_loss": 0.884242594242096,
+      "eval_runtime": 19.8075,
+      "eval_samples_per_second": 2.928,
+      "eval_steps_per_second": 0.404,
       "step": 80
     },
     {
+      "epoch": 1.4758364312267658,
+      "grad_norm": 0.4523223042488098,
+      "learning_rate": 5.329949238578681e-05,
+      "loss": 0.7566,
       "step": 100
     },
     {
+      "epoch": 1.4758364312267658,
+      "eval_loss": 0.8677776455879211,
+      "eval_runtime": 19.7865,
+      "eval_samples_per_second": 2.931,
+      "eval_steps_per_second": 0.404,
       "step": 100
     },
     {
+      "epoch": 1.7732342007434945,
+      "grad_norm": 0.3251374065876007,
+      "learning_rate": 4.3147208121827415e-05,
+      "loss": 0.6459,
       "step": 120
     },
     {
+      "epoch": 1.7732342007434945,
+      "eval_loss": 0.857609212398529,
+      "eval_runtime": 19.8121,
+      "eval_samples_per_second": 2.927,
+      "eval_steps_per_second": 0.404,
       "step": 120
     },
     {
+      "epoch": 2.059479553903346,
+      "grad_norm": 0.491901695728302,
+      "learning_rate": 3.299492385786802e-05,
+      "loss": 0.6026,
       "step": 140
     },
     {
+      "epoch": 2.059479553903346,
+      "eval_loss": 0.8553072810173035,
+      "eval_runtime": 19.8082,
+      "eval_samples_per_second": 2.928,
+      "eval_steps_per_second": 0.404,
       "step": 140
     },
     {
+      "epoch": 2.356877323420074,
+      "grad_norm": 0.7482563257217407,
+      "learning_rate": 2.284263959390863e-05,
+      "loss": 0.6211,
       "step": 160
     },
     {
+      "epoch": 2.356877323420074,
+      "eval_loss": 0.8603928685188293,
+      "eval_runtime": 19.7923,
+      "eval_samples_per_second": 2.93,
+      "eval_steps_per_second": 0.404,
       "step": 160
     },
     {
+      "epoch": 2.654275092936803,
+      "grad_norm": 1.1968350410461426,
+      "learning_rate": 1.2690355329949238e-05,
+      "loss": 0.4883,
       "step": 180
     },
     {
+      "epoch": 2.654275092936803,
+      "eval_loss": 0.8641771674156189,
+      "eval_runtime": 19.7998,
+      "eval_samples_per_second": 2.929,
+      "eval_steps_per_second": 0.404,
       "step": 180
     },
     {
+      "epoch": 2.9516728624535316,
+      "grad_norm": 0.8442820310592651,
+      "learning_rate": 2.5380710659898476e-06,
+      "loss": 0.5752,
+      "step": 200
     },
     {
+      "epoch": 2.9516728624535316,
+      "eval_loss": 0.862239420413971,
+      "eval_runtime": 19.8149,
+      "eval_samples_per_second": 2.927,
+      "eval_steps_per_second": 0.404,
+      "step": 200
+    },
+    {
+      "epoch": 2.9516728624535316,
+      "step": 200,
+      "total_flos": 7.855857074425651e+16,
+      "train_loss": 0.6929673862457275,
+      "train_runtime": 1202.5527,
+      "train_samples_per_second": 1.34,
+      "train_steps_per_second": 0.17
+    },
+    {
+      "epoch": 2.9516728624535316,
+      "eval_loss": 0.8553072810173035,
+      "eval_runtime": 19.7428,
+      "eval_samples_per_second": 2.938,
+      "eval_steps_per_second": 0.405,
+      "step": 200
     }
   ],
   "logging_steps": 20,
+  "max_steps": 204,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 20,
       "attributes": {}
     }
   },
+  "total_flos": 7.855857074425651e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null