Model save

Browse files

Files changed (5) hide show

README.md +12 -0
last-safe/adapter_config.json +4 -4
last-safe/adapter_model.safetensors +1 -1
last-safe/training_args.bin +1 -1
trainer_state.json +70 -40

README.md CHANGED Viewed

@@ -19,6 +19,8 @@ should probably proofread and complete it, then remove this comment. -->
 # peft-FT-3-Coder-30b-v3
 This model is a fine-tuned version of [Qwen/Qwen3-Coder-30B-A3B-Instruct](https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct) on an unknown dataset.
 ## Model description
@@ -48,6 +50,16 @@ The following hyperparameters were used during training:
 - lr_scheduler_warmup_ratio: 0.03
 - num_epochs: 50
 ### Framework versions
 - PEFT 0.17.1

 # peft-FT-3-Coder-30b-v3
 This model is a fine-tuned version of [Qwen/Qwen3-Coder-30B-A3B-Instruct](https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.9121
 ## Model description
 - lr_scheduler_warmup_ratio: 0.03
 - num_epochs: 50
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.2459        | 1.0   | 17   | 0.9617          |
+| 1.0765        | 2.0   | 34   | 0.9121          |
+| 0.9091        | 3.0   | 51   | 0.9169          |
+| 0.7589        | 4.0   | 68   | 0.9652          |
 ### Framework versions
 - PEFT 0.17.1

last-safe/adapter_config.json CHANGED Viewed

@@ -25,13 +25,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "q_proj",
     "k_proj",
-    "gate_proj",
     "o_proj",
-    "down_proj",
     "v_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "o_proj",
     "v_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
+    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

last-safe/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:106f2c55e50fb8b1cbcd52189885508176ef0d18f73323063c0296cadfd5aa85
 size 6756146760

 version https://git-lfs.github.com/spec/v1
+oid sha256:feddc2c23de8a03c6d38a89152f26e42c364ac9ebd9feddc66a7f0212ba6ebd0
 size 6756146760

last-safe/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:525f1a31fc7f27fd930256437281dfb9869ada339fbe21fde73c2f24f6f63a7f
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef586e78539c2ff855f0baac009025c954bd21bc17a508c1f4af3b04d25ef000
 size 5841

trainer_state.json CHANGED Viewed

@@ -1,67 +1,97 @@
 {
-  "best_global_step": 2,
-  "best_metric": 0.8807690143585205,
-  "best_model_checkpoint": "j05hr3d/peft-FT-3-Coder-30b-v3/checkpoint-2",
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 2,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.6223463416099548,
-      "learning_rate": 0.0,
-      "loss": 1.0148,
-      "step": 1
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.9129095077514648,
-      "eval_runtime": 29.8023,
-      "eval_samples_per_second": 0.034,
-      "eval_steps_per_second": 0.034,
-      "step": 1
     },
     {
       "epoch": 2.0,
-      "grad_norm": 0.6234502792358398,
-      "learning_rate": 0.0002,
-      "loss": 1.0148,
-      "step": 2
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.8807690143585205,
-      "eval_runtime": 30.6922,
-      "eval_samples_per_second": 0.033,
       "eval_steps_per_second": 0.033,
-      "step": 2
     },
     {
-      "epoch": 2.0,
-      "step": 2,
-      "total_flos": 3136747022057472.0,
-      "train_loss": 1.0148184299468994,
-      "train_runtime": 447.58,
-      "train_samples_per_second": 0.009,
-      "train_steps_per_second": 0.004,
-      "train_tokens_per_second": 73.211
     },
     {
-      "epoch": 2.0,
-      "eval_loss": 0.8807690143585205,
-      "eval_runtime": 28.95,
-      "eval_samples_per_second": 0.035,
-      "eval_steps_per_second": 0.035,
-      "step": 2
     }
   ],
   "logging_steps": 500,
-  "max_steps": 2,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
@@ -70,7 +100,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {
@@ -84,7 +114,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3136747022057472.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 34,
+  "best_metric": 0.9121109843254089,
+  "best_model_checkpoint": "j05hr3d/peft-FT-3-Coder-30b-v3/checkpoint-34",
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 68,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 0.23255139589309692,
+      "learning_rate": 0.0001230769230769231,
+      "loss": 1.2459,
+      "step": 17
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.961699366569519,
+      "eval_runtime": 422.4574,
+      "eval_samples_per_second": 0.066,
+      "eval_steps_per_second": 0.033,
+      "step": 17
     },
     {
       "epoch": 2.0,
+      "grad_norm": 0.23437675833702087,
+      "learning_rate": 0.00019996438888035526,
+      "loss": 1.0765,
+      "step": 34
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.9121109843254089,
+      "eval_runtime": 430.4734,
+      "eval_samples_per_second": 0.065,
       "eval_steps_per_second": 0.033,
+      "step": 34
     },
     {
+      "epoch": 3.0,
+      "grad_norm": 0.3530833423137665,
+      "learning_rate": 0.00019958165482066094,
+      "loss": 0.9091,
+      "step": 51
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 0.9168945550918579,
+      "eval_runtime": 427.7165,
+      "eval_samples_per_second": 0.065,
+      "eval_steps_per_second": 0.033,
+      "step": 51
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.28440147638320923,
+      "learning_rate": 0.00019878073382401747,
+      "loss": 0.7589,
+      "step": 68
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.9651843309402466,
+      "eval_runtime": 430.4112,
+      "eval_samples_per_second": 0.065,
+      "eval_steps_per_second": 0.033,
+      "step": 68
+    },
+    {
+      "epoch": 4.0,
+      "step": 68,
+      "total_flos": 8.155542257349427e+17,
+      "train_loss": 0.9975923650404986,
+      "train_runtime": 31504.9224,
+      "train_samples_per_second": 0.413,
+      "train_steps_per_second": 0.027,
+      "train_tokens_per_second": 3380.297
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.9121109843254089,
+      "eval_runtime": 425.4825,
+      "eval_samples_per_second": 0.066,
+      "eval_steps_per_second": 0.033,
+      "step": 68
     }
   ],
   "logging_steps": 500,
+  "max_steps": 850,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 50,
   "save_steps": 500,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 2
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 8.155542257349427e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null