AFC18 commited on Apr 4, 2025

Commit

119c04f

verified ·

1 Parent(s): c3c2ce8

Training in progress, epoch 1

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

model.safetensors +1 -1
run-1/checkpoint-117/config.json +1 -1
run-1/checkpoint-117/model.safetensors +1 -1
run-1/checkpoint-117/optimizer.pt +1 -1
run-1/checkpoint-117/rng_state.pth +1 -1
run-1/checkpoint-117/scheduler.pt +1 -1
run-1/checkpoint-117/tokenizer.json +1 -1
run-1/checkpoint-117/trainer_state.json +25 -23
run-1/checkpoint-117/training_args.bin +1 -1
run-1/checkpoint-195/config.json +26 -0
run-1/checkpoint-195/model.safetensors +3 -0
run-1/checkpoint-195/optimizer.pt +3 -0
run-1/checkpoint-195/rng_state.pth +3 -0
run-1/checkpoint-195/scheduler.pt +3 -0
run-1/checkpoint-195/special_tokens_map.json +7 -0
run-1/checkpoint-195/tokenizer.json +0 -0
run-1/checkpoint-195/tokenizer_config.json +56 -0
run-1/checkpoint-195/trainer_state.json +85 -0
run-1/checkpoint-195/training_args.bin +3 -0
run-1/checkpoint-195/vocab.txt +0 -0
run-2/checkpoint-156/model.safetensors +1 -1
run-2/checkpoint-156/optimizer.pt +1 -1
run-2/checkpoint-156/rng_state.pth +1 -1
run-2/checkpoint-156/scheduler.pt +1 -1
run-2/checkpoint-156/trainer_state.json +40 -22
run-2/checkpoint-156/training_args.bin +1 -1
run-2/checkpoint-234/model.safetensors +1 -1
run-2/checkpoint-234/optimizer.pt +1 -1
run-2/checkpoint-234/rng_state.pth +1 -1
run-2/checkpoint-234/scheduler.pt +1 -1
run-2/checkpoint-234/trainer_state.json +54 -27
run-2/checkpoint-234/training_args.bin +1 -1
run-2/checkpoint-39/config.json +26 -0
run-2/checkpoint-39/model.safetensors +3 -0
run-2/checkpoint-39/optimizer.pt +3 -0
run-2/checkpoint-39/rng_state.pth +3 -0
run-2/checkpoint-39/scheduler.pt +3 -0
run-2/checkpoint-39/special_tokens_map.json +7 -0
run-2/checkpoint-39/tokenizer.json +0 -0
run-2/checkpoint-39/tokenizer_config.json +56 -0
run-2/checkpoint-39/trainer_state.json +49 -0
run-2/checkpoint-39/training_args.bin +3 -0
run-2/checkpoint-39/vocab.txt +0 -0
run-2/checkpoint-78/model.safetensors +1 -1
run-2/checkpoint-78/optimizer.pt +1 -1
run-2/checkpoint-78/rng_state.pth +1 -1
run-2/checkpoint-78/scheduler.pt +1 -1
run-2/checkpoint-78/trainer_state.json +25 -16
run-2/checkpoint-78/training_args.bin +1 -1
runs/Apr04_10-39-13_1dd95b0fb5db/events.out.tfevents.1743767817.1dd95b0fb5db.721.17 +3 -0

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c4d29624eb4bc5104f72c685279b3b747072bf76bc0761bdb3a87cf5a4a6e48
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a3551002cd97ae5ac72768268f15f7f61dcf0bb00ce5005de0cfead0cfffa32
 size 437958648

run-1/checkpoint-117/config.json CHANGED Viewed

@@ -19,7 +19,7 @@
   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
-  "transformers_version": "4.50.2",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

   "position_embedding_type": "absolute",
   "problem_type": "single_label_classification",
   "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
   "type_vocab_size": 2,
   "use_cache": true,
   "vocab_size": 30522

run-1/checkpoint-117/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eab838719961be522733263268f22e1b8cdef69fbfa0980835caeb8d4860ff50
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:f0c542fb54cd77b1a48cf4426319152d9695eab5018c8f360955bbc3ff375a40
 size 437958648

run-1/checkpoint-117/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07a3c84f176264d1ea58d9c9d8a08ff2e1ac28a00be43c4cf5bb2fe947c41346
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:c78d32505c6963313f19c45aba4a2b18f0a86a7573f344dd279073be1ce356b7
 size 876038394

run-1/checkpoint-117/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:66062f09fb79eb516b32f1e74227740c5dc9e0025a015b9853db13b00b33e723
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a854bb60cc44504f33711272c6027028a8ccc5870cf54e66028601013ddad3a3
 size 14244

run-1/checkpoint-117/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:30e0a42b1ba74cc53fa5d8f15e5ef1704b23382a7cd2abee4ef0b2ca81989032
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:364ecdd05db4cce8dd0277580e9e75f1cbfdf885a0616a72fb340e91b01963dc
 size 1064

run-1/checkpoint-117/tokenizer.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "version": "1.0",
   "truncation": {
     "direction": "Right",
-    "max_length": 512,
     "strategy": "LongestFirst",
     "stride": 0
   },

   "version": "1.0",
   "truncation": {
     "direction": "Right",
+    "max_length": 128,
     "strategy": "LongestFirst",
     "stride": 0
   },

run-1/checkpoint-117/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_global_step": 39,
-  "best_metric": 0.4729241877256318,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-39",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 117,
@@ -11,36 +11,36 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7212705016136169,
-      "eval_runtime": 3.1775,
-      "eval_samples_per_second": 87.176,
-      "eval_steps_per_second": 1.574,
       "step": 39
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7156851291656494,
-      "eval_runtime": 3.146,
-      "eval_samples_per_second": 88.048,
-      "eval_steps_per_second": 1.589,
       "step": 78
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.4729241877256318,
-      "eval_loss": 0.7141537666320801,
-      "eval_runtime": 3.1499,
-      "eval_samples_per_second": 87.939,
-      "eval_steps_per_second": 1.587,
       "step": 117
     }
   ],
   "logging_steps": 500,
-  "max_steps": 117,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -49,7 +49,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
@@ -58,8 +58,10 @@
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
-    "learning_rate": 1.2114027952951794e-06,
-    "num_train_epochs": 3,
     "per_device_train_batch_size": 64
   }
 }

 {
+  "best_global_step": 117,
+  "best_metric": 0.5523465703971119,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-117",
   "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 117,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.706044614315033,
+      "eval_runtime": 0.4639,
+      "eval_samples_per_second": 597.143,
+      "eval_steps_per_second": 19.402,
       "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.49097472924187724,
+      "eval_loss": 0.6945765614509583,
+      "eval_runtime": 0.4687,
+      "eval_samples_per_second": 590.943,
+      "eval_steps_per_second": 19.2,
       "step": 78
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.5523465703971119,
+      "eval_loss": 0.6906130313873291,
+      "eval_runtime": 0.4658,
+      "eval_samples_per_second": 594.719,
+      "eval_steps_per_second": 19.323,
       "step": 117
     }
   ],
   "logging_steps": 500,
+  "max_steps": 195,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "dropout_prob": 0.20778273812921433,
+    "learning_rate": 3.515333807015852e-06,
+    "max_length": 256,
+    "num_train_epochs": 5,
     "per_device_train_batch_size": 64
   }
 }

run-1/checkpoint-117/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:302750b68727972dcbe14fb43f23212da4f88e457238b35e9ea2ca8ce0509ba6
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb1cfdcaf8e14241d4268160f78eaa80f0d29a8e659fb94f5c19c86af6252d90
 size 5432

run-1/checkpoint-195/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-1/checkpoint-195/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b017a477c99bcd6fd0a777ad10d7cc6fd913cd0dfde8568ee9dab785996a942
+size 437958648

run-1/checkpoint-195/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d480d087ab486867da03476465d10ebfd584ae11106b617d9a0016dd83fd515
+size 876038394

run-1/checkpoint-195/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc26893191325aeb615a62a0f44309e5ef81280fbe40b38b9212351660c136e2
+size 14244

run-1/checkpoint-195/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7750c6faef8816d2ff6cd6d062041566a28262c8048c659584f26787d31ff200
+size 1064

run-1/checkpoint-195/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-1/checkpoint-195/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-1/checkpoint-195/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-1/checkpoint-195/trainer_state.json ADDED Viewed

	@@ -0,0 +1,85 @@

+{
+  "best_global_step": 117,
+  "best_metric": 0.5523465703971119,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-1/checkpoint-117",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 195,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.706044614315033,
+      "eval_runtime": 0.4639,
+      "eval_samples_per_second": 597.143,
+      "eval_steps_per_second": 19.402,
+      "step": 39
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.49097472924187724,
+      "eval_loss": 0.6945765614509583,
+      "eval_runtime": 0.4687,
+      "eval_samples_per_second": 590.943,
+      "eval_steps_per_second": 19.2,
+      "step": 78
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.5523465703971119,
+      "eval_loss": 0.6906130313873291,
+      "eval_runtime": 0.4658,
+      "eval_samples_per_second": 594.719,
+      "eval_steps_per_second": 19.323,
+      "step": 117
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5342960288808665,
+      "eval_loss": 0.68788743019104,
+      "eval_runtime": 0.4641,
+      "eval_samples_per_second": 596.86,
+      "eval_steps_per_second": 19.393,
+      "step": 156
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5379061371841155,
+      "eval_loss": 0.687025249004364,
+      "eval_runtime": 0.4672,
+      "eval_samples_per_second": 592.939,
+      "eval_steps_per_second": 19.265,
+      "step": 195
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 195,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "dropout_prob": 0.20778273812921433,
+    "learning_rate": 3.515333807015852e-06,
+    "max_length": 256,
+    "num_train_epochs": 5,
+    "per_device_train_batch_size": 64
+  }
+}

run-1/checkpoint-195/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb1cfdcaf8e14241d4268160f78eaa80f0d29a8e659fb94f5c19c86af6252d90
+size 5432

run-1/checkpoint-195/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-156/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5811415c86428765482e0ca35cbd8c1839f0ebb0296345deaae6596c035f9562
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:615cda853c957cc356d1343bf40778b04ad43540947985117d8de6e34d28c97d
 size 437958648

run-2/checkpoint-156/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e94984817b85bcf06324fc55a6e43114bd37acd03174c7e65b8e0986962b1947
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:8db6747675ac1f5d9aee2800f5861dc7a912d02565276f30da0d5bb382e480af
 size 876038394

run-2/checkpoint-156/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf55ba021d2ab0b1c833e29f9931dd901a0d951d01051cb520710fec2f7666a1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:15549f3799cf74ee357d712ff53406cf0b295e726cea9f080ae653d2c5b8cef6
 size 14244

run-2/checkpoint-156/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efc2baf9d220dfbc9907dc3e349df9c8bf18f747ac601d70dfe9b4b8dfb15d2c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:883457167f52cb7c3228b638d853f4d5f9d983a7dd35e2923ef28b1279d46318
 size 1064

run-2/checkpoint-156/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_global_step": 78,
-  "best_metric": 0.5631768953068592,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-2/checkpoint-78",
-  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 156,
   "is_hyper_param_search": true,
@@ -11,27 +11,45 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5631768953068592,
-      "eval_loss": 0.6891621351242065,
-      "eval_runtime": 0.4678,
-      "eval_samples_per_second": 592.185,
-      "eval_steps_per_second": 19.241,
-      "step": 78
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.555956678700361,
-      "eval_loss": 0.6776625514030457,
-      "eval_runtime": 0.4659,
-      "eval_samples_per_second": 594.544,
-      "eval_steps_per_second": 19.317,
       "step": 156
     }
   ],
   "logging_steps": 500,
-  "max_steps": 546,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -46,13 +64,13 @@
     }
   },
   "total_flos": 0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "dropout_prob": 0.1,
-    "learning_rate": 8.463100927396904e-06,
     "max_length": 128,
-    "num_train_epochs": 7,
-    "per_device_train_batch_size": 32
   }
 }

 {
+  "best_global_step": 156,
+  "best_metric": 0.5018050541516246,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-2/checkpoint-156",
+  "epoch": 4.0,
   "eval_steps": 500,
   "global_step": 156,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.7133182287216187,
+      "eval_runtime": 0.4672,
+      "eval_samples_per_second": 592.885,
+      "eval_steps_per_second": 19.263,
+      "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.7017914652824402,
+      "eval_runtime": 0.463,
+      "eval_samples_per_second": 598.257,
+      "eval_steps_per_second": 19.438,
+      "step": 78
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.47653429602888087,
+      "eval_loss": 0.6969290971755981,
+      "eval_runtime": 0.464,
+      "eval_samples_per_second": 596.928,
+      "eval_steps_per_second": 19.395,
+      "step": 117
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5018050541516246,
+      "eval_loss": 0.6935175061225891,
+      "eval_runtime": 0.4658,
+      "eval_samples_per_second": 594.67,
+      "eval_steps_per_second": 19.321,
       "step": 156
     }
   ],
   "logging_steps": 500,
+  "max_steps": 234,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "dropout_prob": 0.36534271080237735,
+    "learning_rate": 2.206737845462528e-06,
     "max_length": 128,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 64
   }
 }

run-2/checkpoint-156/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e5603ef285bb9cd8b58d52a4735dd029af14c335395152f7a6192a7376a41be
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:28f74d7a00b4178899c1fef9aeee67c580c9b3b7c9a832bda216e355ce62eecc
 size 5432

run-2/checkpoint-234/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe47dc3c198143ff9f1683aa60666e0f276551bcf1c9a3e5477bc5641125cac5
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:032bff8235738f76592b3a4e46e3b26227d630f0ad08399bf8eee99d52d286fc
 size 437958648

run-2/checkpoint-234/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca9a52d1f12adfac480eff0bfcdda365482654561d87b760518a485b906cc2b2
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:aeed01496d6c8b4c3d89fae4c784fa95d128c74ac10adcf42cd6ec7a060e1893
 size 876038394

run-2/checkpoint-234/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d99f77297975f2151eb6303e1a631021acacf8da2aec44c1ba93649616a73fe7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e068ca9a1cec4ba6336d04a92452ac64a64a7834deefecb476ff0eb83d49f86
 size 14244

run-2/checkpoint-234/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c58e94248c26c4e67777e9166ade4788bc8e9e802e21bd830d8c31692fdce89
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:039255978a94b932a03837e0d4e5b6086828b2278eabe424b05485f94d7dadb8
 size 1064

run-2/checkpoint-234/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_global_step": 234,
-  "best_metric": 0.5992779783393501,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-2/checkpoint-234",
-  "epoch": 3.0,
   "eval_steps": 500,
   "global_step": 234,
   "is_hyper_param_search": true,
@@ -11,36 +11,63 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5631768953068592,
-      "eval_loss": 0.6891621351242065,
-      "eval_runtime": 0.4678,
-      "eval_samples_per_second": 592.185,
-      "eval_steps_per_second": 19.241,
-      "step": 78
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.555956678700361,
-      "eval_loss": 0.6776625514030457,
-      "eval_runtime": 0.4659,
-      "eval_samples_per_second": 594.544,
-      "eval_steps_per_second": 19.317,
-      "step": 156
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.5992779783393501,
-      "eval_loss": 0.6769568920135498,
-      "eval_runtime": 0.4634,
-      "eval_samples_per_second": 597.787,
-      "eval_steps_per_second": 19.423,
       "step": 234
     }
   ],
   "logging_steps": 500,
-  "max_steps": 546,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -49,19 +76,19 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
   "total_flos": 0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "dropout_prob": 0.1,
-    "learning_rate": 8.463100927396904e-06,
     "max_length": 128,
-    "num_train_epochs": 7,
-    "per_device_train_batch_size": 32
   }
 }

 {
   "best_global_step": 234,
+  "best_metric": 0.5306859205776173,
   "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-2/checkpoint-234",
+  "epoch": 6.0,
   "eval_steps": 500,
   "global_step": 234,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.7133182287216187,
+      "eval_runtime": 0.4672,
+      "eval_samples_per_second": 592.885,
+      "eval_steps_per_second": 19.263,
+      "step": 39
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.7017914652824402,
+      "eval_runtime": 0.463,
+      "eval_samples_per_second": 598.257,
+      "eval_steps_per_second": 19.438,
+      "step": 78
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.47653429602888087,
+      "eval_loss": 0.6969290971755981,
+      "eval_runtime": 0.464,
+      "eval_samples_per_second": 596.928,
+      "eval_steps_per_second": 19.395,
+      "step": 117
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.5018050541516246,
+      "eval_loss": 0.6935175061225891,
+      "eval_runtime": 0.4658,
+      "eval_samples_per_second": 594.67,
+      "eval_steps_per_second": 19.321,
+      "step": 156
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.5054151624548736,
+      "eval_loss": 0.6918449401855469,
+      "eval_runtime": 0.4642,
+      "eval_samples_per_second": 596.768,
+      "eval_steps_per_second": 19.39,
+      "step": 195
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.5306859205776173,
+      "eval_loss": 0.6912593841552734,
+      "eval_runtime": 0.4665,
+      "eval_samples_per_second": 593.73,
+      "eval_steps_per_second": 19.291,
       "step": 234
     }
   ],
   "logging_steps": 500,
+  "max_steps": 234,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
   "total_flos": 0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "dropout_prob": 0.36534271080237735,
+    "learning_rate": 2.206737845462528e-06,
     "max_length": 128,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 64
   }
 }

run-2/checkpoint-234/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e5603ef285bb9cd8b58d52a4735dd029af14c335395152f7a6192a7376a41be
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:28f74d7a00b4178899c1fef9aeee67c580c9b3b7c9a832bda216e355ce62eecc
 size 5432

run-2/checkpoint-39/config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.50.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

run-2/checkpoint-39/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4a3551002cd97ae5ac72768268f15f7f61dcf0bb00ce5005de0cfead0cfffa32
+size 437958648

run-2/checkpoint-39/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18df542f7ef119e3bbb3de4d008d3ba8c24a8403a0ef2a338b03d284e18ac862
+size 876038394

run-2/checkpoint-39/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:033b7547d54be169bcdf3d364106c67eb24ca2e8b201668408672b1942d82647
+size 14244

run-2/checkpoint-39/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:441b2ebfd9920edd19ce88286227a6a79ac65554b7e07baa3483b52a8393f7b5
+size 1064

run-2/checkpoint-39/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-39/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-39/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

run-2/checkpoint-39/trainer_state.json ADDED Viewed

	@@ -0,0 +1,49 @@

+{
+  "best_global_step": 39,
+  "best_metric": 0.4693140794223827,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-2/checkpoint-39",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 39,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.7133182287216187,
+      "eval_runtime": 0.4672,
+      "eval_samples_per_second": 592.885,
+      "eval_steps_per_second": 19.263,
+      "step": 39
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 234,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "dropout_prob": 0.36534271080237735,
+    "learning_rate": 2.206737845462528e-06,
+    "max_length": 128,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 64
+  }
+}

run-2/checkpoint-39/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:28f74d7a00b4178899c1fef9aeee67c580c9b3b7c9a832bda216e355ce62eecc
+size 5432

run-2/checkpoint-39/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

run-2/checkpoint-78/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9679922d49b4556b91ee71ab354518539dd0bf8b47eefa5a655ed14e7be01658
 size 437958648

 version https://git-lfs.github.com/spec/v1
+oid sha256:42d7f045f2fc7edc2ea37b0312380fae0848fdfce1e195d1116dfc98b1aa4a3a
 size 437958648

run-2/checkpoint-78/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f858b221b50c9d0ae5e9622fdf899753588ec254eddd2118140ee64d4754e72
 size 876038394

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ad9edacbeff34640effe9dad2d8ff86c358b4995f29c64ad57e23ba70a2c496
 size 876038394

run-2/checkpoint-78/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0e5c1d5edfbfbd695d47353a9db04635dc4286ecdf9c16c3ae3bf1f3a8a859b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:8eee87e35b5206ef07ce84c546ce62002f35f9235a02539a67a01c1c573b4c3d
 size 14244

run-2/checkpoint-78/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fe1b2dd9bc900d887ecc41de8e547ef1383a1885f0228b72e8bb55f8392b079
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:1ba9d5dadffcea11c314fbd480b03a821204d92bae7b535cb1e5f1bb85e624ae
 size 1064

run-2/checkpoint-78/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_global_step": 78,
-  "best_metric": 0.5631768953068592,
-  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-2/checkpoint-78",
-  "epoch": 1.0,
   "eval_steps": 500,
   "global_step": 78,
   "is_hyper_param_search": true,
@@ -11,18 +11,27 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5631768953068592,
-      "eval_loss": 0.6891621351242065,
-      "eval_runtime": 0.4678,
-      "eval_samples_per_second": 592.185,
-      "eval_steps_per_second": 19.241,
       "step": 78
     }
   ],
   "logging_steps": 500,
-  "max_steps": 546,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 7,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -37,13 +46,13 @@
     }
   },
   "total_flos": 0,
-  "train_batch_size": 32,
   "trial_name": null,
   "trial_params": {
-    "dropout_prob": 0.1,
-    "learning_rate": 8.463100927396904e-06,
     "max_length": 128,
-    "num_train_epochs": 7,
-    "per_device_train_batch_size": 32
   }
 }

 {
+  "best_global_step": 39,
+  "best_metric": 0.4693140794223827,
+  "best_model_checkpoint": "bert-base-uncased-finetuned-rte-run_3/run-2/checkpoint-39",
+  "epoch": 2.0,
   "eval_steps": 500,
   "global_step": 78,
   "is_hyper_param_search": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.7133182287216187,
+      "eval_runtime": 0.4672,
+      "eval_samples_per_second": 592.885,
+      "eval_steps_per_second": 19.263,
+      "step": 39
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.4693140794223827,
+      "eval_loss": 0.7017914652824402,
+      "eval_runtime": 0.463,
+      "eval_samples_per_second": 598.257,
+      "eval_steps_per_second": 19.438,
       "step": 78
     }
   ],
   "logging_steps": 500,
+  "max_steps": 234,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
     }
   },
   "total_flos": 0,
+  "train_batch_size": 64,
   "trial_name": null,
   "trial_params": {
+    "dropout_prob": 0.36534271080237735,
+    "learning_rate": 2.206737845462528e-06,
     "max_length": 128,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 64
   }
 }

run-2/checkpoint-78/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e5603ef285bb9cd8b58d52a4735dd029af14c335395152f7a6192a7376a41be
 size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:28f74d7a00b4178899c1fef9aeee67c580c9b3b7c9a832bda216e355ce62eecc
 size 5432

runs/Apr04_10-39-13_1dd95b0fb5db/events.out.tfevents.1743767817.1dd95b0fb5db.721.17 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:65c4984ff0a284d8f0dad9b49da8a1eb201672ea184d2d00a8d258276ce25da1
+size 7375