Upload 12 files

Browse files

Files changed (12) hide show

added_tokens.json +6 -0
all_results.json +16 -0
config.json +35 -0
eval_results.json +10 -0
model.safetensors +3 -0
special_tokens_map.json +43 -0
tokenizer.json +0 -0
tokenizer_config.json +103 -0
train_results.json +10 -0
trainer_state.json +744 -0
training_args.bin +3 -0
vocab.txt +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "<|...|>": 30525,
+  "<|assistant|>": 30524,
+  "<|system|>": 30522,
+  "<|user|>": 30523
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.919369715603382,
+    "eval_loss": 0.19649724662303925,
+    "eval_runtime": 5.3689,
+    "eval_samples": 13010,
+    "eval_samples_per_second": 2423.215,
+    "eval_steps_per_second": 303.042,
+    "num_input_tokens_seen": 33305600,
+    "total_flos": 2157435918643200.0,
+    "train_loss": 0.1371641572881533,
+    "train_runtime": 362.4532,
+    "train_samples": 52040,
+    "train_samples_per_second": 717.886,
+    "train_steps_per_second": 89.736
+}

config.json ADDED Viewed

	@@ -0,0 +1,35 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "finetuning_task": "text-classification",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 384,
+  "id2label": {
+    "0": "Non-refusal",
+    "1": "Refusal"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 1536,
+  "label2id": {
+    "Non-refusal": 0,
+    "Refusal": 1
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 6,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "single_label_classification",
+  "transformers_version": "5.0.0.dev0",
+  "type_vocab_size": 2,
+  "use_cache": false,
+  "vocab_size": 30526
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 5.0,
+    "eval_accuracy": 0.919369715603382,
+    "eval_loss": 0.19649724662303925,
+    "eval_runtime": 5.3689,
+    "eval_samples": 13010,
+    "eval_samples_per_second": 2423.215,
+    "eval_steps_per_second": 303.042,
+    "num_input_tokens_seen": 33305600
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3997c8da63fc6340b43e6f8d107f48183e754e83933dad0b2aaaf0dc270edd3d
+size 90874096

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "additional_special_tokens": [
+    "<|system|>",
+    "<|user|>",
+    "<|assistant|>",
+    "<|...|>"
+  ],
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,103 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "30522": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "30523": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "30524": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "30525": {
+      "content": "<|...|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|system|>",
+    "<|user|>",
+    "<|assistant|>",
+    "<|...|>"
+  ],
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_length": 512,
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 5.0,
+    "num_input_tokens_seen": 33305600,
+    "total_flos": 2157435918643200.0,
+    "train_loss": 0.1371641572881533,
+    "train_runtime": 362.4532,
+    "train_samples": 52040,
+    "train_samples_per_second": 717.886,
+    "train_steps_per_second": 89.736
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,744 @@

+{
+  "best_global_step": 6505,
+  "best_metric": 0.19649724662303925,
+  "best_model_checkpoint": "/media/user/Expansion1/snowflake-arctic-embed-xs-refusal/checkpoint-6505",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 32525,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07686395080707148,
+      "grad_norm": 2.155881881713867,
+      "learning_rate": 4.923289777094543e-05,
+      "loss": 0.3511,
+      "num_input_tokens_seen": 512000,
+      "step": 500,
+      "train_runtime": 5.3031,
+      "train_tokens_per_second": 96546.489
+    },
+    {
+      "epoch": 0.15372790161414296,
+      "grad_norm": 0.6236560344696045,
+      "learning_rate": 4.846425826287471e-05,
+      "loss": 0.2593,
+      "num_input_tokens_seen": 1024000,
+      "step": 1000,
+      "train_runtime": 10.3436,
+      "train_tokens_per_second": 98998.124
+    },
+    {
+      "epoch": 0.23059185242121444,
+      "grad_norm": 3.8176653385162354,
+      "learning_rate": 4.7695618754804e-05,
+      "loss": 0.2546,
+      "num_input_tokens_seen": 1536000,
+      "step": 1500,
+      "train_runtime": 15.3626,
+      "train_tokens_per_second": 99983.128
+    },
+    {
+      "epoch": 0.3074558032282859,
+      "grad_norm": 2.538367986679077,
+      "learning_rate": 4.692697924673328e-05,
+      "loss": 0.2377,
+      "num_input_tokens_seen": 2048000,
+      "step": 2000,
+      "train_runtime": 20.351,
+      "train_tokens_per_second": 100634.117
+    },
+    {
+      "epoch": 0.3843197540353574,
+      "grad_norm": 3.922593832015991,
+      "learning_rate": 4.615833973866257e-05,
+      "loss": 0.2411,
+      "num_input_tokens_seen": 2560000,
+      "step": 2500,
+      "train_runtime": 25.363,
+      "train_tokens_per_second": 100934.428
+    },
+    {
+      "epoch": 0.4611837048424289,
+      "grad_norm": 0.728330135345459,
+      "learning_rate": 4.5389700230591855e-05,
+      "loss": 0.2278,
+      "num_input_tokens_seen": 3072000,
+      "step": 3000,
+      "train_runtime": 30.387,
+      "train_tokens_per_second": 101095.729
+    },
+    {
+      "epoch": 0.5380476556495004,
+      "grad_norm": 0.5299816131591797,
+      "learning_rate": 4.462106072252114e-05,
+      "loss": 0.2422,
+      "num_input_tokens_seen": 3584000,
+      "step": 3500,
+      "train_runtime": 35.3784,
+      "train_tokens_per_second": 101304.819
+    },
+    {
+      "epoch": 0.6149116064565718,
+      "grad_norm": 9.030647277832031,
+      "learning_rate": 4.3852421214450424e-05,
+      "loss": 0.2269,
+      "num_input_tokens_seen": 4096000,
+      "step": 4000,
+      "train_runtime": 40.3905,
+      "train_tokens_per_second": 101409.866
+    },
+    {
+      "epoch": 0.6917755572636434,
+      "grad_norm": 1.8069450855255127,
+      "learning_rate": 4.308378170637971e-05,
+      "loss": 0.2378,
+      "num_input_tokens_seen": 4608000,
+      "step": 4500,
+      "train_runtime": 45.4094,
+      "train_tokens_per_second": 101476.838
+    },
+    {
+      "epoch": 0.7686395080707148,
+      "grad_norm": 2.4024786949157715,
+      "learning_rate": 4.231514219830899e-05,
+      "loss": 0.2129,
+      "num_input_tokens_seen": 5120000,
+      "step": 5000,
+      "train_runtime": 50.4114,
+      "train_tokens_per_second": 101564.317
+    },
+    {
+      "epoch": 0.8455034588777863,
+      "grad_norm": 0.8753976821899414,
+      "learning_rate": 4.1546502690238284e-05,
+      "loss": 0.2354,
+      "num_input_tokens_seen": 5632000,
+      "step": 5500,
+      "train_runtime": 55.4722,
+      "train_tokens_per_second": 101528.336
+    },
+    {
+      "epoch": 0.9223674096848578,
+      "grad_norm": 4.247986316680908,
+      "learning_rate": 4.077786318216756e-05,
+      "loss": 0.237,
+      "num_input_tokens_seen": 6144000,
+      "step": 6000,
+      "train_runtime": 60.5329,
+      "train_tokens_per_second": 101498.514
+    },
+    {
+      "epoch": 0.9992313604919293,
+      "grad_norm": 7.1489973068237305,
+      "learning_rate": 4.000922367409685e-05,
+      "loss": 0.2286,
+      "num_input_tokens_seen": 6656000,
+      "step": 6500,
+      "train_runtime": 65.5361,
+      "train_tokens_per_second": 101562.357
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.919369715603382,
+      "eval_loss": 0.19649724662303925,
+      "eval_runtime": 5.1167,
+      "eval_samples_per_second": 2542.665,
+      "eval_steps_per_second": 317.98,
+      "num_input_tokens_seen": 6661120,
+      "step": 6505
+    },
+    {
+      "epoch": 1.0760953112990008,
+      "grad_norm": 10.231003761291504,
+      "learning_rate": 3.9240584166026136e-05,
+      "loss": 0.1751,
+      "num_input_tokens_seen": 7168000,
+      "step": 7000,
+      "train_runtime": 75.9746,
+      "train_tokens_per_second": 94347.276
+    },
+    {
+      "epoch": 1.1529592621060722,
+      "grad_norm": 0.037300433963537216,
+      "learning_rate": 3.847194465795542e-05,
+      "loss": 0.1739,
+      "num_input_tokens_seen": 7680000,
+      "step": 7500,
+      "train_runtime": 81.0147,
+      "train_tokens_per_second": 94797.624
+    },
+    {
+      "epoch": 1.2298232129131437,
+      "grad_norm": 10.88604736328125,
+      "learning_rate": 3.7703305149884705e-05,
+      "loss": 0.1923,
+      "num_input_tokens_seen": 8192000,
+      "step": 8000,
+      "train_runtime": 86.0728,
+      "train_tokens_per_second": 95175.201
+    },
+    {
+      "epoch": 1.3066871637202153,
+      "grad_norm": 14.25737190246582,
+      "learning_rate": 3.693466564181399e-05,
+      "loss": 0.1809,
+      "num_input_tokens_seen": 8704000,
+      "step": 8500,
+      "train_runtime": 91.0822,
+      "train_tokens_per_second": 95562.051
+    },
+    {
+      "epoch": 1.3835511145272867,
+      "grad_norm": 0.3044818639755249,
+      "learning_rate": 3.6166026133743274e-05,
+      "loss": 0.1922,
+      "num_input_tokens_seen": 9216000,
+      "step": 9000,
+      "train_runtime": 96.1257,
+      "train_tokens_per_second": 95874.452
+    },
+    {
+      "epoch": 1.4604150653343582,
+      "grad_norm": 15.291511535644531,
+      "learning_rate": 3.5397386625672565e-05,
+      "loss": 0.171,
+      "num_input_tokens_seen": 9728000,
+      "step": 9500,
+      "train_runtime": 101.1575,
+      "train_tokens_per_second": 96166.85
+    },
+    {
+      "epoch": 1.5372790161414298,
+      "grad_norm": 12.030097007751465,
+      "learning_rate": 3.462874711760184e-05,
+      "loss": 0.1779,
+      "num_input_tokens_seen": 10240000,
+      "step": 10000,
+      "train_runtime": 106.2268,
+      "train_tokens_per_second": 96397.497
+    },
+    {
+      "epoch": 1.614142966948501,
+      "grad_norm": 0.17212723195552826,
+      "learning_rate": 3.386010760953113e-05,
+      "loss": 0.176,
+      "num_input_tokens_seen": 10752000,
+      "step": 10500,
+      "train_runtime": 111.2959,
+      "train_tokens_per_second": 96607.35
+    },
+    {
+      "epoch": 1.6910069177555727,
+      "grad_norm": 35.843482971191406,
+      "learning_rate": 3.309146810146042e-05,
+      "loss": 0.1879,
+      "num_input_tokens_seen": 11264000,
+      "step": 11000,
+      "train_runtime": 116.3574,
+      "train_tokens_per_second": 96805.219
+    },
+    {
+      "epoch": 1.767870868562644,
+      "grad_norm": 0.055776312947273254,
+      "learning_rate": 3.23228285933897e-05,
+      "loss": 0.1749,
+      "num_input_tokens_seen": 11776000,
+      "step": 11500,
+      "train_runtime": 121.386,
+      "train_tokens_per_second": 97012.845
+    },
+    {
+      "epoch": 1.8447348193697155,
+      "grad_norm": 0.48420748114585876,
+      "learning_rate": 3.1554189085318986e-05,
+      "loss": 0.1716,
+      "num_input_tokens_seen": 12288000,
+      "step": 12000,
+      "train_runtime": 126.4198,
+      "train_tokens_per_second": 97200.001
+    },
+    {
+      "epoch": 1.9215987701767872,
+      "grad_norm": 0.3808608949184418,
+      "learning_rate": 3.078554957724827e-05,
+      "loss": 0.1819,
+      "num_input_tokens_seen": 12800000,
+      "step": 12500,
+      "train_runtime": 131.456,
+      "train_tokens_per_second": 97370.996
+    },
+    {
+      "epoch": 1.9984627209838586,
+      "grad_norm": 0.15483863651752472,
+      "learning_rate": 3.0016910069177555e-05,
+      "loss": 0.1718,
+      "num_input_tokens_seen": 13312000,
+      "step": 13000,
+      "train_runtime": 136.5089,
+      "train_tokens_per_second": 97517.416
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.9259031514219831,
+      "eval_loss": 0.27698734402656555,
+      "eval_runtime": 5.1343,
+      "eval_samples_per_second": 2533.949,
+      "eval_steps_per_second": 316.89,
+      "num_input_tokens_seen": 13322240,
+      "step": 13010
+    },
+    {
+      "epoch": 2.07532667179093,
+      "grad_norm": 0.06390306353569031,
+      "learning_rate": 2.9248270561106846e-05,
+      "loss": 0.1384,
+      "num_input_tokens_seen": 13824000,
+      "step": 13500,
+      "train_runtime": 146.9662,
+      "train_tokens_per_second": 94062.42
+    },
+    {
+      "epoch": 2.1521906225980016,
+      "grad_norm": 0.09185440093278885,
+      "learning_rate": 2.8479631053036127e-05,
+      "loss": 0.123,
+      "num_input_tokens_seen": 14336000,
+      "step": 14000,
+      "train_runtime": 152.0064,
+      "train_tokens_per_second": 94311.832
+    },
+    {
+      "epoch": 2.229054573405073,
+      "grad_norm": 0.05354034900665283,
+      "learning_rate": 2.7710991544965414e-05,
+      "loss": 0.1265,
+      "num_input_tokens_seen": 14848000,
+      "step": 14500,
+      "train_runtime": 157.0491,
+      "train_tokens_per_second": 94543.682
+    },
+    {
+      "epoch": 2.3059185242121445,
+      "grad_norm": 6.2592926025390625,
+      "learning_rate": 2.6942352036894695e-05,
+      "loss": 0.1214,
+      "num_input_tokens_seen": 15360000,
+      "step": 15000,
+      "train_runtime": 162.0991,
+      "train_tokens_per_second": 94756.854
+    },
+    {
+      "epoch": 2.382782475019216,
+      "grad_norm": 0.3284030854701996,
+      "learning_rate": 2.6173712528823986e-05,
+      "loss": 0.1298,
+      "num_input_tokens_seen": 15872000,
+      "step": 15500,
+      "train_runtime": 167.141,
+      "train_tokens_per_second": 94961.759
+    },
+    {
+      "epoch": 2.4596464258262873,
+      "grad_norm": 0.2101190984249115,
+      "learning_rate": 2.5405073020753267e-05,
+      "loss": 0.1279,
+      "num_input_tokens_seen": 16384000,
+      "step": 16000,
+      "train_runtime": 172.1787,
+      "train_tokens_per_second": 95156.958
+    },
+    {
+      "epoch": 2.536510376633359,
+      "grad_norm": 7.672014236450195,
+      "learning_rate": 2.463643351268255e-05,
+      "loss": 0.1435,
+      "num_input_tokens_seen": 16896000,
+      "step": 16500,
+      "train_runtime": 177.2341,
+      "train_tokens_per_second": 95331.566
+    },
+    {
+      "epoch": 2.6133743274404306,
+      "grad_norm": 37.9052734375,
+      "learning_rate": 2.3867794004611836e-05,
+      "loss": 0.123,
+      "num_input_tokens_seen": 17408000,
+      "step": 17000,
+      "train_runtime": 182.2827,
+      "train_tokens_per_second": 95500.03
+    },
+    {
+      "epoch": 2.690238278247502,
+      "grad_norm": 0.08578933030366898,
+      "learning_rate": 2.3099154496541124e-05,
+      "loss": 0.1289,
+      "num_input_tokens_seen": 17920000,
+      "step": 17500,
+      "train_runtime": 187.3355,
+      "train_tokens_per_second": 95657.272
+    },
+    {
+      "epoch": 2.7671022290545735,
+      "grad_norm": 0.08860859274864197,
+      "learning_rate": 2.2330514988470408e-05,
+      "loss": 0.1296,
+      "num_input_tokens_seen": 18432000,
+      "step": 18000,
+      "train_runtime": 192.3781,
+      "train_tokens_per_second": 95811.329
+    },
+    {
+      "epoch": 2.8439661798616447,
+      "grad_norm": 0.41104796528816223,
+      "learning_rate": 2.1561875480399692e-05,
+      "loss": 0.1124,
+      "num_input_tokens_seen": 18944000,
+      "step": 18500,
+      "train_runtime": 197.7595,
+      "train_tokens_per_second": 95793.134
+    },
+    {
+      "epoch": 2.9208301306687163,
+      "grad_norm": 37.97283172607422,
+      "learning_rate": 2.079323597232898e-05,
+      "loss": 0.1382,
+      "num_input_tokens_seen": 19456000,
+      "step": 19000,
+      "train_runtime": 203.2967,
+      "train_tokens_per_second": 95702.474
+    },
+    {
+      "epoch": 2.997694081475788,
+      "grad_norm": 0.0325402170419693,
+      "learning_rate": 2.0024596464258264e-05,
+      "loss": 0.1388,
+      "num_input_tokens_seen": 19968000,
+      "step": 19500,
+      "train_runtime": 208.8029,
+      "train_tokens_per_second": 95630.843
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.9287471176018447,
+      "eval_loss": 0.31825903058052063,
+      "eval_runtime": 5.4038,
+      "eval_samples_per_second": 2407.562,
+      "eval_steps_per_second": 301.084,
+      "num_input_tokens_seen": 19983360,
+      "step": 19515
+    },
+    {
+      "epoch": 3.074558032282859,
+      "grad_norm": 0.05180477350950241,
+      "learning_rate": 1.925595695618755e-05,
+      "loss": 0.0823,
+      "num_input_tokens_seen": 20480000,
+      "step": 20000,
+      "train_runtime": 219.9739,
+      "train_tokens_per_second": 93101.956
+    },
+    {
+      "epoch": 3.151421983089931,
+      "grad_norm": 0.005111335311084986,
+      "learning_rate": 1.8487317448116833e-05,
+      "loss": 0.0716,
+      "num_input_tokens_seen": 20992000,
+      "step": 20500,
+      "train_runtime": 225.3567,
+      "train_tokens_per_second": 93150.099
+    },
+    {
+      "epoch": 3.2282859338970025,
+      "grad_norm": 0.012623129412531853,
+      "learning_rate": 1.771867794004612e-05,
+      "loss": 0.0915,
+      "num_input_tokens_seen": 21504000,
+      "step": 21000,
+      "train_runtime": 230.6352,
+      "train_tokens_per_second": 93238.15
+    },
+    {
+      "epoch": 3.3051498847040737,
+      "grad_norm": 10.89956283569336,
+      "learning_rate": 1.6950038431975405e-05,
+      "loss": 0.0783,
+      "num_input_tokens_seen": 22016000,
+      "step": 21500,
+      "train_runtime": 236.059,
+      "train_tokens_per_second": 93264.831
+    },
+    {
+      "epoch": 3.3820138355111453,
+      "grad_norm": 0.010125258006155491,
+      "learning_rate": 1.618139892390469e-05,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 22528000,
+      "step": 22000,
+      "train_runtime": 241.5242,
+      "train_tokens_per_second": 93274.31
+    },
+    {
+      "epoch": 3.458877786318217,
+      "grad_norm": 0.04097803309559822,
+      "learning_rate": 1.5412759415833973e-05,
+      "loss": 0.095,
+      "num_input_tokens_seen": 23040000,
+      "step": 22500,
+      "train_runtime": 247.0361,
+      "train_tokens_per_second": 93265.737
+    },
+    {
+      "epoch": 3.535741737125288,
+      "grad_norm": 0.3172767758369446,
+      "learning_rate": 1.464411990776326e-05,
+      "loss": 0.0847,
+      "num_input_tokens_seen": 23552000,
+      "step": 23000,
+      "train_runtime": 252.366,
+      "train_tokens_per_second": 93324.783
+    },
+    {
+      "epoch": 3.61260568793236,
+      "grad_norm": 0.0049354820512235165,
+      "learning_rate": 1.3875480399692545e-05,
+      "loss": 0.0758,
+      "num_input_tokens_seen": 24064000,
+      "step": 23500,
+      "train_runtime": 257.7685,
+      "train_tokens_per_second": 93355.1
+    },
+    {
+      "epoch": 3.689469638739431,
+      "grad_norm": 0.09353843331336975,
+      "learning_rate": 1.310684089162183e-05,
+      "loss": 0.0812,
+      "num_input_tokens_seen": 24576000,
+      "step": 24000,
+      "train_runtime": 263.0331,
+      "train_tokens_per_second": 93433.102
+    },
+    {
+      "epoch": 3.7663335895465027,
+      "grad_norm": 13.593195915222168,
+      "learning_rate": 1.2338201383551116e-05,
+      "loss": 0.0882,
+      "num_input_tokens_seen": 25088000,
+      "step": 24500,
+      "train_runtime": 268.3188,
+      "train_tokens_per_second": 93500.701
+    },
+    {
+      "epoch": 3.8431975403535743,
+      "grad_norm": 0.12645399570465088,
+      "learning_rate": 1.15695618754804e-05,
+      "loss": 0.0862,
+      "num_input_tokens_seen": 25600000,
+      "step": 25000,
+      "train_runtime": 273.6907,
+      "train_tokens_per_second": 93536.259
+    },
+    {
+      "epoch": 3.9200614911606455,
+      "grad_norm": 0.015061162412166595,
+      "learning_rate": 1.0800922367409686e-05,
+      "loss": 0.0825,
+      "num_input_tokens_seen": 26112000,
+      "step": 25500,
+      "train_runtime": 279.0408,
+      "train_tokens_per_second": 93577.699
+    },
+    {
+      "epoch": 3.996925441967717,
+      "grad_norm": 0.020776506513357162,
+      "learning_rate": 1.003228285933897e-05,
+      "loss": 0.0772,
+      "num_input_tokens_seen": 26624000,
+      "step": 26000,
+      "train_runtime": 284.4194,
+      "train_tokens_per_second": 93608.25
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.9270561106840891,
+      "eval_loss": 0.43025368452072144,
+      "eval_runtime": 5.3244,
+      "eval_samples_per_second": 2443.487,
+      "eval_steps_per_second": 305.577,
+      "num_input_tokens_seen": 26644480,
+      "step": 26020
+    },
+    {
+      "epoch": 4.073789392774788,
+      "grad_norm": 0.09127756953239441,
+      "learning_rate": 9.263643351268256e-06,
+      "loss": 0.0615,
+      "num_input_tokens_seen": 27136000,
+      "step": 26500,
+      "train_runtime": 295.1257,
+      "train_tokens_per_second": 91947.265
+    },
+    {
+      "epoch": 4.15065334358186,
+      "grad_norm": 0.11556842923164368,
+      "learning_rate": 8.49500384319754e-06,
+      "loss": 0.0444,
+      "num_input_tokens_seen": 27648000,
+      "step": 27000,
+      "train_runtime": 300.149,
+      "train_tokens_per_second": 92114.259
+    },
+    {
+      "epoch": 4.227517294388932,
+      "grad_norm": 0.09005430340766907,
+      "learning_rate": 7.726364335126826e-06,
+      "loss": 0.0434,
+      "num_input_tokens_seen": 28160000,
+      "step": 27500,
+      "train_runtime": 305.2327,
+      "train_tokens_per_second": 92257.495
+    },
+    {
+      "epoch": 4.304381245196003,
+      "grad_norm": 0.004569609649479389,
+      "learning_rate": 6.9577248270561115e-06,
+      "loss": 0.0352,
+      "num_input_tokens_seen": 28672000,
+      "step": 28000,
+      "train_runtime": 310.2962,
+      "train_tokens_per_second": 92402.026
+    },
+    {
+      "epoch": 4.381245196003075,
+      "grad_norm": 1.524936318397522,
+      "learning_rate": 6.189085318985397e-06,
+      "loss": 0.06,
+      "num_input_tokens_seen": 29184000,
+      "step": 28500,
+      "train_runtime": 315.365,
+      "train_tokens_per_second": 92540.388
+    },
+    {
+      "epoch": 4.458109146810146,
+      "grad_norm": 0.014427268877625465,
+      "learning_rate": 5.420445810914681e-06,
+      "loss": 0.0492,
+      "num_input_tokens_seen": 29696000,
+      "step": 29000,
+      "train_runtime": 320.4274,
+      "train_tokens_per_second": 92676.208
+    },
+    {
+      "epoch": 4.534973097617217,
+      "grad_norm": 0.07355033606290817,
+      "learning_rate": 4.651806302843966e-06,
+      "loss": 0.0572,
+      "num_input_tokens_seen": 30208000,
+      "step": 29500,
+      "train_runtime": 325.4966,
+      "train_tokens_per_second": 92805.883
+    },
+    {
+      "epoch": 4.611837048424289,
+      "grad_norm": 7.176478385925293,
+      "learning_rate": 3.883166794773251e-06,
+      "loss": 0.0442,
+      "num_input_tokens_seen": 30720000,
+      "step": 30000,
+      "train_runtime": 330.568,
+      "train_tokens_per_second": 92930.968
+    },
+    {
+      "epoch": 4.688700999231361,
+      "grad_norm": 0.030576860532164574,
+      "learning_rate": 3.114527286702537e-06,
+      "loss": 0.0465,
+      "num_input_tokens_seen": 31232000,
+      "step": 30500,
+      "train_runtime": 335.6493,
+      "train_tokens_per_second": 93049.488
+    },
+    {
+      "epoch": 4.765564950038432,
+      "grad_norm": 0.005597515497356653,
+      "learning_rate": 2.345887778631822e-06,
+      "loss": 0.0487,
+      "num_input_tokens_seen": 31744000,
+      "step": 31000,
+      "train_runtime": 340.8069,
+      "train_tokens_per_second": 93143.641
+    },
+    {
+      "epoch": 4.842428900845503,
+      "grad_norm": 0.021089155226945877,
+      "learning_rate": 1.5772482705611067e-06,
+      "loss": 0.0557,
+      "num_input_tokens_seen": 32256000,
+      "step": 31500,
+      "train_runtime": 346.0097,
+      "train_tokens_per_second": 93222.824
+    },
+    {
+      "epoch": 4.919292851652575,
+      "grad_norm": 0.023516027256846428,
+      "learning_rate": 8.086087624903922e-07,
+      "loss": 0.0399,
+      "num_input_tokens_seen": 32768000,
+      "step": 32000,
+      "train_runtime": 351.2595,
+      "train_tokens_per_second": 93287.165
+    },
+    {
+      "epoch": 4.996156802459646,
+      "grad_norm": 0.007581554353237152,
+      "learning_rate": 3.996925441967718e-08,
+      "loss": 0.0532,
+      "num_input_tokens_seen": 33280000,
+      "step": 32500,
+      "train_runtime": 356.5514,
+      "train_tokens_per_second": 93338.566
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.9264411990776326,
+      "eval_loss": 0.4613732397556305,
+      "eval_runtime": 5.2997,
+      "eval_samples_per_second": 2454.857,
+      "eval_steps_per_second": 306.999,
+      "num_input_tokens_seen": 33305600,
+      "step": 32525
+    },
+    {
+      "epoch": 5.0,
+      "num_input_tokens_seen": 33305600,
+      "step": 32525,
+      "total_flos": 2157435918643200.0,
+      "train_loss": 0.1371641572881533,
+      "train_runtime": 362.4532,
+      "train_samples_per_second": 717.886,
+      "train_steps_per_second": 89.736
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 32525,
+  "num_input_tokens_seen": 33305600,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2157435918643200.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88bc931c3ffc6b4b25fa2a994558f90c9fe24e5f81f4d486bf8c879b0f031021
+size 5201

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff