{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 1.9915254237288136,
  "eval_steps": 500,
  "global_step": 78,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.025423728813559324,
      "grad_norm": 0.08035527647801548,
      "learning_rate": 1.25e-06,
      "loss": 0.4007,
      "step": 1
    },
    {
      "epoch": 0.1271186440677966,
      "grad_norm": 0.05733009561118041,
      "learning_rate": 6.25e-06,
      "loss": 0.4134,
      "step": 5
    },
    {
      "epoch": 0.2542372881355932,
      "grad_norm": 0.061316952771613246,
      "learning_rate": 9.979871469976197e-06,
      "loss": 0.4061,
      "step": 10
    },
    {
      "epoch": 0.3813559322033898,
      "grad_norm": 0.0706914793637617,
      "learning_rate": 9.755282581475769e-06,
      "loss": 0.4018,
      "step": 15
    },
    {
      "epoch": 0.5084745762711864,
      "grad_norm": 0.06306250853537879,
      "learning_rate": 9.292243968009332e-06,
      "loss": 0.4068,
      "step": 20
    },
    {
      "epoch": 0.635593220338983,
      "grad_norm": 0.05396739437655817,
      "learning_rate": 8.613974319136959e-06,
      "loss": 0.388,
      "step": 25
    },
    {
      "epoch": 0.7627118644067796,
      "grad_norm": 0.055943979296443166,
      "learning_rate": 7.754484907260513e-06,
      "loss": 0.3379,
      "step": 30
    },
    {
      "epoch": 0.8898305084745762,
      "grad_norm": 0.06643011122771461,
      "learning_rate": 6.7568741204067145e-06,
      "loss": 0.3801,
      "step": 35
    },
    {
      "epoch": 0.9915254237288136,
      "eval_loss": 0.42687076330184937,
      "eval_runtime": 29.2208,
      "eval_samples_per_second": 18.788,
      "eval_steps_per_second": 4.723,
      "step": 39
    },
    {
      "epoch": 1.0254237288135593,
      "grad_norm": 0.1257204507458321,
      "learning_rate": 5.671166329088278e-06,
      "loss": 0.4294,
      "step": 40
    },
    {
      "epoch": 1.152542372881356,
      "grad_norm": 0.061247984812326635,
      "learning_rate": 4.551803455482833e-06,
      "loss": 0.3162,
      "step": 45
    },
    {
      "epoch": 1.2796610169491525,
      "grad_norm": 0.06297833414755911,
      "learning_rate": 3.4549150281252635e-06,
      "loss": 0.3145,
      "step": 50
    },
    {
      "epoch": 1.4067796610169492,
      "grad_norm": 0.06687382967843461,
      "learning_rate": 2.43550361297047e-06,
      "loss": 0.2941,
      "step": 55
    },
    {
      "epoch": 1.5338983050847457,
      "grad_norm": 0.06683369207674608,
      "learning_rate": 1.544686755065677e-06,
      "loss": 0.3145,
      "step": 60
    },
    {
      "epoch": 1.6610169491525424,
      "grad_norm": 0.0813495468013659,
      "learning_rate": 8.271337313934869e-07,
      "loss": 0.2945,
      "step": 65
    },
    {
      "epoch": 1.788135593220339,
      "grad_norm": 0.07371530295761193,
      "learning_rate": 3.18825646801314e-07,
      "loss": 0.3056,
      "step": 70
    },
    {
      "epoch": 1.9152542372881356,
      "grad_norm": 0.06581699726337101,
      "learning_rate": 4.52511911603265e-08,
      "loss": 0.2775,
      "step": 75
    },
    {
      "epoch": 1.9915254237288136,
      "eval_loss": 0.443694531917572,
      "eval_runtime": 28.5624,
      "eval_samples_per_second": 19.221,
      "eval_steps_per_second": 4.832,
      "step": 78
    }
  ],
  "logging_steps": 5,
  "max_steps": 78,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 2,
  "save_steps": 500,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 1.99474976032555e+17,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}