ydshieh
/

flax-vision-encoder-decoder-vit-gpt2-coco-en

Model card Files Files and versions

xet

Community

ydshieh commited on Dec 16, 2021

Commit

0fc714d

1 Parent(s): 7245cb4

use custom TrainingArguments

Browse files

Files changed (1) hide show

run_image_captioning_flax.py +70 -3

run_image_captioning_flax.py CHANGED Viewed

@@ -52,7 +52,7 @@ from transformers import (
     AutoFeatureExtractor,
     AutoTokenizer,
     HfArgumentParser,
-    TrainingArguments,
     is_tensorboard_available,
     FlaxAutoModelForVision2Seq,
 )
@@ -92,6 +92,72 @@ def shift_tokens_right(input_ids: np.ndarray, pad_token_id: int, decoder_start_t
     return shifted_input_ids
 @dataclass
 class CustomTrainingArguments(TrainingArguments):
@@ -1229,7 +1295,7 @@ def main():
                     # ======================== Evaluating ==============================
-                    if training_args.do_eval and ((training_args.eval_steps is not None and cur_step % training_args.eval_steps) or cur_step % steps_per_epoch == 0):
                         run_eval_or_test(input_rng, eval_dataset, name="valid", is_inside_training=True)
                         # ======================== Prediction loop ==============================
@@ -1238,8 +1304,9 @@ def main():
                         if training_args.do_predict and training_args.do_predict_during_training and training_args.do_predict_after_evaluation:
                             run_eval_or_test(input_rng, predict_dataset, name='test', is_inside_training=True)
-                    # ======================== Save ==============================
                     save_results(epoch + 1, cur_step)
             # run prediction after each epoch (if not done during training)

     AutoFeatureExtractor,
     AutoTokenizer,
     HfArgumentParser,
+    # TrainingArguments,
     is_tensorboard_available,
     FlaxAutoModelForVision2Seq,
 )
     return shifted_input_ids
+@dataclass
+class TrainingArguments:
+    output_dir: str = field(
+        metadata={"help": "The output directory where the model predictions and checkpoints will be written."},
+    )
+    overwrite_output_dir: bool = field(
+        default=False,
+        metadata={
+            "help": (
+                "Overwrite the content of the output directory. "
+                "Use this to continue training if output_dir points to a checkpoint directory."
+            )
+        },
+    )
+    do_train: bool = field(default=False, metadata={"help": "Whether to run training."})
+    do_eval: bool = field(default=False, metadata={"help": "Whether to run eval on the dev set."})
+    do_predict: bool = field(default=False, metadata={"help": "Whether to run predictions on the test set."})
+    per_device_train_batch_size: int = field(
+        default=8, metadata={"help": "Batch size per GPU/TPU core/CPU for training."}
+    )
+    per_device_eval_batch_size: int = field(
+        default=8, metadata={"help": "Batch size per GPU/TPU core/CPU for evaluation."}
+    )
+    learning_rate: float = field(default=5e-5, metadata={"help": "The initial learning rate for AdamW."})
+    weight_decay: float = field(default=0.0, metadata={"help": "Weight decay for AdamW if we apply some."})
+    adam_beta1: float = field(default=0.9, metadata={"help": "Beta1 for AdamW optimizer"})
+    adam_beta2: float = field(default=0.999, metadata={"help": "Beta2 for AdamW optimizer"})
+    adam_epsilon: float = field(default=1e-8, metadata={"help": "Epsilon for AdamW optimizer."})
+    label_smoothing_factor: float = field(
+        default=0.0, metadata={"help": "The label smoothing epsilon to apply (zero means no label smoothing)."}
+    )
+    adafactor: bool = field(default=False, metadata={"help": "Whether or not to replace AdamW by Adafactor."})
+    num_train_epochs: float = field(default=3.0, metadata={"help": "Total number of training epochs to perform."})
+    warmup_steps: int = field(default=0, metadata={"help": "Linear warmup over warmup_steps."})
+    logging_steps: int = field(default=500, metadata={"help": "Log every X updates steps."})
+    save_steps: int = field(default=500, metadata={"help": "Save checkpoint every X updates steps."})
+    eval_steps: int = field(default=None, metadata={"help": "Run an evaluation every X steps."})
+    seed: int = field(default=42, metadata={"help": "Random seed that will be set at the beginning of training."})
+    push_to_hub: bool = field(
+        default=False, metadata={"help": "Whether or not to upload the trained model to the model hub after training."}
+    )
+    hub_model_id: str = field(
+        default=None, metadata={"help": "The name of the repository to keep in sync with the local `output_dir`."}
+    )
+    hub_token: str = field(default=None, metadata={"help": "The token to use to push to the Model Hub."})
+    def __post_init__(self):
+        if self.output_dir is not None:
+            self.output_dir = os.path.expanduser(self.output_dir)
+    def to_dict(self):
+        """
+        Serializes this instance while replace `Enum` by their values (for JSON serialization support). It obfuscates
+        the token values by removing their value.
+        """
+        d = asdict(self)
+        for k, v in d.items():
+            if isinstance(v, Enum):
+                d[k] = v.value
+            if isinstance(v, list) and len(v) > 0 and isinstance(v[0], Enum):
+                d[k] = [x.value for x in v]
+            if k.endswith("_token"):
+                d[k] = f"<{k.upper()}>"
+        return d
 @dataclass
 class CustomTrainingArguments(TrainingArguments):
                     # ======================== Evaluating ==============================
+                    if training_args.do_eval and ((training_args.eval_steps is not None and cur_step % training_args.eval_steps == 0) or cur_step % steps_per_epoch == 0):
                         run_eval_or_test(input_rng, eval_dataset, name="valid", is_inside_training=True)
                         # ======================== Prediction loop ==============================
                         if training_args.do_predict and training_args.do_predict_during_training and training_args.do_predict_after_evaluation:
                             run_eval_or_test(input_rng, predict_dataset, name='test', is_inside_training=True)
+                # ======================== Save ==============================
+                if cur_step % training_args.save_steps == 0:
                     save_results(epoch + 1, cur_step)
             # run prediction after each epoch (if not done during training)