microsoft
/

mdeberta-v3-base

Model card Files Files and versions

DeBERTa commited on Oct 28, 2021

Commit

c998f9d

·

1 Parent(s): b2129d4

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -27,7 +27,7 @@ We present the dev results on XNLI with zero-shot crosslingual transfer setting,
 | Model        |avg | en |  fr| es  | de  | el  | bg  | ru  |tr   |ar   |vi   | th  | zh | hi  | sw  | ur  |
 |--------------| ----|----|----|---- |--   |--   |--   | --  |--   |--   |--   | --  | -- | --  | --  | --  |
-| XLM-R-base   |75.6 |85.8|79.7|80.7 |78.7 |77.5 |79.6 |78.1 |74.2 |73.8 |76.5 |74.6 |76.7| 72.4| 66.5| 68.3|
 | mDeBERTa-base|**79.8**+/-0.2|**88.2**|**82.6**|**84.4** |**82.7** |**82.3** |**82.4** |**80.8** |**79.5** |**78.5** |**78.1** |**76.4** |**79.5**| **75.9**| **73.9**| **72.4**|
 #### Fine-tuning with HF transformers
@@ -51,8 +51,8 @@ python -m torch.distributed.launch --nproc_per_node=${num_gpus} \
   --task_name $TASK_NAME \
   --do_train \
   --do_eval \
-	--train_language en \
-	--language en \
   --evaluation_strategy steps \
   --max_seq_length 256 \
   --warmup_steps 3000 \

 | Model        |avg | en |  fr| es  | de  | el  | bg  | ru  |tr   |ar   |vi   | th  | zh | hi  | sw  | ur  |
 |--------------| ----|----|----|---- |--   |--   |--   | --  |--   |--   |--   | --  | -- | --  | --  | --  |
+| XLM-R-base   |76.2 |85.8|79.7|80.7 |78.7 |77.5 |79.6 |78.1 |74.2 |73.8 |76.5 |74.6 |76.7| 72.4| 66.5| 68.3|
 | mDeBERTa-base|**79.8**+/-0.2|**88.2**|**82.6**|**84.4** |**82.7** |**82.3** |**82.4** |**80.8** |**79.5** |**78.5** |**78.1** |**76.4** |**79.5**| **75.9**| **73.9**| **72.4**|
 #### Fine-tuning with HF transformers
   --task_name $TASK_NAME \
   --do_train \
   --do_eval \
+  --train_language en \
+  --language en \
   --evaluation_strategy steps \
   --max_seq_length 256 \
   --warmup_steps 3000 \