tasksource
/

ModernBERT-base-nli

@@ -20,109 +20,110 @@ tags:
 ModernBERT multi-task fine-tuned on tasksource NLI tasks, including MNLI, ANLI, SICK, WANLI, doc-nli, LingNLI, FOLIO, FOL-NLI, LogicNLI, Label-NLI and all datasets in the below table).
 This is the equivalent of an "instruct" version.
-Test accuracy at 10k training steps (current version, 100k steps incoming at the end of the week).
 | test_name                            |   test_accuracy |
 |:-------------------------------------|----------------:|
-| glue/mnli                            |            0.82 |
-| glue/qnli                            |            0.84 |
-| glue/rte                             |            0.78 |
-| super_glue/cb                        |            0.75 |
-| anli/a1                              |            0.51 |
-| anli/a2                              |            0.39 |
-| anli/a3                              |            0.38 |
-| sick/label                           |            0.91 |
-| sick/entailment_AB                   |            0.81 |
-| snli                                 |            0.82 |
-| scitail/snli_format                  |            0.94 |
-| hans                                 |            0.99 |
-| WANLI                                |            0.7  |
-| recast/recast_ner                    |            0.84 |
-| recast/recast_kg_relations           |            0.89 |
-| recast/recast_puns                   |            0.78 |
-| recast/recast_verbcorner             |            0.87 |
-| recast/recast_sentiment              |            0.97 |
-| recast/recast_verbnet                |            0.74 |
-| recast/recast_factuality             |            0.88 |
-| recast/recast_megaveridicality       |            0.86 |
-| probability_words_nli/reasoning_2hop |            0.76 |
-| probability_words_nli/reasoning_1hop |            0.84 |
-| probability_words_nli/usnli          |            0.7  |
-| nan-nli                              |            0.62 |
-| nli_fever                            |            0.71 |
-| breaking_nli                         |            0.98 |
-| conj_nli                             |            0.66 |
-| fracas                               |            0    |
-| dialogue_nli                         |            0.84 |
-| mpe                                  |            0.69 |
-| dnc                                  |            0.81 |
-| recast_white/fnplus                  |            0.6  |
-| recast_white/sprl                    |            0.83 |
-| recast_white/dpr                     |            0.57 |
-| robust_nli/IS_CS                     |            0.45 |
-| robust_nli/LI_LI                     |            0.92 |
-| robust_nli/ST_WO                     |            0.66 |
-| robust_nli/PI_SP                     |            0.53 |
-| robust_nli/PI_CD                     |            0.54 |
-| robust_nli/ST_SE                     |            0.58 |
-| robust_nli/ST_NE                     |            0.52 |
-| robust_nli/ST_LM                     |            0.47 |
-| robust_nli_is_sd                     |            0.99 |
-| robust_nli_li_ts                     |            0.81 |
-| add_one_rte                          |            0.87 |
-| cycic_classification                 |            0.62 |
-| lingnli                              |            0.73 |
-| monotonicity-entailment              |            0.84 |
-| scinli                               |            0.65 |
-| naturallogic                         |            0.77 |
-| syntactic-augmentation-nli           |            0.87 |
-| autotnli                             |            0.83 |
-| defeasible-nli/atomic                |            0.72 |
-| defeasible-nli/snli                  |            0.67 |
-| help-nli                             |            0.72 |
-| nli-veridicality-transitivity        |            0.92 |
-| lonli                                |            0.88 |
-| dadc-limit-nli                       |            0.59 |
-| folio                                |            0.44 |
-| tomi-nli                             |            0.52 |
-| temporal-nli                         |            0.62 |
-| counterfactually-augmented-snli      |            0.69 |
-| cnli                                 |            0.71 |
-| logiqa-2.0-nli                       |            0.51 |
-| mindgames                            |            0.83 |
-| ConTRoL-nli                          |            0.49 |
-| logical-fallacy                      |            0.13 |
-| conceptrules_v2                      |            0.97 |
-| zero-shot-label-nli                  |            0.67 |
-| scone                                |            0.79 |
-| monli                                |            0.76 |
-| SpaceNLI                             |            0.89 |
-| propsegment/nli                      |            0.82 |
-| SDOH-NLI                             |            0.98 |
-| scifact_entailment                   |            0.52 |
-| AdjectiveScaleProbe-nli              |            0.91 |
-| resnli                               |            0.97 |
-| semantic_fragments_nli               |            0.91 |
-| dataset_train_nli                    |            0.81 |
-| ruletaker                            |            0.69 |
 | PARARULE-Plus                        |            1    |
-| logical-entailment                   |            0.53 |
-| nope                                 |            0.36 |
-| LogicNLI                             |            0.34 |
-| contract-nli/contractnli_a/seg       |            0.79 |
-| contract-nli/contractnli_b/full      |            0.67 |
-| nli4ct_semeval2024                   |            0.53 |
-| biosift-nli                          |            0.85 |
-| SIGA-nli                             |            0.46 |
-| FOL-nli                              |            0.49 |
-| doc-nli                              |            0.81 |
-| mctest-nli                           |            0.84 |
-| idioms-nli                           |            0.77 |
-| lifecycle-entailment                 |            0.57 |
-| MSciNLI                              |            0.65 |
-| babi_nli                             |            0.77 |
-| gen_debiased_nli                     |            0.82 |
 # Usage

 ModernBERT multi-task fine-tuned on tasksource NLI tasks, including MNLI, ANLI, SICK, WANLI, doc-nli, LingNLI, FOLIO, FOL-NLI, LogicNLI, Label-NLI and all datasets in the below table).
 This is the equivalent of an "instruct" version.
+Test accuracy at 100k training steps. 250k steps version coming around 25 december.
 | test_name                            |   test_accuracy |
 |:-------------------------------------|----------------:|
+| glue/mnli                            |            0.91 |
+| glue/qnli                            |            0.93 |
+| glue/rte                             |            0.86 |
+| super_glue/cb                        |            0.89 |
+| anli/a1                              |            0.62 |
+| anli/a2                              |            0.47 |
+| anli/a3                              |            0.42 |
+| sick/label                           |            0.92 |
+| sick/entailment_AB                   |            0.84 |
+| snli                                 |            0.91 |
+| scitail/snli_format                  |            0.95 |
+| hans                                 |            1    |
+| WANLI                                |            0.71 |
+| recast/recast_sentiment              |            0.98 |
+| recast/recast_verbcorner             |            0.94 |
+| recast/recast_ner                    |            0.87 |
+| recast/recast_factuality             |            0.93 |
+| recast/recast_puns                   |            0.93 |
+| recast/recast_kg_relations           |            0.94 |
+| recast/recast_verbnet                |            0.88 |
+| recast/recast_megaveridicality       |            0.87 |
+| probability_words_nli/usnli          |            0.77 |
+| probability_words_nli/reasoning_1hop |            0.99 |
+| probability_words_nli/reasoning_2hop |            0.9  |
+| nan-nli                              |            0.85 |
+| nli_fever                            |            0.72 |
+| breaking_nli                         |            1    |
+| conj_nli                             |            0.71 |
+| fracas                               |            0.86 |
+| dialogue_nli                         |            0.88 |
+| mpe                                  |            0.73 |
+| dnc                                  |            0.9  |
+| recast_white/fnplus                  |            0.81 |
+| recast_white/sprl                    |            0.92 |
+| recast_white/dpr                     |            0.61 |
+| robust_nli/IS_CS                     |            0.76 |
+| robust_nli/LI_LI                     |            0.98 |
+| robust_nli/ST_WO                     |            0.85 |
+| robust_nli/PI_SP                     |            0.74 |
+| robust_nli/PI_CD                     |            0.8  |
+| robust_nli/ST_SE                     |            0.78 |
+| robust_nli/ST_NE                     |            0.86 |
+| robust_nli/ST_LM                     |            0.81 |
+| robust_nli_is_sd                     |            1    |
+| robust_nli_li_ts                     |            0.91 |
+| add_one_rte                          |            0.91 |
+| cycic_classification                 |            0.83 |
+| lingnli                              |            0.82 |
+| monotonicity-entailment              |            0.95 |
+| scinli                               |            0.79 |
+| naturallogic                         |            0.91 |
+| syntactic-augmentation-nli           |            0.95 |
+| autotnli                             |            0.92 |
+| defeasible-nli/atomic                |            0.76 |
+| defeasible-nli/snli                  |            0.79 |
+| help-nli                             |            0.91 |
+| nli-veridicality-transitivity        |            0.99 |
+| lonli                                |            0.99 |
+| dadc-limit-nli                       |            0.67 |
+| folio                                |            0.59 |
+| tomi-nli                             |            0.53 |
+| temporal-nli                         |            0.92 |
+| counterfactually-augmented-snli      |            0.74 |
+| cnli                                 |            0.81 |
+| logiqa-2.0-nli                       |            0.57 |
+| mindgames                            |            0.94 |
+| ConTRoL-nli                          |            0.65 |
+| logical-fallacy                      |            0.31 |
+| conceptrules_v2                      |            0.99 |
+| zero-shot-label-nli                  |            0.74 |
+| scone                                |            0.97 |
+| monli                                |            0.98 |
+| SpaceNLI                             |            1    |
+| propsegment/nli                      |            0.91 |
+| SDOH-NLI                             |            1    |
+| scifact_entailment                   |            0.78 |
+| AdjectiveScaleProbe-nli              |            0.99 |
+| resnli                               |            0.99 |
+| semantic_fragments_nli               |            0.99 |
+| dataset_train_nli                    |            0.88 |
+| ruletaker                            |            0.91 |
 | PARARULE-Plus                        |            1    |
+| logical-entailment                   |            0.73 |
+| nope                                 |            0.54 |
+| LogicNLI                             |            0.65 |
+| contract-nli/contractnli_a/seg       |            0.87 |
+| contract-nli/contractnli_b/full      |            0.78 |
+| nli4ct_semeval2024                   |            0.6  |
+| biosift-nli                          |            0.88 |
+| SIGA-nli                             |            0.54 |
+| FOL-nli                              |            0.71 |
+| doc-nli                              |            0.82 |
+| mctest-nli                           |            0.89 |
+| idioms-nli                           |            0.86 |
+| lifecycle-entailment                 |            0.71 |
+| MSciNLI                              |            0.82 |
+| hover-3way/nli                       |            0.9  |
+| seahorse_summarization_evaluation    |            0.82 |
+| babi_nli                             |            0.94 |
+| gen_debiased_nli                     |            0.9  |
 # Usage