jinaai
/

jina-bert-flash-implementation

Markus28 commited on Mar 5, 2024

Commit

3f5615c

1 Parent(s): 599c64e

fix: assert is None for other kwargs too

Files changed (2) hide show

modeling_bert.py CHANGED Viewed

@@ -379,16 +379,12 @@ class BertModel(BertPreTrainedModel):
         task_type_ids=None,
         attention_mask=None,
         masked_tokens_mask=None,
-        head_mask=None,
     ):
         """If masked_tokens_mask is not None (i.e. last_layer_subset == True in BertForPreTraining),
         we only want the output for the masked tokens. This means that we only compute the last
         layer output for these tokens.
         masked_tokens_mask: (batch, seqlen), dtype=torch.bool
         """
-        if head_mask is not None:
-            raise NotImplementedError('Masking heads is not supported')
         hidden_states = self.embeddings(
             input_ids, position_ids=position_ids, token_type_ids=token_type_ids
         )

         task_type_ids=None,
         attention_mask=None,
         masked_tokens_mask=None,
     ):
         """If masked_tokens_mask is not None (i.e. last_layer_subset == True in BertForPreTraining),
         we only want the output for the masked tokens. This means that we only compute the last
         layer output for these tokens.
         masked_tokens_mask: (batch, seqlen), dtype=torch.bool
         """
         hidden_states = self.embeddings(
             input_ids, position_ids=position_ids, token_type_ids=token_type_ids
         )

modeling_for_glue.py CHANGED Viewed

@@ -51,16 +51,16 @@ class BertForSequenceClassification(BertPreTrainedModel):
             return_dict if return_dict is not None else self.config.use_return_dict
         )
         outputs = self.bert(
             input_ids,
             attention_mask=attention_mask,
             token_type_ids=token_type_ids,
             position_ids=position_ids,
-            head_mask=head_mask,
-            inputs_embeds=inputs_embeds,
-            output_attentions=output_attentions,
-            output_hidden_states=output_hidden_states,
-            return_dict=return_dict,
         )
         pooled_output = outputs[1]

             return_dict if return_dict is not None else self.config.use_return_dict
         )
+        assert head_mask is None
+        assert inputs_embeds is None
+        assert output_attentions is None
+        assert output_hidden_states is None
+        assert return_dict is None
         outputs = self.bert(
             input_ids,
             attention_mask=attention_mask,
             token_type_ids=token_type_ids,
             position_ids=position_ids,
         )
         pooled_output = outputs[1]