Alibaba-NLP
/

gme-Qwen2-VL-2B-Instruct

Sentence Similarity

sentence-transformers

text-generation-inference

Model card Files Files and versions

izhx commited on Jun 9

Commit

23e2bf9

·

verified ·

1 Parent(s): 89146e4

Update custom_st.py

Files changed (1) hide show

custom_st.py +1 -5

custom_st.py CHANGED Viewed

@@ -6,7 +6,6 @@ import torch
 from PIL import Image
 from sentence_transformers.models import Transformer as BaseTransformer
 from transformers import AutoModelForVision2Seq, AutoProcessor
-from packaging import version
 import transformers
 class MultiModalTransformer(BaseTransformer):
@@ -54,10 +53,7 @@ class MultiModalTransformer(BaseTransformer):
         self, features: Dict[str, torch.Tensor], **kwargs
     ) -> Dict[str, torch.Tensor]:
         if features.get("inputs_embeds", None) is None:
-            if version.parse(transformers.__version__) >= version.parse("4.52.0"):
-                features["inputs_embeds"] = self.auto_model.base_model.language_model.embed_tokens(features["input_ids"])
-            else:
-                features["inputs_embeds"] = self.auto_model.base_model.embed_tokens(features["input_ids"])
             if features.get("pixel_values", None) is not None:
                 features["pixel_values"] = features["pixel_values"].type(self.auto_model.visual.get_dtype())
                 image_embeds = self.auto_model.visual(

 from PIL import Image
 from sentence_transformers.models import Transformer as BaseTransformer
 from transformers import AutoModelForVision2Seq, AutoProcessor
 import transformers
 class MultiModalTransformer(BaseTransformer):
         self, features: Dict[str, torch.Tensor], **kwargs
     ) -> Dict[str, torch.Tensor]:
         if features.get("inputs_embeds", None) is None:
+            features["inputs_embeds"] = self.auto_model.base_model.get_input_embeddings()(features["input_ids"])
             if features.get("pixel_values", None) is not None:
                 features["pixel_values"] = features["pixel_values"].type(self.auto_model.visual.get_dtype())
                 image_embeds = self.auto_model.visual(