Alibaba-NLP
/

gte-Qwen2-1.5B-instruct

@@ -119,7 +119,6 @@ CMTEB_TASK_LIST = ['TNews', 'IFlyTek', 'MultilingualSentiment', 'JDReview', 'Onl
                    'T2Retrieval', 'MMarcoRetrieval', 'DuRetrieval', 'CovidRetrieval', 'CmedqaRetrieval', 'EcomRetrieval', 'MedicalRetrieval', 'VideoRetrieval',
                    'ATEC', 'BQ', 'LCQMC', 'PAWSX', 'STSB', 'AFQMC', 'QBQTC', 'STS22']
 MTEB_PL = [
     "CBD","PolEmo2.0-IN","PolEmo2.0-OUT","AllegroReviews","PAC","MassiveIntentClassification","MassiveScenarioClassification",
     "SICK-E-PL","PPC","CDSC-E","PSC","8TagsClustering","SICK-R-PL","CDSC-R","STS22",
@@ -406,9 +405,9 @@ class Wrapper:
         self._target_device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         self.eod_id = self.tokenizer.convert_tokens_to_ids("<|endoftext|>")
         self.instruction = instruction
-        self.default_query = default_query
         self.force_default = force_default
         if self.tokenizer.padding_side != 'right':
             logger.warning(f"Change tokenizer.padding_side from {self.tokenizer.padding_side} to right")
             self.tokenizer.padding_side = 'right'
@@ -675,13 +674,15 @@ class Wrapper:
 def main(args):
     tokenizer = AutoTokenizer.from_pretrained(args.model, trust_remote_code=True)
     encoder = Encoder(args.model, args.pooling)
     model = Wrapper(
         tokenizer, encoder,
         batch_size=args.batch_size,
         max_seq_len=args.max_seq_len,
-        normalize_embeddings=args.norm
     )
     if args.task == 'mteb':
         task_names = MTEB_TASK_LIST
         lang = ['en']
@@ -709,8 +710,21 @@ def main(args):
             eval_splits = task_cls.description['eval_splits']
         else:
             eval_splits = ["test"]
         evaluation.run(model, output_folder=args.output_dir, eval_splits=eval_splits)
         print('\n')
@@ -729,4 +743,4 @@ if __name__ == "__main__":
     )
     _PARSER.add_argument("--norm", action="store_true")
     _ARGS = _PARSER.parse_args()
-    main(_ARGS)

                    'T2Retrieval', 'MMarcoRetrieval', 'DuRetrieval', 'CovidRetrieval', 'CmedqaRetrieval', 'EcomRetrieval', 'MedicalRetrieval', 'VideoRetrieval',
                    'ATEC', 'BQ', 'LCQMC', 'PAWSX', 'STSB', 'AFQMC', 'QBQTC', 'STS22']
 MTEB_PL = [
     "CBD","PolEmo2.0-IN","PolEmo2.0-OUT","AllegroReviews","PAC","MassiveIntentClassification","MassiveScenarioClassification",
     "SICK-E-PL","PPC","CDSC-E","PSC","8TagsClustering","SICK-R-PL","CDSC-R","STS22",
         self._target_device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
         self.eod_id = self.tokenizer.convert_tokens_to_ids("<|endoftext|>")
         self.instruction = instruction
+        self.default_query = default_query
+        self.sep = sep
         self.force_default = force_default
         if self.tokenizer.padding_side != 'right':
             logger.warning(f"Change tokenizer.padding_side from {self.tokenizer.padding_side} to right")
             self.tokenizer.padding_side = 'right'
 def main(args):
     tokenizer = AutoTokenizer.from_pretrained(args.model, trust_remote_code=True)
     encoder = Encoder(args.model, args.pooling)
+    default_query = args.default_type == 'query'
     model = Wrapper(
         tokenizer, encoder,
         batch_size=args.batch_size,
         max_seq_len=args.max_seq_len,
+        normalize_embeddings=args.norm,
+        default_query=default_query
     )
+    sym_retrievals = ['QuoraRetrieval', 'ArguAna', 'CQADupstack']
     if args.task == 'mteb':
         task_names = MTEB_TASK_LIST
         lang = ['en']
             eval_splits = task_cls.description['eval_splits']
         else:
             eval_splits = ["test"]
+        sym = False
+        for name in sym_retrievals:
+            if task.startswith(name):
+                sym = True
+                break
+            else:
+                sym = False
+        if sym:
+            logger.info(f"Switch to symmetric mode for {task}, all as {'query' if default_query else 'doc'}.")
+            model.force_default = True
         evaluation.run(model, output_folder=args.output_dir, eval_splits=eval_splits)
+        if sym:
+            logger.info(f"Switch back.")
+            model.force_default = force_default_ori
         print('\n')
     )
     _PARSER.add_argument("--norm", action="store_true")
     _ARGS = _PARSER.parse_args()
+    main(_ARGS)