openbmb
/

MiniCPM-o-2_6

Handle truncated image boundaries in `_convert` to avoid tensor size mismatch

#54

by maikezu - opened 7 days ago

←

Files changed (1) hide show

processing_minicpmo.py CHANGED Viewed

@@ -269,7 +269,7 @@ class MiniCPMOProcessor(ProcessorMixin):
         image_start_idx += 1
         image_end_idx = torch.where(end_cond)[0]
-        valid_image_nums = max(len(image_start_idx), len(image_end_idx))
         image_bounds = torch.hstack(
             [
@@ -278,16 +278,23 @@ class MiniCPMOProcessor(ProcessorMixin):
             ]
         )
         ##  audio bound
         audio_start_idx = torch.where(input_ids == self.tokenizer.audio_start_id)[0]
         audio_end_idx = torch.where(input_ids == self.tokenizer.audio_end_id)[0]
-        assert len(audio_start_idx) == len(audio_end_idx)
-        audio_bounds = torch.hstack([(audio_start_idx + 1).unsqueeze(-1), audio_end_idx.unsqueeze(-1)])
         spk_start_idx = torch.where(input_ids == self.tokenizer.spk_start_id)[0]
         spk_end_idx = torch.where(input_ids == self.tokenizer.spk_end_id)[0]
-        assert len(spk_start_idx) == len(spk_end_idx)
-        spk_bounds = torch.hstack([(spk_start_idx + 1).unsqueeze(-1), spk_end_idx.unsqueeze(-1)])
         return input_ids, image_bounds, audio_bounds, spk_bounds

         image_start_idx += 1
         image_end_idx = torch.where(end_cond)[0]
+        valid_image_nums = min(len(image_start_idx), len(image_end_idx))
         image_bounds = torch.hstack(
             [
             ]
         )
         ##  audio bound
         audio_start_idx = torch.where(input_ids == self.tokenizer.audio_start_id)[0]
         audio_end_idx = torch.where(input_ids == self.tokenizer.audio_end_id)[0]
+        valid_audio_nums = min(len(audio_start_idx), len(audio_end_idx))
+        audio_bounds = torch.hstack([
+            (audio_start_idx[:valid_audio_nums] + 1).unsqueeze(-1),
+            audio_end_idx[:valid_audio_nums].unsqueeze(-1)
+        ])
         spk_start_idx = torch.where(input_ids == self.tokenizer.spk_start_id)[0]
         spk_end_idx = torch.where(input_ids == self.tokenizer.spk_end_id)[0]
+        valid_spk_nums = min(len(spk_start_idx), len(spk_end_idx))
+        spk_bounds = torch.hstack([
+            (spk_start_idx[:valid_spk_nums] + 1).unsqueeze(-1),
+            spk_end_idx[:valid_spk_nums].unsqueeze(-1)
+        ])
         return input_ids, image_bounds, audio_bounds, spk_bounds