Fix truncated sequences in _convert for audio and speaker spans

Extended the previous fix for _convert to also handle truncated audio and speaker spans.

Uses min(len(start), len(end)) for audio_bounds and spk_bounds to avoid runtime errors when max_inp_length truncates sequences.

Files changed (1) hide show

processing_minicpmo.py +11 -4

processing_minicpmo.py CHANGED Viewed

@@ -278,16 +278,23 @@ class MiniCPMOProcessor(ProcessorMixin):
             ]
         )
         ##  audio bound
         audio_start_idx = torch.where(input_ids == self.tokenizer.audio_start_id)[0]
         audio_end_idx = torch.where(input_ids == self.tokenizer.audio_end_id)[0]
-        assert len(audio_start_idx) == len(audio_end_idx)
-        audio_bounds = torch.hstack([(audio_start_idx + 1).unsqueeze(-1), audio_end_idx.unsqueeze(-1)])
         spk_start_idx = torch.where(input_ids == self.tokenizer.spk_start_id)[0]
         spk_end_idx = torch.where(input_ids == self.tokenizer.spk_end_id)[0]
-        assert len(spk_start_idx) == len(spk_end_idx)
-        spk_bounds = torch.hstack([(spk_start_idx + 1).unsqueeze(-1), spk_end_idx.unsqueeze(-1)])
         return input_ids, image_bounds, audio_bounds, spk_bounds

             ]
         )
         ##  audio bound
         audio_start_idx = torch.where(input_ids == self.tokenizer.audio_start_id)[0]
         audio_end_idx = torch.where(input_ids == self.tokenizer.audio_end_id)[0]
+        valid_audio_nums = min(len(audio_start_idx), len(audio_end_idx))
+        audio_bounds = torch.hstack([
+            (audio_start_idx[:valid_audio_nums] + 1).unsqueeze(-1),
+            audio_end_idx[:valid_audio_nums].unsqueeze(-1)
+        ])
         spk_start_idx = torch.where(input_ids == self.tokenizer.spk_start_id)[0]
         spk_end_idx = torch.where(input_ids == self.tokenizer.spk_end_id)[0]
+        valid_spk_nums = min(len(spk_start_idx), len(spk_end_idx))
+        spk_bounds = torch.hstack([
+            (spk_start_idx[:valid_spk_nums] + 1).unsqueeze(-1),
+            spk_end_idx[:valid_spk_nums].unsqueeze(-1)
+        ])
         return input_ids, image_bounds, audio_bounds, spk_bounds