Replace the inplace operation (#7)

- Update modeling_minicpmo.py (909a86b1f20fd048c8a8fbe4119910812cc3eaaf)

Co-authored-by: Zhangchi Feng <[email protected]>

Files changed (1) hide show

modeling_minicpmo.py +10 -6

modeling_minicpmo.py CHANGED Viewed

@@ -377,10 +377,12 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         else:
             vllm_embedding = self.llm.model.embed_tokens(data["input_ids"])
         vision_hidden_states = [
             i.type(vllm_embedding.dtype) if isinstance(i, torch.Tensor) else i for i in vision_hidden_states
         ]
         bs = len(data["input_ids"])
         for i in range(bs):
             cur_vs_hs = vision_hidden_states[i]
@@ -392,15 +394,16 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
                         [torch.arange(r[0], r[1], dtype=torch.long) for r in cur_image_bound]
                     ).to(vllm_embedding.device)
-                    cur_vllm_emb.scatter_(
                         0,
                         image_indices.view(-1, 1).repeat(1, cur_vllm_emb.shape[-1]),
                         cur_vs_hs.view(-1, cur_vs_hs.shape[-1]),
                     )
                 elif self.training:
-                    cur_vllm_emb += cur_vs_hs[0].mean() * 0
-        return vllm_embedding, vision_hidden_states
     def get_audio_embedding_streaming(self, data):
         r"""
@@ -595,7 +598,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         elif self.training:
             for i in range(bs):
                 # dummy audio_embeddings
-                input_embeddings += audio_embeddings[0].mean() * 0
         return input_embeddings
@@ -751,7 +754,7 @@ class MiniCPMO(MiniCPMOPreTrainedModel):
         input_ids=None,
         pixel_values=None,
         tgt_sizes=None,
-        audio_features=None,
         audio_feature_lens=None,
         image_bound=None,
         audio_bounds=None,
@@ -2655,6 +2658,7 @@ class ConditionalChatTTS(PreTrainedModel):
     """
     config_class = ConditionalChatTTSConfig
     def __init__(self, config: ConditionalChatTTSConfig):
         super().__init__(config)

         else:
             vllm_embedding = self.llm.model.embed_tokens(data["input_ids"])
+        new_vllm_embedding = vllm_embedding.clone()
         vision_hidden_states = [
             i.type(vllm_embedding.dtype) if isinstance(i, torch.Tensor) else i for i in vision_hidden_states
         ]
         bs = len(data["input_ids"])
         for i in range(bs):
             cur_vs_hs = vision_hidden_states[i]
                         [torch.arange(r[0], r[1], dtype=torch.long) for r in cur_image_bound]
                     ).to(vllm_embedding.device)
+                    new_vllm_embedding[i] = cur_vllm_emb.scatter(
                         0,
                         image_indices.view(-1, 1).repeat(1, cur_vllm_emb.shape[-1]),
                         cur_vs_hs.view(-1, cur_vs_hs.shape[-1]),
                     )
                 elif self.training:
+                    new_vllm_embedding[i] += cur_vs_hs[0].mean() * 0
+        return new_vllm_embedding, vision_hidden_states
     def get_audio_embedding_streaming(self, data):
         r"""
         elif self.training:
             for i in range(bs):
                 # dummy audio_embeddings
+                input_embeddings = input_embeddings + audio_embeddings[0].mean() * 0
         return input_embeddings
         input_ids=None,
         pixel_values=None,
         tgt_sizes=None,
+        audio_features=[],
         audio_feature_lens=None,
         image_bound=None,
         audio_bounds=None,
     """
     config_class = ConditionalChatTTSConfig
+    _no_split_modules = []
     def __init__(self, config: ConditionalChatTTSConfig):
         super().__init__(config)