deepseek-ai
/

DeepSeek-V3

Text Generation

text-generation-inference

Model card Files Files and versions

Remove redundant code

#106

by GloomScythe - opened Jul 9

base: refs/heads/main

←

from: refs/pr/106

Discussion Files changed

Files changed (1) hide show

modeling_deepseek.py +0 -1

modeling_deepseek.py CHANGED Viewed

@@ -921,7 +921,6 @@ class DeepseekV3FlashAttention2(DeepseekV3Attention):
         k_nope, value_states = torch.split(
             kv, [self.qk_nope_head_dim, self.v_head_dim], dim=-1
         )
-        kv_seq_len = value_states.shape[-2]
         kv_seq_len = value_states.shape[-2]
         if past_key_value is not None:

         k_nope, value_states = torch.split(
             kv, [self.qk_nope_head_dim, self.v_head_dim], dim=-1
         )
         kv_seq_len = value_states.shape[-2]
         if past_key_value is not None: