internlm
/

internlm-xcomposer2d5-7b

@@ -94,7 +94,7 @@ class InternLMXcomposer2Config(PretrainedConfig):
         bias=True,
         rope_theta=10000,
         rope_scaling=None,
-        attn_implementation="eager",
         **kwargs,
     ):
         self.vocab_size = vocab_size
@@ -119,7 +119,7 @@ class InternLMXcomposer2Config(PretrainedConfig):
         self.attn_implementation = attn_implementation
         if self.attn_implementation is None:
-            self.attn_implementation = "eager"
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,

         bias=True,
         rope_theta=10000,
         rope_scaling=None,
+        attn_implementation="flash_attention_2",
         **kwargs,
     ):
         self.vocab_size = vocab_size
         self.attn_implementation = attn_implementation
         if self.attn_implementation is None:
+            self.attn_implementation = "flash_attention_2"
         super().__init__(
             pad_token_id=pad_token_id,
             bos_token_id=bos_token_id,