aws-neuron
/

optimum-neuron-cache

Model card Files Files and versions

dacorvo HF Staff commited on Apr 9, 2024

Commit

3fbf810

·

verified ·

1 Parent(s): 8f42988

Add more gpt2 configurations

Files changed (1) hide show

inference-cache-config/gpt2.json +8 -2

inference-cache-config/gpt2.json CHANGED Viewed

@@ -3,13 +3,19 @@
     {
       "batch_size": 1,
       "sequence_length": 1024,
-      "num_cores": 1,
       "auto_cast_type": "fp16"
     },
     {
       "batch_size": 16,
       "sequence_length": 1024,
-      "num_cores": 1,
       "auto_cast_type": "fp16"
     }
   ]

     {
       "batch_size": 1,
       "sequence_length": 1024,
+      "num_cores": 2,
+      "auto_cast_type": "fp16"
+    },
+    {
+      "batch_size": 4,
+      "sequence_length": 1024,
+      "num_cores": 2,
       "auto_cast_type": "fp16"
     },
     {
       "batch_size": 16,
       "sequence_length": 1024,
+      "num_cores": 2,
       "auto_cast_type": "fp16"
     }
   ]