AetherArchitectural
/

GGUF-Quantization-Script

@@ -121,7 +121,7 @@ def convert_model_to_gguf_f16(base_dir, model_dir, model_name, delete_model_dir,
     create_imatrix(base_dir, gguf_dir, gguf_model_path, model_name, imatrix_file_name)
 def create_imatrix(base_dir, gguf_dir, gguf_model_path, model_name, imatrix_file_name):
-    imatrix_exe = os.path.join(base_dir, "bin", "imatrix.exe")
     imatrix_output_src = os.path.join(gguf_dir, "imatrix.dat")
     imatrix_output_dst = os.path.join(gguf_dir, "imatrix.dat")
     if not os.path.exists(imatrix_output_dst):
@@ -142,7 +142,7 @@ def quantize_models(base_dir, model_name):
     quantization_options = [
         "IQ3_M", "IQ3_XXS",
-        "Q4_K_M", "Q4_K_S", "IQ4_NL", "IQ4_XS",
         "Q5_K_M", "Q5_K_S",
         "Q6_K",
         "Q8_0"
@@ -151,7 +151,7 @@ def quantize_models(base_dir, model_name):
     for quant_option in quantization_options:
         quantized_gguf_name = f"{model_name}-{quant_option}-imat.gguf"
         quantized_gguf_path = os.path.join(gguf_dir, quantized_gguf_name)
-        quantize_command = os.path.join(base_dir, "bin", "quantize.exe")
         imatrix_path = os.path.join(gguf_dir, "imatrix.dat")
         subprocess.run([quantize_command, "--imatrix", imatrix_path,

     create_imatrix(base_dir, gguf_dir, gguf_model_path, model_name, imatrix_file_name)
 def create_imatrix(base_dir, gguf_dir, gguf_model_path, model_name, imatrix_file_name):
+    imatrix_exe = os.path.join(base_dir, "bin", "llama-imatrix.exe")
     imatrix_output_src = os.path.join(gguf_dir, "imatrix.dat")
     imatrix_output_dst = os.path.join(gguf_dir, "imatrix.dat")
     if not os.path.exists(imatrix_output_dst):
     quantization_options = [
         "IQ3_M", "IQ3_XXS",
+        "Q4_K_M", "Q4_K_S", "IQ4_XS",
         "Q5_K_M", "Q5_K_S",
         "Q6_K",
         "Q8_0"
     for quant_option in quantization_options:
         quantized_gguf_name = f"{model_name}-{quant_option}-imat.gguf"
         quantized_gguf_path = os.path.join(gguf_dir, quantized_gguf_name)
+        quantize_command = os.path.join(base_dir, "bin", "llama-quantize.exe")
         imatrix_path = os.path.join(gguf_dir, "imatrix.dat")
         subprocess.run([quantize_command, "--imatrix", imatrix_path,