Update handler.py

Files changed (1) hide show

handler.py CHANGED Viewed

@@ -87,11 +87,13 @@ class EndpointHandler:
         model = None
         quantization_config = None
-        # Attempt 1: Try with 8-bit quantization
         if torch.cuda.is_available():
             try:
                 from transformers import BitsAndBytesConfig
-                logger.info("Attempting to load with 8-bit quantization...")
                 bnb_config = BitsAndBytesConfig(load_in_8bit=True)
@@ -107,6 +109,9 @@ class EndpointHandler:
                 logger.info("Successfully loaded with 8-bit quantization")
                 quantization_config = "8-bit"
             except Exception as e:
                 logger.warning(f"8-bit quantization failed: {str(e)}")
                 logger.info("Falling back to FP16 without quantization...")

         model = None
         quantization_config = None
+        # Attempt 1: Try with 8-bit quantization (if bitsandbytes is available)
         if torch.cuda.is_available():
             try:
+                # Check if bitsandbytes is available
+                import bitsandbytes
                 from transformers import BitsAndBytesConfig
+                logger.info("bitsandbytes available, attempting 8-bit quantization...")
                 bnb_config = BitsAndBytesConfig(load_in_8bit=True)
                 logger.info("Successfully loaded with 8-bit quantization")
                 quantization_config = "8-bit"
+            except ImportError as e:
+                logger.info(f"bitsandbytes not available ({str(e)}), skipping quantization...")
+                model = None
             except Exception as e:
                 logger.warning(f"8-bit quantization failed: {str(e)}")
                 logger.info("Falling back to FP16 without quantization...")