Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -96,21 +96,9 @@ linear_config = Int8DynamicActivationIntxWeightConfig(
 quant_config = AOPerModuleConfig({"_default": linear_config, "model.embed_tokens": embedding_config})
 quantization_config = TorchAoConfig(quant_type=quant_config, include_embedding=True, untie_embedding_weights=True, modules_to_not_convert=[])
 quantized_model = AutoModelForCausalLM.from_pretrained(untied_model_id, torch_dtype=torch.float32, device_map="auto", quantization_config=quantization_config)
 tokenizer = AutoTokenizer.from_pretrained(model_id)
-# TODO: use AOPerModuleConfig once fix for tied weights is landed
-quantize_(
-    quantized_model,
-    embedding_config,
-    lambda m, fqn: isinstance(m, torch.nn.Embedding)
-)
-quantize_(
-    quantized_model,
-    linear_config,
-)
 # Push to hub
 # USER_ID = "YOUR_USER_ID"
 # save_to = f"{USER_ID}/phi4-mini-8dq4w"

 quant_config = AOPerModuleConfig({"_default": linear_config, "model.embed_tokens": embedding_config})
 quantization_config = TorchAoConfig(quant_type=quant_config, include_embedding=True, untie_embedding_weights=True, modules_to_not_convert=[])
 quantized_model = AutoModelForCausalLM.from_pretrained(untied_model_id, torch_dtype=torch.float32, device_map="auto", quantization_config=quantization_config)
 tokenizer = AutoTokenizer.from_pretrained(model_id)
 # Push to hub
 # USER_ID = "YOUR_USER_ID"
 # save_to = f"{USER_ID}/phi4-mini-8dq4w"