Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -66,9 +66,22 @@ print("tied weights:", find_tied_parameters(untied_model))
 USER_ID = "YOUR_USER_ID"
 MODEL_NAME = model_id.split("/")[-1]
 save_to = f"{USER_ID}/{MODEL_NAME}-untied-weights"
 untied_model.push_to_hub(save_to)
 tokenizer.push_to_hub(save_to)
 ```
 ## Quantization
@@ -95,6 +108,7 @@ model_id = "microsoft/Phi-4-mini-instruct"
 USER_ID = "YOUR_USER_ID"
 MODEL_NAME = model_id.split("/")[-1]
 untied_model_id = f"{USER_ID}/{MODEL_NAME}-untied-weights"
 embedding_config = IntxWeightOnlyConfig(
     weight_dtype=torch.int8,
@@ -108,6 +122,7 @@ linear_config = Int8DynamicActivationIntxWeightConfig(
 quant_config = AOPerModuleConfig({"_default": linear_config, "model.embed_tokens": embedding_config})
 quantization_config = TorchAoConfig(quant_type=quant_config, include_embedding=True, untie_embedding_weights=True, modules_to_not_convert=[])
 quantized_model = AutoModelForCausalLM.from_pretrained(untied_model_id, torch_dtype=torch.float32, device_map="auto", quantization_config=quantization_config)
 tokenizer = AutoTokenizer.from_pretrained(model_id)

 USER_ID = "YOUR_USER_ID"
 MODEL_NAME = model_id.split("/")[-1]
 save_to = f"{USER_ID}/{MODEL_NAME}-untied-weights"
 untied_model.push_to_hub(save_to)
 tokenizer.push_to_hub(save_to)
+# or save locally
+save_to_local_path = f"{MODEL_NAME}-untied-weights"
+untied_model.save_pretrained(save_to_local_path)
+tokenizer.save_pretrained(save_to)
+```
+Note: to `push_to_hub` you need to run
+```Shell
+pip install -U "huggingface_hub[cli]"
+huggingface-cli login
 ```
+and use a token with write access, from https://huggingface.co/settings/tokens
 ## Quantization
 USER_ID = "YOUR_USER_ID"
 MODEL_NAME = model_id.split("/")[-1]
 untied_model_id = f"{USER_ID}/{MODEL_NAME}-untied-weights"
+untied_model_local_path = f"{MODEL_NAME}-untied-weights"
 embedding_config = IntxWeightOnlyConfig(
     weight_dtype=torch.int8,
 quant_config = AOPerModuleConfig({"_default": linear_config, "model.embed_tokens": embedding_config})
 quantization_config = TorchAoConfig(quant_type=quant_config, include_embedding=True, untie_embedding_weights=True, modules_to_not_convert=[])
+# either use `untied_model_id` or `untied_model_local_path`
 quantized_model = AutoModelForCausalLM.from_pretrained(untied_model_id, torch_dtype=torch.float32, device_map="auto", quantization_config=quantization_config)
 tokenizer = AutoTokenizer.from_pretrained(model_id)