Qwen
/

Qwen3-Embedding-0.6B

Feature Extraction

sentence-transformers

text-generation

sentence-similarity

text-embeddings-inference

text-generation-inference

Model card Files Files and versions

Reduce GPU memory usage in the runtime.

#14

by xiping - opened Jun 9

base: refs/heads/main

←

from: refs/pr/14

Discussion Files changed

Files changed (1) hide show

README.md +2 -1

README.md CHANGED Viewed

@@ -157,7 +157,8 @@ batch_dict = tokenizer(
     return_tensors="pt",
 )
 batch_dict.to(model.device)
-outputs = model(**batch_dict)
 embeddings = last_token_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
 # normalize embeddings

     return_tensors="pt",
 )
 batch_dict.to(model.device)
+with torch.no_grad():
+    outputs = model(**batch_dict)
 embeddings = last_token_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
 # normalize embeddings