docling-project
/

SmolDocling-256M-preview

Image-Text-to-Text

Model card Files Files and versions

asnassar commited on Mar 10

Commit

bc66c00

·

verified ·

1 Parent(s): c15d2cc

Update README.md

Files changed (1) hide show

README.md +62 -2

README.md CHANGED Viewed

@@ -47,7 +47,17 @@ SmolDocling is a multimodal Image-Text-to-Text model designed for efficient docu
 You can use transformers or docling to perform inference:
-#### Transformers:
 ```python
 import torch
@@ -93,9 +103,59 @@ generated_texts = processor.batch_decode(
 print(generated_texts[0])
 ```
-#### Using Docling Example [here]()
 ## Supported Instructions

 You can use transformers or docling to perform inference:
+<details>
+<summary>Inference using Docling</summary>
+```python
+print(generated_texts[0])
+```
+</details>
+<details>
+<summary>Single image inference using Tranformers</summary>
 ```python
 import torch
 print(generated_texts[0])
 ```
+</details>
+<details>
+<summary> 🚀 Fast Batch Inference Using VLLM</summary>
+```python
+!pip install vllm
+import time
+import os
+from vllm import LLM, SamplingParams
+from PIL import Image
+# Configuration
+MODEL_PATH = "ds4sd/SmolDocling-256M-preview"
+IMAGE_DIR = "images_dir"
+OUTPUT_DIR = "output_pred_dir"
+PROMPT_TEXT = "Convert page to Docling."
+# Ensure output directory exists
+os.makedirs(OUTPUT_DIR, exist_ok=True)
+# Initialize LLM
+llm = LLM(model=MODEL_PATH, limit_mm_per_prompt={"image": 1})
+sampling_params = SamplingParams(
+    temperature=0.0,
+    max_tokens=8192)
+chat_template = f"<|im_start|>User:<image>{PROMPT_TEXT}<end_of_utterance>\nAssistant:"
+image_files = sorted([f for f in os.listdir(IMAGE_DIR) if f.lower().endswith((".png", ".jpg", ".jpeg"))])
+start_time = time.time()
+total_tokens = 0
+for idx, img_file in enumerate(image_files, 1):
+    img_path = os.path.join(IMAGE_DIR, img_file)
+    image = Image.open(img_path).convert("RGB")
+    llm_input = {"prompt": chat_template, "multi_modal_data": {"image": image}}
+    output = llm.generate([llm_input], sampling_params=sampling_params)[0]
+    output_text = output.outputs[0].text
+    output_filename = os.path.splitext(img_file)[0] + ".dt"
+    output_path = os.path.join(OUTPUT_DIR, output_filename)
+    with open(output_path, "w", encoding="utf-8") as f:
+        f.write(output_text)
+print(f"Total time: {time.time() - start_time:.2f} sec")
+```
+</details>
 ## Supported Instructions