Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

.gitattributes +1 -0
README.md +92 -3
chat_template.jinja +146 -0
config.json +112 -0
generation_config.json +11 -0
model.safetensors.index.json +245 -0
preprocessor_config.json +34 -0
processor_config.json +6 -0
special_tokens_map.json +23 -0
tokenizer_config.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,92 @@
----
-license: mit
----

+---
+license: apache-2.0
+base_model: meta-llama/Llama-3.2-1B
+tags:
+- fine-tuned
+- knowledge-distillation
+- llama
+language:
+- en
+pipeline_tag: text-generation
+---
+# tonyzhao123/dummy_llama4
+Llama 4 for small size EP debug and dist
+## Model Details
+- **Base Model**: meta-llama/Llama-3.2-1B
+- **Training Method**: Knowledge Distillation + Supervised Fine-tuning
+- **Dataset**: Custom KD Dataset (1000 samples)
+## Usage
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+import torch
+# Load model and tokenizer
+model_name = "tonyzhao123/dummy_llama4"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    torch_dtype=torch.float16,
+    device_map="auto"
+)
+# Example usage
+messages = [
+    {"role": "user", "content": "Hello! How are you doing today?"}
+]
+# Apply chat template
+text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+inputs = tokenizer(text, return_tensors="pt").to(model.device)
+# Generate response
+with torch.no_grad():
+    outputs = model.generate(
+        **inputs,
+        max_new_tokens=150,
+        do_sample=True,
+        temperature=0.7,
+        top_p=0.9,
+        pad_token_id=tokenizer.eos_token_id
+    )
+response = tokenizer.decode(outputs[0], skip_special_tokens=True)
+print(response)
+```
+## Training Details
+- **Training Framework**: TRL (Transformers Reinforcement Learning)
+- **Optimizer**: AdamW
+- **Learning Rate**: 2e-5
+- **Batch Size**: 4
+- **Epochs**: 5
+- **Scheduler**: Cosine
+- **Precision**: FP16
+## Performance
+This model has been fine-tuned using knowledge distillation techniques to maintain performance while potentially reducing model size or improving specific capabilities.
+## Limitations
+- This is a fine-tuned model and may have inherited biases from the base model
+- Performance may vary on different types of tasks
+- Always evaluate the model on your specific use case
+## Citation
+```bibtex
+@misc{tonyzhao123/dummy_llama4_2024,
+  title={tonyzhao123/dummy_llama4},
+  author={Your Name},
+  year={2024},
+  publisher={Hugging Face},
+  url={https://huggingface.co/tonyzhao123/dummy_llama4}
+}
+```

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,146 @@

+{{- bos_token }}
+{%- if custom_tools is defined %}
+    {%- set tools = custom_tools %}
+{%- endif %}
+{%- if not tools_in_user_message is defined %}
+    {%- set tools_in_user_message = true %}
+{%- endif %}
+{%- if not date_string is defined %}
+    {%- if strftime_now is defined %}
+        {%- set date_string = strftime_now("%d %b %Y") %}
+    {%- else %}
+        {%- set date_string = "26 Jul 2024" %}
+    {%- endif %}
+{%- endif %}
+{%- if not tools is defined %}
+    {%- set tools = none %}
+{%- endif %}
+{#- This block extracts the system message, so we can slot it into the right place. #}
+{%- if messages[0]['role'] == 'system' %}
+    {%- if messages[0]['content'] is string %}
+        {%- set system_message = messages[0]['content']|trim %}
+    {%- else %}
+        {#- FIXME: The processor requires an array, always. #}
+        {%- set system_message = messages[0]['content'][0]['text']|trim %}
+    {%- endif %}
+    {%- set messages = messages[1:] %}
+    {%- set user_supplied_system_message = true %}
+{%- else %}
+    {%- set system_message = "" %}
+    {%- set user_supplied_system_message = false %}
+{%- endif %}
+{#- System message if the user supplied one #}
+{%- if user_supplied_system_message %}
+    {{- "<|header_start|>system<|header_end|>
+" }}
+    {%- if tools is not none %}
+        {{- "Environment: ipython
+" }}
+    {%- endif %}
+    {%- if tools is not none and not tools_in_user_message %}
+        {{- "You have access to the following functions. To call a function, please respond with JSON for a function call." }}
+        {{- 'Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}.' }}
+        {{- "Do not use variables.
+" }}
+        {%- for t in tools %}
+            {{- t | tojson(indent=4) }}
+            {{- "
+" }}
+        {%- endfor %}
+    {%- endif %}
+    {{- system_message }}
+    {{- "<|eot|>" }}
+{%- endif %}
+{#- Custom tools are passed in a user message with some extra guidance #}
+{%- if tools_in_user_message and not tools is none %}
+    {#- Extract the first user message so we can plug it in here #}
+    {%- if messages | length != 0 %}
+        {%- set first_user_message = messages[0]['content']|trim %}
+        {%- set messages = messages[1:] %}
+    {%- else %}
+        {{- raise_exception("Cannot put tools in the first user message when there's no first user message!") }}
+{%- endif %}
+    {{- '<|header_start|>user<|header_end|>
+' -}}
+    {{- "Given the following functions, please respond with a JSON for a function call " }}
+    {{- "with its proper arguments that best answers the given prompt.
+" }}
+    {{- 'Respond in the format {"name": function name, "parameters": dictionary of argument name and its value}.' }}
+    {{- "Do not use variables.
+" }}
+    {%- for t in tools %}
+        {{- t | tojson(indent=4) }}
+        {{- "
+" }}
+    {%- endfor %}
+    {{- first_user_message + "<|eot|>"}}
+{%- endif %}
+{%- for message in messages %}
+    {%- if not (message.role == 'ipython' or message.role == 'tool' or 'tool_calls' in message) %}
+    {{- '<|header_start|>' + message['role'] + '<|header_end|>
+' }}
+        {%- if message['content'] is string %}
+            {{- message['content'] }}
+        {%- else %}
+            {%- for content in message['content'] %}
+                {%- if content['type'] == 'image' %}
+                    {{- '<|image|>' }}
+                {%- elif content['type'] == 'text' %}
+                    {{- content['text'] }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+        {{- "<|eot|>" }}
+    {%- elif 'tool_calls' in message and message.tool_calls|length > 0 %}
+       {{- '<|header_start|>assistant<|header_end|>
+' -}}
+       {{- '<|python_start|>' }}
+        {%- if message['content'] is string %}
+            {{- message['content'] }}
+        {%- else %}
+            {%- for content in message['content'] %}
+                {%- if content['type'] == 'image' %}
+                    {{- '<|image|>' }}
+                {%- elif content['type'] == 'text' %}
+                    {{- content['text'] }}
+                {%- endif %}
+            {%- endfor %}
+        {%- endif %}
+       {{- '<|python_end|>' }}
+        {%- for tool_call in message.tool_calls %}
+           {{- '{"name": "' + tool_call.function.name + '", ' }}
+           {{- '"parameters": ' }}
+           {{- tool_call.function.arguments | tojson }}
+           {{- "}" }}
+        {%- endfor %}
+       {{- "<|eot|>" }}
+    {%- elif message.role == "tool" or message.role == "ipython" %}
+        {{- "<|header_start|>ipython<|header_end|>
+" }}
+        {%- if message.content is mapping or message.content is iterable %}
+            {{- message.content | tojson }}
+        {%- else %}
+            {{- message.content }}
+        {%- endif %}
+        {{- "<|eot|>" }}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|header_start|>assistant<|header_end|>
+' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,112 @@

+{
+  "architectures": [
+    "Llama4ForConditionalGeneration"
+  ],
+  "boi_token_index": 200080,
+  "eoi_token_index": 200081,
+  "image_token_index": 200092,
+  "model_type": "llama4",
+  "text_config": {
+    "attention_bias": false,
+    "attention_chunk_size": 8192,
+    "attention_dropout": 0.0,
+    "attn_scale": 0.1,
+    "attn_temperature_tuning": true,
+    "bos_token_id": 200000,
+    "eos_token_id": [
+      200001,
+      200007,
+      200008
+    ],
+    "floor_scale": 8192,
+    "for_llm_compressor": false,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 768,
+    "initializer_range": 0.02,
+    "interleave_moe_layer_step": 1,
+    "intermediate_size": 3072,
+    "intermediate_size_mlp": 16384,
+    "layer_types": [
+      "chunked_attention",
+      "chunked_attention",
+      "chunked_attention",
+      "full_attention",
+      "chunked_attention",
+      "chunked_attention",
+      "chunked_attention",
+      "full_attention"
+    ],
+    "max_position_embeddings": 8192,
+    "model_type": "llama4_text",
+    "moe_layers": [
+      0,
+      1,
+      2,
+      3,
+      4,
+      5,
+      6,
+      7
+    ],
+    "no_rope_layers": [
+      1,
+      1,
+      1,
+      0,
+      1,
+      1,
+      1,
+      0
+    ],
+    "num_attention_heads": 8,
+    "num_experts_per_tok": 1,
+    "num_hidden_layers": 8,
+    "num_key_value_heads": 2,
+    "num_local_experts": 4,
+    "output_router_logits": false,
+    "pad_token_id": 200018,
+    "rms_norm_eps": 1e-05,
+    "rope_scaling": {
+      "factor": 16.0,
+      "high_freq_factor": 1.0,
+      "low_freq_factor": 1.0,
+      "original_max_position_embeddings": 8192,
+      "rope_type": "llama3"
+    },
+    "rope_theta": 500000.0,
+    "router_aux_loss_coef": 0.001,
+    "router_jitter_noise": 0.0,
+    "torch_dtype": "float32",
+    "use_cache": true,
+    "use_qk_norm": true,
+    "vocab_size": 202048
+  },
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "hidden_act": "gelu",
+    "hidden_size": 1408,
+    "image_size": 336,
+    "initializer_range": 0.02,
+    "intermediate_size": 3096,
+    "model_type": "llama4_vision_model",
+    "multi_modal_projector_bias": false,
+    "norm_eps": 1e-05,
+    "num_attention_heads": 8,
+    "num_channels": 3,
+    "num_hidden_layers": 8,
+    "patch_size": 14,
+    "pixel_shuffle_ratio": 0.5,
+    "projector_dropout": 0.0,
+    "projector_input_dim": 768,
+    "projector_output_dim": 768,
+    "rope_theta": 10000,
+    "torch_dtype": "float32",
+    "vision_feature_layer": -1,
+    "vision_feature_select_strategy": "default",
+    "vision_output_dim": 768
+  }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 200000,
+  "eos_token_id": [
+    200001,
+    200007,
+    200008
+  ],
+  "pad_token_id": 200018,
+  "transformers_version": "4.55.2"
+}

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,245 @@

+{
+  "metadata": {
+    "total_parameters": 2050537216,
+    "total_size": 8202148864
+  },
+  "weight_map": {
+    "language_model.lm_head.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.feed_forward.experts.down_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.feed_forward.experts.gate_up_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.feed_forward.router.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.feed_forward.shared_expert.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.feed_forward.shared_expert.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.feed_forward.shared_expert.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.feed_forward.experts.down_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.feed_forward.experts.gate_up_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.feed_forward.router.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.feed_forward.shared_expert.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.feed_forward.shared_expert.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.feed_forward.shared_expert.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.feed_forward.experts.down_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.feed_forward.experts.gate_up_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.feed_forward.router.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.feed_forward.shared_expert.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.feed_forward.shared_expert.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.feed_forward.shared_expert.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.feed_forward.experts.down_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.feed_forward.experts.gate_up_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.feed_forward.router.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.feed_forward.shared_expert.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.feed_forward.shared_expert.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.feed_forward.shared_expert.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.feed_forward.experts.down_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.feed_forward.experts.gate_up_proj": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.feed_forward.router.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.feed_forward.shared_expert.down_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.feed_forward.shared_expert.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.feed_forward.shared_expert.up_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.feed_forward.experts.down_proj": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.5.feed_forward.experts.gate_up_proj": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.5.feed_forward.router.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.5.feed_forward.shared_expert.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.5.feed_forward.shared_expert.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.5.feed_forward.shared_expert.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "language_model.model.layers.6.feed_forward.experts.down_proj": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.feed_forward.experts.gate_up_proj": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.feed_forward.router.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.feed_forward.shared_expert.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.feed_forward.shared_expert.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.feed_forward.shared_expert.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.feed_forward.experts.down_proj": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.feed_forward.experts.gate_up_proj": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.feed_forward.router.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.feed_forward.shared_expert.down_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.feed_forward.shared_expert.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.feed_forward.shared_expert.up_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "language_model.model.norm.weight": "model-00002-of-00002.safetensors",
+    "multi_modal_projector.linear_1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.class_embedding": "model-00001-of-00002.safetensors",
+    "vision_model.layernorm_post.bias": "model-00001-of-00002.safetensors",
+    "vision_model.layernorm_post.weight": "model-00001-of-00002.safetensors",
+    "vision_model.layernorm_pre.bias": "model-00001-of-00002.safetensors",
+    "vision_model.layernorm_pre.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.self_attn.o_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.self_attn.o_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.self_attn.o_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.self_attn.o_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.self_attn.o_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.self_attn.o_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.self_attn.o_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.input_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.mlp.fc1.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.mlp.fc2.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.mlp.fc2.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.post_attention_layernorm.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.self_attn.o_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "vision_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "vision_model.patch_embedding.linear.weight": "model-00001-of-00002.safetensors",
+    "vision_model.positional_embedding_vlm": "model-00001-of-00002.safetensors",
+    "vision_model.vision_adapter.mlp.fc1.weight": "model-00001-of-00002.safetensors",
+    "vision_model.vision_adapter.mlp.fc2.weight": "model-00001-of-00002.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "crop_size": null,
+  "data_format": "channels_first",
+  "default_to_square": true,
+  "device": null,
+  "disable_grouping": null,
+  "do_center_crop": null,
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Llama4ImageProcessorFast",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "input_data_format": null,
+  "max_patches": 16,
+  "processor_class": "Llama4Processor",
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "resize_to_max_canvas": false,
+  "return_tensors": null,
+  "size": {
+    "height": 336,
+    "width": 336
+  }
+}

processor_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "fake_image_token": "<|image|>",
+  "image_token": "<|image|>",
+  "patch_size": 14,
+  "processor_class": "Llama4Processor"
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<|begin_of_text|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|eot|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|finetune_right_pad|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff