Upload folder using huggingface_hub

Files changed (7) hide show

.gitattributes CHANGED Viewed

@@ -33,3 +33,5 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+model-q4k.gguf filter=lfs diff=lfs merge=lfs -text
+model-q80.gguf filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -1,3 +1,14 @@
----
-license: cc-by-4.0
----

+---
+license: cc-by-4.0
+language:
+  - en
+  - fr
+library_name: moshi
+tags:
+  - audio
+  - automatic-speech-recognition
+---
+# Moshi Streaming Speech-to-Text (Quantized)
+This is a quantized version of Kyutai’s [stt-1b-en_fr](https://huggingface.co/kyutai/stt-1b-en_fr) model. The original model is a 1B parameter streaming speech-to-text model for English and French. This fork contains the same model, quantized to Q8_0 and Q4_K GGUF formats for reduced memory usage and faster inference.

config.json ADDED Viewed

+{
+  "card": 2048,
+  "n_q": 32,
+  "dep_q": 0,
+  "delays": [
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0,
+    0
+  ],
+  "dim": 2048,
+  "text_card": 8000,
+  "existing_text_padding_id": 3,
+  "num_heads": 16,
+  "num_layers": 16,
+  "hidden_scale": 4.125,
+  "causal": true,
+  "layer_scale": null,
+  "context": 750,
+  "max_period": 100000.0,
+  "gating": "silu",
+  "norm": "rms_norm_f32",
+  "positional_embedding": "rope",
+  "depformer_dim": 1024,
+  "depformer_num_heads": 16,
+  "depformer_num_layers": 6,
+  "depformer_dim_feedforward": null,
+  "depformer_multi_linear": true,
+  "depformer_pos_emb": "none",
+  "depformer_weights_per_step": true,
+  "conditioners": {},
+  "cross_attention": false,
+  "model_id": {
+    "sig": "70f8f0ea",
+    "epoch": 500
+  },
+  "lm_gen_config": {
+    "temp": 0.0,
+    "temp_text": 0.0,
+    "top_k": 250,
+    "top_k_text": 50
+  },
+  "stt_config": {
+    "audio_delay_seconds": 0.5,
+    "audio_silence_prefix_seconds": 0.0
+  },
+  "model_type": "stt",
+  "mimi_name": "[email protected]",
+  "tokenizer_name": "tokenizer_en_fr_audio_8000.model"
+}

[email protected] ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:09b782f0629851a271227fb9d36db65c041790365f11bbe5d3d59369cf863f50
+size 384644900

model-q4k.gguf ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:2d061f95eec3031e2e06a8590330d371bd04725ddecba497be83644aae15b49b
+size 556669792

model-q80.gguf ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc1f1827defedf061fd08796867bb70cf02230ca920370c7e962621e5746cd6c
+size 1051238240

tokenizer_en_fr_audio_8000.model ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd87dd5d17169151782ac700280ec057e5d658a9afbe238a048ea5ff318cce69
+size 120378