DeepMostInnovations
/

hindi-embedding-foundational-model

Sentence Similarity

sentence-embeddings

semantic-search

text-similarity

Model card Files Files and versions

DeepMostInnovations commited on Mar 10

Commit

ae91f30

·

verified ·

1 Parent(s): 128f147

Add tokenizer files

Files changed (3) hide show

tokenizer.model +3 -0
tokenizer.vocab +0 -0
tokenizer_config.json +11 -0

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcea7b417395ecf731062d1d241db13069e60e23ccc7cad4a77535900c38fe37
+size 1302086

tokenizer.vocab ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "model_type": "hindi_embedding",
+  "tokenizer_class": "HindiSentencePieceTokenizer",
+  "bos_token": "<s>",
+  "eos_token": "</s>",
+  "pad_token": "<pad>",
+  "unk_token": "<unk>",
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "vocab_size": 50000
+}