dfargveazd commited on
Commit
8c48188
·
verified ·
1 Parent(s): 300453e

Upload folder using huggingface_hub

Browse files
Files changed (5) hide show
  1. README.md +54 -0
  2. config.json +22 -6
  3. model_state.pdparams +2 -2
  4. tokenizer.model +3 -0
  5. tokenizer_config.json +1 -1
README.md ADDED
@@ -0,0 +1,54 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ **该模型当前使用的是默认介绍模版,请参考以下模板,及时完善模型介绍相关内容:**
2
+
3
+
4
+ ## <模型名字>介绍
5
+
6
+ 介绍模型的基本信息。
7
+
8
+ ## 模型描述
9
+
10
+ 提供模型描述,包括模型结构,使用的训练数据集,以及适用场景等等内容。
11
+
12
+ ## 期望模型使用方式以及适用范围
13
+
14
+ 介绍模型的目标使用场景。
15
+
16
+ ### 如何使用
17
+
18
+ 介绍模型如何使用,包括如何进行模型推理等等信息。在这里希望模型提供者能提供详尽的范例以及代码片段来介绍模型的使用方法。对于需要配置负责运行环境的模型,也可以在这里提供怎样配置模型运行环境的详细介绍。
19
+
20
+ 如果模型支持finetune功能的话,在本章节也应该提供如果准备finetune可能需要的数据集格式。
21
+
22
+ ### 代码范例
23
+
24
+ 代码块
25
+ `<!--- 本session里的python代码段,将被用于快速体验--->`
26
+
27
+ ### 模型局限性以及可能的偏差
28
+ 介绍模型适用的场景,以及在哪些场景可能存在局限性,以及模型在构造训练过程中,本身可能带有的,由于训练数据以及训练方法等因素引入的偏向性。
29
+
30
+
31
+ ### 训练数据介绍
32
+
33
+ 训练数据是如何获取,组织,以及针对模型的需求进行格式话的。
34
+
35
+
36
+ ### 模型训练流程
37
+
38
+ 描述模型是如何具体训练出来的。建议提供代码示例:
39
+ `<!--- 本session里的python代码段,将被用于快速体验--->`
40
+
41
+
42
+ ### 预处理
43
+
44
+ ### 训练
45
+ 代码块
46
+ `<!--- 本session里的python代码段,将被用于快速体验--->`
47
+
48
+ ### 数据评估及结果
49
+
50
+ 提供模型在不同数据集上的性能评测,包括评测数据是如何获得的。评测结果本身可以通过表格,图像等多种方法做展示。
51
+
52
+ ## 相关论文以及引用信息
53
+
54
+ 如果本模型有相关论文发表,或者是基于某些论文的结果,可以在这里,提供Bibtex格式的参考文献。
config.json CHANGED
@@ -1,17 +1,33 @@
1
  {
 
2
  "architectures": [
3
  "LlamaForCausalLM"
4
  ],
5
- "hidden_size": 768,
 
 
 
 
6
  "initializer_range": 0.02,
7
  "intermediate_size": 11008,
 
 
 
8
  "max_position_embeddings": 2048,
9
  "model_type": "llama",
10
  "num_attention_heads": 8,
11
  "num_hidden_layers": 2,
 
 
 
12
  "rms_norm_eps": 1e-06,
13
- "vocab_size": 32000,
14
- "bos_token_id": 1,
15
- "eos_token_id": 2,
16
- "pad_token_id": 0
17
- }
 
 
 
 
 
 
1
  {
2
+ "alibi": false,
3
  "architectures": [
4
  "LlamaForCausalLM"
5
  ],
6
+ "bos_token_id": 1,
7
+ "dpo_config": null,
8
+ "eos_token_id": 2,
9
+ "hidden_size": 192,
10
+ "immediate_clear_past_key_value": false,
11
  "initializer_range": 0.02,
12
  "intermediate_size": 11008,
13
+ "long_sequence_init_args": {},
14
+ "long_sequence_strategy_name": null,
15
+ "long_sequence_strategy_type": null,
16
  "max_position_embeddings": 2048,
17
  "model_type": "llama",
18
  "num_attention_heads": 8,
19
  "num_hidden_layers": 2,
20
+ "num_key_value_heads": 8,
21
+ "pad_token_id": 0,
22
+ "paddleformers_version": "0.1.2.post20250821",
23
  "rms_norm_eps": 1e-06,
24
+ "rope_scaling_factor": 1.0,
25
+ "rope_scaling_type": null,
26
+ "rope_theta": 10000.0,
27
+ "seq_length": 2048,
28
+ "tie_word_embeddings": false,
29
+ "use_flash_attention_for_generation": false,
30
+ "use_last_token_for_generation": false,
31
+ "use_long_sequence_strategies": false,
32
+ "vocab_size": 32000
33
+ }
model_state.pdparams CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:959d6782994b267c79436ddcde07f7a3d6d7e4d73b17988fce9ffc9eac26bc24
3
- size 209208577
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e75691248578c5ec1740115fbffa06598d76f386d4ad76d847d56e4ef3e74524
3
+ size 76486394
tokenizer.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
3
+ size 499723
tokenizer_config.json CHANGED
@@ -1 +1 @@
1
- {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_bos_token": true, "add_eos_token": false, "sp_model_kwargs": null, "decode_with_prefix_space": false, "name_or_path": "__internal_testing__/tiny-random-llama", "from_slow": true, "_from_auto": true, "tokenizer_file": "/root/.paddleformers/models/__internal_testing__/tiny-random-llama/tokenizer.json", "added_tokens_decoder": {}, "tokenizer_class": "LlamaTokenizer"}
 
1
+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_bos_token": true, "add_eos_token": false, "sp_model_kwargs": null, "decode_with_prefix_space": false, "name_or_path": "test_paddleformers/tiny-random-llama", "from_slow": true, "_from_auto": true, "tokenizer_file": "/root/.paddleformers/models/__internal_testing__/tiny-random-llama/tokenizer.json", "added_tokens_decoder": {}, "tokenizer_class": "LlamaTokenizer"}