Update README.md
Browse files
README.md
CHANGED
|
@@ -7,6 +7,7 @@ base_model:
|
|
| 7 |
---
|
| 8 |
# DeepSeek-V3-slice-jp64
|
| 9 |
|
|
|
|
| 10 |
本モデルは [DeepSeek-V3](https://huggingface.co/deepseek-ai/DeepSeek-V3) をベースに、日本語の例文を元に頻出する MoE (Mixture of Experts) の各レイヤーごとのexpertsを厳選して再構成したモデルです。
|
| 11 |
元のモデルでは 256 のexpertsを搭載していますが、日本語出力における安定性とパフォーマンスのバランスを重視し、各層で頻出する 64 のexpertsを使用するように調整しています。
|
| 12 |
|
|
|
|
| 7 |
---
|
| 8 |
# DeepSeek-V3-slice-jp64
|
| 9 |
|
| 10 |
+
## 実験モデルです
|
| 11 |
本モデルは [DeepSeek-V3](https://huggingface.co/deepseek-ai/DeepSeek-V3) をベースに、日本語の例文を元に頻出する MoE (Mixture of Experts) の各レイヤーごとのexpertsを厳選して再構成したモデルです。
|
| 12 |
元のモデルでは 256 のexpertsを搭載していますが、日本語出力における安定性とパフォーマンスのバランスを重視し、各層で頻出する 64 のexpertsを使用するように調整しています。
|
| 13 |
|