Update README.md
Browse files
README.md
CHANGED
|
@@ -3,10 +3,28 @@ library_name: transformers
|
|
| 3 |
tags: []
|
| 4 |
---
|
| 5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 6 |
Text: 모든 인간은 태어날 때부터 자유로우며 그 존엄과 권리에 있어 동등하다. 인간은 천부적으로 이성과 양심을 부여받았으며 서로 형제애의 정신으로 행동하여야 한다.
|
| 7 |
|
|
|
|
| 8 |
phi4: 85 (0.00% more effective than phi-4) (�|�|든| 인|간|은| �|�|어|�|�| 때|부|터| 자|�|�|로|우|�|�| 그| �|��|�|�|과| �|�|�|리|에| 있|어| �|�|�|�|하|다|.| 인|간|은| �|�|부|적|으로| 이|성|과| �|�|�|�|을| 부|여|�|�|�|�|으|�|�| 서|로| �|�|제|�|�|의| 정|신|으로| �|��|동|하여|야| 한|다|.)
|
| 9 |
|
| 10 |
phi4-jamo: 42 (102.38% more effective than phi-4) (모든| 인간은| 태어나|ᆯ| 때|부터| 자유|로우|며| 그| 존|엄|과| 권|리에| 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의| 정신|으로| 행동|하여|야| 한다|.)
|
| 11 |
|
| 12 |
-
jamo-exp1: 39 (117.95% more effective than phi-4) (모든|인간은|태어나|ᆯ 때|부터|자유|로우|며|그|존|엄|과|권리|에 있어|동|등|하다|.|인간은|천|부|적으로|이|성과|양|심을|부여|받아|ᆻ으며|서로|형제|애|의 정|신|으로|행동|하여|야 한다|.)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 3 |
tags: []
|
| 4 |
---
|
| 5 |
|
| 6 |
+
이 토크나이저는 [microsoft/phi-4](https://huggingface.co/microsoft/phi-4)에 [devngho/jamo-tokenizer-exp1](https://huggingface.co/devngho/jamo-tokenizer-exp1)를 병합해 만들어졌습니다.
|
| 7 |
+
|
| 8 |
+
NFKD 정규화를 하면 한국어 외 다른 언어 토크나이징에 영향을 줄 수 있습니다. 따라서 NFKD 정규화를 토크나이저에 적용하는 대신 미리 NFKD 정규화를 한글 글자에만 적용하고 Replace하도록 했습니다.
|
| 9 |
+
|
| 10 |
+
|
| 11 |
+
**한국어 예시**: 원래 토크나이저보다 효율적으로 토크나이징
|
| 12 |
+
|
| 13 |
Text: 모든 인간은 태어날 때부터 자유로우며 그 존엄과 권리에 있어 동등하다. 인간은 천부적으로 이성과 양심을 부여받았으며 서로 형제애의 정신으로 행동하여야 한다.
|
| 14 |
|
| 15 |
+
|
| 16 |
phi4: 85 (0.00% more effective than phi-4) (�|�|든| 인|간|은| �|�|어|�|�| 때|부|터| 자|�|�|로|우|�|�| 그| �|��|�|�|과| �|�|�|리|에| 있|어| �|�|�|�|하|다|.| 인|간|은| �|�|부|적|으로| 이|성|과| �|�|�|�|을| 부|여|�|�|�|�|으|�|�| 서|로| �|�|제|�|�|의| 정|신|으로| �|��|동|하여|야| 한|다|.)
|
| 17 |
|
| 18 |
phi4-jamo: 42 (102.38% more effective than phi-4) (모든| 인간은| 태어나|ᆯ| 때|부터| 자유|로우|며| 그| 존|엄|과| 권|리에| 있어| 동|등|하다|.| 인간은| 천|부|적으로| 이|성과| 양|심을| 부여|받아|ᆻ으며| 서로| 형제|애|의| 정신|으로| 행동|하여|야| 한다|.)
|
| 19 |
|
| 20 |
+
jamo-exp1: 39 (117.95% more effective than phi-4) (모든|인간은|태어나|ᆯ 때|부터|자유|로우|며|그|존|엄|과|권리|에 있어|동|등|하다|.|인간은|천|부|적으로|이|성과|양|심을|부여|받아|ᆻ으며|서로|형제|애|의 정|신|으로|행동|하여|야 한다|.)
|
| 21 |
+
|
| 22 |
+
**다국어 예시**: 원래 토크나이저와 동일
|
| 23 |
+
|
| 24 |
+
Text: Zoë
|
| 25 |
+
|
| 26 |
+
phi4: 3 (0.00% more effective than phi-4) (Z|o|ë)
|
| 27 |
+
|
| 28 |
+
phi4-jamo: 3 (0.00% more effective than phi-4) (Z|o|ë)
|
| 29 |
+
|
| 30 |
+
jamo-exp1: 5 (-40.00% more effective than phi-4) (Z|o|e|�|�)
|