broken quantization?
Just for your information, i think something went wrong in this quantization. I tried a german to english example which worked fine, but when trying to translate to chinese or japanese, it seems to output nonsense. This seems to only affect the AWQ-Int4 version, GPTQ-Int8 seems to work ok i think.
(and yes i am using vllm==0.8.0, transformers==4.51.3
)
Examples:
Input:
Translate the following German sentence into English:\n <div data-sara-click-el="body\_element" data-area="text" data-pos="2"><div class="RichText lg:w-8/12 md:w-10/12 lg:mx-auto md:mx-auto lg:px-24 md:px-24 sm:px-16 break-words word-wrap">
<p data-forward-id="tyygncc9vi">Die Zahl afghanischer Frauen, die in Deutschland Asyl beantragen, ist sprunghaft gestiegen. Das geht aus Statistiken des <a href="https://www.spiegel.de/thema/bamf/" data-link-flag="spon">Bundesamts für Migration und Flüchtlinge (Bamf)</a> hervor. Demnach haben im Juli 3104 Afghaninnen einen Asylantrag gestellt, mehr als doppelt so viele wie im Vormonat. Im gesamten Jahr waren es bisher 9593 Anträge, darunter rund 4500 sogenannte Folgeanträge von Menschen, die schon länger hier leben.</p>
</div></div> <en>
Output:
The number of Afghan women applying for asylum in Germany has skyrocketed. This is revealed by statistics from the <a href=\"https://www.spiegel.de/thema/bamf/\" data-link-flag=\"spon\">Federal Office for Migration and Refugees (Bamf)>. According to this, in July, 3,104 Afghan women applied for asylum, more than twice as many as in the previous month. So far this year, there have been 9,593 applications, including around 4,500 so-called follow-up applications from people who have been living here for longer.</p>
Input:
Translate the following German sentence into Chinese:\n <div data-sara-click-el
="body\_element" data-area="text" data-pos="2"><div class="RichText lg:w-8/12 md:w-10/12 lg:mx-auto md:mx-auto lg:px-24 md:px-24 sm:px-16 break-words word-wrap">
<p data-forward-id="tyygncc9vi">Die Zahl afghanischer Frauen, die in Deutschland Asyl beantragen, ist sprunghaft gestiegen. Das geht aus Statistiken des <a href="https://www.spiegel.de/thema/bamf/" data-link-flag="spon">Bu
ndesamts für Migration und Flüchtlinge (Bamf)</a> hervor. Demnach haben im Juli 3104 Afghaninnen einen Asylantrag gestellt, mehr als doppelt so viele wie im Vormonat. Im gesamten Jahr waren es bisher 9593 Anträge, darunter
rund 4500 sogenannte Folgeanträge von Menschen, die schon länger hier leben.</p>
</div></div> <zh>
Output:
德国联邦 联邦 联邦 联邦 - 在德国申请庇 - 联邦 - 联邦 申请庇 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联 - 合 - 并 - 联
Input:
Translate the following German sentence into Japanese:\n <div data-sara-click-e
l="body\_element" data-area="text" data-pos="2"><div class="RichText lg:w-8/12 md:w-10/12 lg:mx-auto md:mx-auto lg:px-24 md:px-24 sm:px-16 break-words word-wrap">
<p data-forward-id="tyygncc9vi">Die Zahl afghanischer Frauen, die in Deutschland Asyl beantragen, ist sprunghaft gestiegen. Das geht aus Statistiken des <a href="https://www.spiegel.de/thema/bamf/" data-link-flag="spon">Bu
ndesamts für Migration und Flüchtlinge (Bamf)</a> hervor. Demnach haben im Juli 3104 Afghaninnen einen Asylantrag gestellt, mehr als doppelt so viele wie im Vormonat. Im gesamten Jahr waren es bisher 9593 Anträge, darunter
rund 4500 sogenannte Folgeanträge von Menschen, die schon länger hier leben.</p>
</div></div> <ja>
Output:
ドイツの統計 ドイ アフ ドイ アフ ドイ ドイ ドイ ドイ ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド ド
@KT313 Thank you for your feedback. There might be two reasons for this situation. Firstly, the performance of the int4 quantized model is not as good as that of the int8 and non-quantized versions. We can also see that the performance of the quantized model is slightly weaker when we test the automatic indicators. Secondly, your input contains many HTML tokens. We recommend removing these easily confused tokens.
I test this case in the space and the results are fine.
AWQ INT4 performance is terrible.
FP16 version:
['
在德国申请庇护的阿富汗女性数量急剧增加。这一数据来自联邦移民和难民局(Bamf)的统计数据。数据显示,7月份有3104名阿富汗女性申请庇护,比前一个月增加了一倍多。今年以来,申请庇护的阿富汗女性总数为9593人,其中包括约4500名已在德国生活较久的人的所谓后续申请。
\n\nINT4 version:
['德国联邦 联邦 联邦 联邦 - 在德国申请庇 - 联邦 - 联邦 的阿富汗妇女, - 联邦 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 - 联 -']