Safetensors
Polish
mistral
MinistryofDigitalAffairs commited on
Commit
61aafd9
·
verified ·
1 Parent(s): 28b33c8

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +16 -0
README.md CHANGED
@@ -139,8 +139,24 @@ zrób mi tę przyjemność i przyjdź wreszcie, proszę!
139
  ```
140
  Your results may vary depending on model parameters (e.g., temperature, top_k, top_p), hardware, and other settings.
141
 
 
 
142
 
 
143
 
 
 
 
 
 
 
 
 
 
 
 
 
 
144
 
145
  ## Training Procedure
146
  - **Datasets**: ~150B tokens from Polish and multilingual sources, with ~28B tokens available for fully open-source commercial use.
 
139
  ```
140
  Your results may vary depending on model parameters (e.g., temperature, top_k, top_p), hardware, and other settings.
141
 
142
+ ### 6. Retrieval Augmented Generation (RAG)
143
+ Our Llama-PLLuM models (both chat and instruct versions) were additionally trained to perform well in Retrieval Augmented Generation (RAG) setting. The prompt is in .jinja format, where docs is a list of document texts and question is a query that should be answered based on the provided documents. If there is no answer in the provided documents model generates "Nie udało mi się odnaleźć odpowiedzi na pytanie".
144
 
145
+ Prompt:
146
 
147
+ ```
148
+ Numerowana lista dokumentów jest poniżej:
149
+ ---------------------
150
+ <results>{% for doc in docs %}
151
+ Dokument: {{ loop.index0 }}
152
+ {{ doc }}
153
+ {% endfor %}</results>
154
+ ---------------------
155
+ Odpowiedz na pytanie użytkownika wykorzystując tylko informacje znajdujące się w dokumentach, a nie wcześniejszą wiedzę.
156
+ Udziel wysokiej jakości, poprawnej gramatycznie odpowiedzi w języku polskim. Odpowiedź powinna zawierać cytowania do dokumentów, z których pochodzą informacje. Zacytuj dokument za pomocą symbolu [nr_dokumentu] powołując się na fragment np. [0] dla fragmentu z dokumentu 0. Jeżeli w dokumentach nie ma informacji potrzebnych do odpowiedzi na pytanie, zamiast odpowiedzi zwróć tekst: "Nie udało mi się odnaleźć odpowiedzi na pytanie".
157
+
158
+ Pytanie: {{ question }}
159
+ ```
160
 
161
  ## Training Procedure
162
  - **Datasets**: ~150B tokens from Polish and multilingual sources, with ~28B tokens available for fully open-source commercial use.