Surromind
/

RetrievalLLM-preview

@@ -16,7 +16,7 @@ datasets:
 ---
 ## Introduction
-Qwen2.5 14B 모델은 Command r plus 모델을 이용하여 자체 구축한 RAG 특화 데이터셋, CoT 데이터셋, 벤치마크 데이터셋으로 Full fine-tuning 한 모델입니다.
 해당 모델은 일반적인 RAG 서비스의 입력데이터에 대해서 정확한 답변과 답변 출처를 생성할 수 있으며 Json 형태로 답변을 출력하는 특징을 가지고 있습니다.
 출력 key값은 아래와 같습니다.
 1. "related_document"의 값 : 질문과 관련 있는 문서 doc_id, 제목 (key : 문서 번호, Value : 문서 제목)
@@ -40,6 +40,31 @@ Qwen2.5 14B 모델은 Command r plus 모델을 이용하여 자체 구축한 RAG
 }
 ```
 ## RAG Prompt
 ```
 RAG_PROMPT = """<|im_start|>system\n\n 당신은 대화형 AI로서, 사용자의 질문에 신뢰할 수 있는 정보를 제공하는 것이 주요 역할입니다. 사용자의 요구를 정확히 이해하고, 관련 문서를 분석하여 최적의 답변을 생성해야 합니다. \n당신은 다음과 같은 원칙을 준수해야 합니다:\n1. 항상 사용자의 요청을 최우선으로 고려하며, 명확하고 이해하기 쉬운 답변을 제공합니다.\n2. 제공된 문서를 최대한 활용하여 응답을 구성하되, 추가적인 분석과 논리를 통해 응답의 질을 높입니다.\n3. 응답을 생성할 때는 반드시 주어진 지침을 따르고, 명확한 출처를 제공해야 합니다.\n4. 사용자의 질문이 모호할 경우, 명확성을 확보하기 위해 질문을 재구성하는 방안을 고려할 수 있습니다.\n\n# 사용자 안내문\n## 작업 및 맥락\n당신은 사용자 질문에 대해 관련 문서를 분석하고, 신뢰할 수 있는 정보를 바탕으로 응답을 생성해야 합니다. 단순한 정보 전달을 넘어, 문맥을 고려하여 가장 적절한 형태로 정보를 제공하는 것이 중요합니다.\n\n## 스타일 가이드\njson 형식으로 답변을 출력하세요.[
@@ -86,4 +111,5 @@ generated_ids = [
 response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
 print(response)
-```

 ---
 ## Introduction
+Command r plus 모델을 이용하여 자체 구축한 RAG 특화 데이터셋, CoT 데이터셋, 벤치마크 데이터셋으로 Qwen2.5 14B 모델을 Full fine-tuning 한 모델입니다.
 해당 모델은 일반적인 RAG 서비스의 입력데이터에 대해서 정확한 답변과 답변 출처를 생성할 수 있으며 Json 형태로 답변을 출력하는 특징을 가지고 있습니다.
 출력 key값은 아래와 같습니다.
 1. "related_document"의 값 : 질문과 관련 있는 문서 doc_id, 제목 (key : 문서 번호, Value : 문서 제목)
 }
 ```
+## 학습 환경 및 파라미터
+튜닝 환경 : H100(80GB) * 8
+-tokenizer_model_mex_length 4500
+-use_flash_attn True
+-num_train_epochs 3.0
+-weight_decay 0.001
+-lr_scheduler_type "linear"
+-per_device_train_batch_size 1
+-gradient_accumulation_steps 64
+-learning_rate 5e-06
+-bf16 True
+-deepspeed ds_stage2.json
+## 사용 데이터셋
+- AIhub 16 행정 문서 대상 기계독해 데이터
+- AIhub 17 뉴스 기사 기계독해 데이터
+- AIhub 21 도서자료 기계독해
+- AIhub 149 표 정보 질의응답 데이터
+- AIhub 150 숫자연산 기계독해 데이터
+- AIhub 151 금융, 법률 문서 기계독해 데이터
+- kyujinpy/KoCoT_2000
+- MarkrAI/KoCommercial-Dataset
+- CarrotAI/ko-instruction-dataset
+- heegyu/CoT-collection-ko
 ## RAG Prompt
 ```
 RAG_PROMPT = """<|im_start|>system\n\n 당신은 대화형 AI로서, 사용자의 질문에 신뢰할 수 있는 정보를 제공하는 것이 주요 역할입니다. 사용자의 요구를 정확히 이해하고, 관련 문서를 분석하여 최적의 답변을 생성해야 합니다. \n당신은 다음과 같은 원칙을 준수해야 합니다:\n1. 항상 사용자의 요청을 최우선으로 고려하며, 명확하고 이해하기 쉬운 답변을 제공합니다.\n2. 제공된 문서를 최대한 활용하여 응답을 구성하되, 추가적인 분석과 논리를 통해 응답의 질을 높입니다.\n3. 응답을 생성할 때는 반드시 주어진 지침을 따르고, 명확한 출처를 제공해야 합니다.\n4. 사용자의 질문이 모호할 경우, 명확성을 확보하기 위해 질문을 재구성하는 방안을 고려할 수 있습니다.\n\n# 사용자 안내문\n## 작업 및 맥락\n당신은 사용자 질문에 대해 관련 문서를 분석하고, 신뢰할 수 있는 정보를 바탕으로 응답을 생성해야 합니다. 단순한 정보 전달을 넘어, 문맥을 고려하여 가장 적절한 형태로 정보를 제공하는 것이 중요합니다.\n\n## 스타일 가이드\njson 형식으로 답변을 출력하세요.[
 response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
 print(response)
+```