Day1Kim
/

gpt-oss-20b-korean-reasoner

@@ -7,28 +7,80 @@ tags:
 - generated_from_trainer
 - sft
 - trl
 licence: license
 ---
 # Model Card for gpt-oss-20b-korean-reasoner
 This model is a fine-tuned version of [openai/gpt-oss-20b](https://huggingface.co/openai/gpt-oss-20b) on the [Day1Kim/Multilingual-Thinking-KO](https://huggingface.co/datasets/Day1Kim/Multilingual-Thinking-KO) dataset.
-It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ```python
 from transformers import pipeline
-question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
 generator = pipeline("text-generation", model="Day1Kim/gpt-oss-20b-korean-reasoner", device="cuda")
 output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
 print(output["generated_text"])
 ```
 ## Training procedure
 This model was trained with SFT.

 - generated_from_trainer
 - sft
 - trl
+- korean
+- 한국어
 licence: license
+license: apache-2.0
+language:
+- ko
+pipeline_tag: text-generation
 ---
 # Model Card for gpt-oss-20b-korean-reasoner
 This model is a fine-tuned version of [openai/gpt-oss-20b](https://huggingface.co/openai/gpt-oss-20b) on the [Day1Kim/Multilingual-Thinking-KO](https://huggingface.co/datasets/Day1Kim/Multilingual-Thinking-KO) dataset.
+It has been trained using [TRL](https://github.com/huggingface/trl).
+한국어 thinking 데이터셋 기반 파인튜닝된 모델.
 ## Quick start
 ```python
 from transformers import pipeline
+question = "한국의 수도는?"
 generator = pipeline("text-generation", model="Day1Kim/gpt-oss-20b-korean-reasoner", device="cuda")
 output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
 print(output["generated_text"])
 ```
+### 모델 로드
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+from peft import PeftModel
+import torch
+# Load the tokenizer
+tokenizer = AutoTokenizer.from_pretrained("openai/gpt-oss-20b")
+# Load the original model first
+model_kwargs = dict(attn_implementation="eager", torch_dtype="auto", use_cache=True, device_map="auto")
+base_model = AutoModelForCausalLM.from_pretrained("openai/gpt-oss-20b", **model_kwargs).cuda()
+# Merge fine-tuned weights with the base model
+peft_model_id = "gpt-oss-20b-korean-reasoner"
+model = PeftModel.from_pretrained(base_model, peft_model_id)
+model = model.merge_and_unload()
+REASONING_LANGUAGE = "Korean"
+SYSTEM_PROMPT = f"reasoning language: {REASONING_LANGUAGE}"
+USER_PROMPT = "한국의 수도는?"
+messages = [
+    {"role": "system", "content": SYSTEM_PROMPT},
+    {"role": "user", "content": USER_PROMPT},
+]
+input_ids = tokenizer.apply_chat_template(
+    messages,
+    add_generation_prompt=True,
+    return_tensors="pt",
+).to(model.device)
+gen_kwargs = {"max_new_tokens": 512, "do_sample": True, "temperature": 0.6, "top_p": None, "top_k": None}
+output_ids = model.generate(input_ids, **gen_kwargs)
+response = tokenizer.batch_decode(output_ids)[0]
+print(response)
+```
 ## Training procedure
+- **베이스 모델**: openai/gpt-oss-20b
+- **훈련 스텝**: 65 steps
+- **Epochs**: 5
+- **데이터셋**: Day1Kim/Multilingual-Thinking-KO
 This model was trained with SFT.