gpt-oss-korean-model / README.md

Seonghaa

Upload merged Korean fine-tuned model with model card

00a535c verified about 1 month ago

preview code

raw

history blame contribute delete

1.81 kB

metadata

license: apache-2.0
base_model: unsloth/gpt-oss-20b
tags:
  - unsloth
  - korean
  - education
  - textbook
  - gpt-oss
  - 한국어
  - 교육
  - 파인튜닝
language:
  - ko
datasets:
  - maywell/korean_textbooks
library_name: transformers
pipeline_tag: text-generation

한국어 교육 자료 파인튜닝 모델 (LoRA 병합 버전)

이 모델은 unsloth/gpt-oss-20b를 기반으로 maywell/korean_textbooks 데이터셋으로 파인튜닝된 한국어 교육 전용 모델입니다. LoRA(Low-Rank Adaptation)로 학습 후, 베이스 모델에 병합하여 단일 모델로 배포됩니다.

🚀 사용 예시

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model = AutoModelForCausalLM.from_pretrained(
    "Seonghaa/gpt-oss-korean-model",
    torch_dtype=torch.float16,
    device_map="auto",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("Seonghaa/gpt-oss-korean-model", trust_remote_code=True)

messages = [
    {"role": "system", "content": "당신은 한국어로 교육 내용을 설명하는 도움이 되는 어시스턴트입니다."},
    {"role": "user", "content": "2의 거듭제곱에 대해 설명해주세요."}
]

inputs = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, return_tensors="pt"
).to(model.device)

outputs = model.generate(
    **inputs, max_new_tokens=512, temperature=0.7, top_p=0.9,
    pad_token_id=tokenizer.eos_token_id
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

📊 훈련 정보

베이스 모델: unsloth/gpt-oss-20b
데이터셋: maywell/korean_textbooks
방식: LoRA 파인튜닝 후 병합

⚠️ 주의사항

교육 목적 특화
한국어 중심
생성 내용은 반드시 검증 필요
합법적, 윤리적 사용