20세기 한국어 통시적 언어 모델 (Diachronic Language Models for 20th Century Korean)

모델 카드: chosunilbo-LMs

모델 개요 (Model Description)

본 저장소는 20세기 한국어의 시대별 의미 변화를 연구하기 위해 조선일보 기사 텍스트(1920-1999)를 기반으로 학습된 통시적(Diachronic) 단어 임베딩 모델들을 제공합니다. 이 모델들은 특정 시점의 언어적 스냅샷을 담고 있어, 역사학, 사회학, 언어학 등 다양한 분야의 연구자들이 특정 개념의 의미 변화를 계량적으로 추적하고 분석하는 데 활용될 수 있습니다.

본 저장소는 두 가지 종류의 임베딩 모델(Word2Vec, fastText)을 각각 10년 단위(decade)와 1년 단위(yearly)로 구축하여, 연구 목적에 따라 다양한 해상도의 분석을 지원합니다.

모델 상세 정보 (Model Details)

모델 종류 시간 단위 특징 및 장점
Word2Vec 10년 / 1년 특정 시대의 핵심 어휘들 간의 의미 관계를 정교하게 학습합니다.
fastText 10년 / 1년 단어를 더 작은 단위(n-grams)로 분해하여, 오탈자나 희귀 어휘 등 사전에 없는 단어(OOV)에 대해 강건한 성능을 보입니다. 역사 텍스트 분석에 특히 유용합니다.

학습 데이터 (Training Data)

  • 데이터 소스: 조선일보 텍스트 아카이브 (1920-1999)
  • 분석 대상: '기사(article)' 유형 텍스트 약 277만 건
  • 전처리:
    1. 하이브리드 텍스트 선정: 1953년 이전은 한글 변환본(body_korean), 1954년 이후는 원문(body_archaic)을 사용.
    2. 형태소 분석: konlpy.tag.Okt를 사용하여 전체 텍스트를 형태소 단위로 분석.
    3. 학습 데이터: 분석된 형태소 중 명사(Noun)만을 추출하여 각 모델의 학습 데이터로 사용.

주의: 원본 텍스트 데이터의 저작권은 조선일보사에 있습니다. 본 모델은 비상업적 학술 연구 목적으로만 사용 가능합니다.

학습 절차 (Training Procedure)

각 모델은 다음과 같은 파라미터로 학습되었습니다.

  • vector_size: 100
  • window: 5
  • min_count: 5
  • model / sg: skipgram

활용 방법 (How to Use)

Word2Vec 모델 활용 예시 (gensim)

from huggingface_hub import hf_hub_download
from gensim.models import Word2Vec

# 예시: 1975년 Word2Vec 모델 불러오기
model_path = hf_hub_download(
    repo_id="ddokbaro/chosunilbo-LMs",
    filename="word2vec/yearly/word2vec_1975.model"
)
model = Word2Vec.load(model_path)

# 1975년 '경제'와 가장 유사한 단어 탐색
print("--- 1975년 '경제'의 유사어 ---")
print(model.wv.most_similar('경제', topn=5))

fastText 모델 활용 예시

from huggingface_hub import hf_hub_download
import fasttext

# 예시: 1995년 fastText 모델 불러오기
model_path = hf_hub_download(
    repo_id="ddokbaro/chosunilbo-LMs",
    filename="fasttext/yearly/fasttext_1995.bin"
)
model = fasttext.load_model(model_path)

# 1995년 '미래'와 가장 유사한 단어 탐색
print("\n--- 1995년 '미래'의 유사어 ---")
print(model.get_nearest_neighbors('미래', k=5))

관련 연구 플랫폼 안내

인용 정보 (Citation)

본 모델을 연구에 사용하실 경우, 다음을 인용해주십시오:

@misc{kimbaro_chosunilbo_lms_2025,
  author = {Kim, Baro},
  title = {20th Century Korean Diachronic Language Models from Chosun Ilbo Text},
  year = {2025},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{[https://huggingface.co/ddokbaro/chosunilbo-LMs](https://huggingface.co/ddokbaro/chosunilbo-LMs)}},
}
Downloads last month
9
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support