20세기 한국어 통시적 언어 모델 (Diachronic Language Models for 20th Century Korean)

모델 카드: chosunilbo-LMs

모델 개요 (Model Description)

본 저장소는 20세기 한국어의 시대별 의미 변화를 연구하기 위해 조선일보 기사 텍스트(1920-1999)를 기반으로 학습된 통시적(Diachronic) 단어 임베딩 모델들을 제공합니다. 이 모델들은 특정 시점의 언어적 스냅샷을 담고 있어, 역사학, 사회학, 언어학 등 다양한 분야의 연구자들이 특정 개념의 의미 변화를 계량적으로 추적하고 분석하는 데 활용될 수 있습니다.

본 저장소는 두 가지 종류의 임베딩 모델(Word2Vec, fastText)을 각각 10년 단위(decade)와 1년 단위(yearly)로 구축하여, 연구 목적에 따라 다양한 해상도의 분석을 지원합니다.

모델 상세 정보 (Model Details)

모델 종류	시간 단위	특징 및 장점
Word2Vec	10년 / 1년	특정 시대의 핵심 어휘들 간의 의미 관계를 정교하게 학습합니다.
fastText	10년 / 1년	단어를 더 작은 단위(n-grams)로 분해하여, 오탈자나 희귀 어휘 등 사전에 없는 단어(OOV)에 대해 강건한 성능을 보입니다. 역사 텍스트 분석에 특히 유용합니다.

학습 데이터 (Training Data)

데이터 소스: 조선일보 텍스트 아카이브 (1920-1999)
분석 대상: '기사(article)' 유형 텍스트 약 277만 건
전처리:
1. 하이브리드 텍스트 선정: 1953년 이전은 한글 변환본(body_korean), 1954년 이후는 원문(body_archaic)을 사용.
2. 형태소 분석: konlpy.tag.Okt를 사용하여 전체 텍스트를 형태소 단위로 분석.
3. 학습 데이터: 분석된 형태소 중 명사(Noun)만을 추출하여 각 모델의 학습 데이터로 사용.

주의: 원본 텍스트 데이터의 저작권은 조선일보사에 있습니다. 본 모델은 비상업적 학술 연구 목적으로만 사용 가능합니다.

학습 절차 (Training Procedure)

각 모델은 다음과 같은 파라미터로 학습되었습니다.

vector_size: 100
window: 5
min_count: 5
model / sg: skipgram

활용 방법 (How to Use)

Word2Vec 모델 활용 예시 (gensim)

from huggingface_hub import hf_hub_download
from gensim.models import Word2Vec

# 예시: 1975년 Word2Vec 모델 불러오기
model_path = hf_hub_download(
    repo_id="ddokbaro/chosunilbo-LMs",
    filename="word2vec/yearly/word2vec_1975.model"
)
model = Word2Vec.load(model_path)

# 1975년 '경제'와 가장 유사한 단어 탐색
print("--- 1975년 '경제'의 유사어 ---")
print(model.wv.most_similar('경제', topn=5))

fastText 모델 활용 예시

from huggingface_hub import hf_hub_download
import fasttext

# 예시: 1995년 fastText 모델 불러오기
model_path = hf_hub_download(
    repo_id="ddokbaro/chosunilbo-LMs",
    filename="fasttext/yearly/fasttext_1995.bin"
)
model = fasttext.load_model(model_path)

# 1995년 '미래'와 가장 유사한 단어 탐색
print("\n--- 1995년 '미래'의 유사어 ---")
print(model.get_nearest_neighbors('미래', k=5))

인용 정보 (Citation)

본 모델을 연구에 사용하실 경우, 다음을 인용해주십시오:

@misc{kimbaro_chosunilbo_lms_2025,
  author = {Kim, Baro},
  title = {20th Century Korean Diachronic Language Models from Chosun Ilbo Text},
  year = {2025},
  publisher = {Hugging Face},
  journal = {Hugging Face repository},
  howpublished = {\url{[https://huggingface.co/ddokbaro/chosunilbo-LMs](https://huggingface.co/ddokbaro/chosunilbo-LMs)}},
}

Downloads last month: 9

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

ddokbaro
/

chosunilbo-LMs

20세기 한국어 통시적 언어 모델 (Diachronic Language Models for 20th Century Korean)

모델 카드: chosunilbo-LMs

모델 개요 (Model Description)

모델 상세 정보 (Model Details)

학습 데이터 (Training Data)

학습 절차 (Training Procedure)

활용 방법 (How to Use)

Word2Vec 모델 활용 예시 (gensim)

fastText 모델 활용 예시

관련 연구 플랫폼 안내

인용 정보 (Citation)

20세기 한국어 통시적 언어 모델 (Diachronic Language Models for 20th Century Korean)

모델 카드: chosunilbo-LMs

모델 개요 (Model Description)

모델 상세 정보 (Model Details)

학습 데이터 (Training Data)

학습 절차 (Training Procedure)

활용 방법 (How to Use)

Word2Vec 모델 활용 예시 (gensim)

fastText 모델 활용 예시

관련 연구 플랫폼 안내

인용 정보 (Citation)

🎉 Free Image Generator Now Available!