20세기 한국어 통시적 언어 모델 (Diachronic Language Models for 20th Century Korean)
모델 카드: chosunilbo-LMs
모델 개요 (Model Description)
본 저장소는 20세기 한국어의 시대별 의미 변화를 연구하기 위해 조선일보 기사 텍스트(1920-1999)를 기반으로 학습된 통시적(Diachronic) 단어 임베딩 모델들을 제공합니다. 이 모델들은 특정 시점의 언어적 스냅샷을 담고 있어, 역사학, 사회학, 언어학 등 다양한 분야의 연구자들이 특정 개념의 의미 변화를 계량적으로 추적하고 분석하는 데 활용될 수 있습니다.
본 저장소는 두 가지 종류의 임베딩 모델(Word2Vec, fastText)을 각각 10년 단위(decade)와 1년 단위(yearly)로 구축하여, 연구 목적에 따라 다양한 해상도의 분석을 지원합니다.
모델 상세 정보 (Model Details)
| 모델 종류 | 시간 단위 | 특징 및 장점 |
|---|---|---|
| Word2Vec | 10년 / 1년 | 특정 시대의 핵심 어휘들 간의 의미 관계를 정교하게 학습합니다. |
| fastText | 10년 / 1년 | 단어를 더 작은 단위(n-grams)로 분해하여, 오탈자나 희귀 어휘 등 사전에 없는 단어(OOV)에 대해 강건한 성능을 보입니다. 역사 텍스트 분석에 특히 유용합니다. |
학습 데이터 (Training Data)
- 데이터 소스: 조선일보 텍스트 아카이브 (1920-1999)
- 분석 대상: '기사(article)' 유형 텍스트 약 277만 건
- 전처리:
- 하이브리드 텍스트 선정: 1953년 이전은 한글 변환본(
body_korean), 1954년 이후는 원문(body_archaic)을 사용. - 형태소 분석:
konlpy.tag.Okt를 사용하여 전체 텍스트를 형태소 단위로 분석. - 학습 데이터: 분석된 형태소 중 명사(Noun)만을 추출하여 각 모델의 학습 데이터로 사용.
- 하이브리드 텍스트 선정: 1953년 이전은 한글 변환본(
주의: 원본 텍스트 데이터의 저작권은 조선일보사에 있습니다. 본 모델은 비상업적 학술 연구 목적으로만 사용 가능합니다.
학습 절차 (Training Procedure)
각 모델은 다음과 같은 파라미터로 학습되었습니다.
vector_size: 100window: 5min_count: 5model/sg: skipgram
활용 방법 (How to Use)
Word2Vec 모델 활용 예시 (gensim)
from huggingface_hub import hf_hub_download
from gensim.models import Word2Vec
# 예시: 1975년 Word2Vec 모델 불러오기
model_path = hf_hub_download(
repo_id="ddokbaro/chosunilbo-LMs",
filename="word2vec/yearly/word2vec_1975.model"
)
model = Word2Vec.load(model_path)
# 1975년 '경제'와 가장 유사한 단어 탐색
print("--- 1975년 '경제'의 유사어 ---")
print(model.wv.most_similar('경제', topn=5))
fastText 모델 활용 예시
from huggingface_hub import hf_hub_download
import fasttext
# 예시: 1995년 fastText 모델 불러오기
model_path = hf_hub_download(
repo_id="ddokbaro/chosunilbo-LMs",
filename="fasttext/yearly/fasttext_1995.bin"
)
model = fasttext.load_model(model_path)
# 1995년 '미래'와 가장 유사한 단어 탐색
print("\n--- 1995년 '미래'의 유사어 ---")
print(model.get_nearest_neighbors('미래', k=5))
관련 연구 플랫폼 안내
본 언어 모델들을 활용한 코젤렉 개념사 연구의 전체 분석 코드, 최종 결과 데이터, 그리고 Colab 기반의 교육용 튜토리얼은 아래의 통합 분석 플랫폼 저장소에서 확인하실 수 있습니다.
저장소 주소: https://huggingface.co/datasets/ddokbaro/chosunilbo-koselleck-analysis-platform (임시 주소)
인용 정보 (Citation)
본 모델을 연구에 사용하실 경우, 다음을 인용해주십시오:
@misc{kimbaro_chosunilbo_lms_2025,
author = {Kim, Baro},
title = {20th Century Korean Diachronic Language Models from Chosun Ilbo Text},
year = {2025},
publisher = {Hugging Face},
journal = {Hugging Face repository},
howpublished = {\url{[https://huggingface.co/ddokbaro/chosunilbo-LMs](https://huggingface.co/ddokbaro/chosunilbo-LMs)}},
}
- Downloads last month
- 9
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support