|
|
--- |
|
|
library_name: transformers |
|
|
language: |
|
|
- tr |
|
|
base_model: |
|
|
- dbmdz/bert-base-turkish-uncased |
|
|
|
|
|
tags: |
|
|
- text-classification |
|
|
- sequence-classification |
|
|
- transformers |
|
|
- turkish |
|
|
- intent-classification |
|
|
datasets: |
|
|
- custom |
|
|
metrics: |
|
|
- accuracy |
|
|
- f1 |
|
|
- precision |
|
|
- recall |
|
|
--- |
|
|
|
|
|
# 🔍 Query Classifier: Turkish BERT Model |
|
|
|
|
|
Bu model, Türkçe sorguları **"keyword"** ve **"semantic"** olmak üzere iki sınıfa ayırmak amacıyla eğitilmiş bir `BERT` tabanlı sıralı sınıflandırma (sequence classification) modelidir. Model, kısa metinlerin veya arama sorgularının niyetini (intent) belirlemede kullanılabilir. |
|
|
|
|
|
## 🧾 Kullanım Senaryosu |
|
|
|
|
|
Kullanıcıdan gelen bir sorgunun **anahtar kelime temelli mi**, yoksa **daha geniş anlamsal bağlam içeren** bir yapı mı taşıdığını tespit etmek için kullanılır. Bu sayede sorgular farklı işleme stratejilerine yönlendirilebilir. |
|
|
|
|
|
## 🧠 Model Detayları |
|
|
|
|
|
- **Model mimarisi:** BERT (`dbmdz/bert-base-turkish-uncased`) |
|
|
- **Eğitim verisi:** Özel olarak etiketlenmiş 2 sınıflı sorgu veri kümesi |
|
|
- **Etiketler:** |
|
|
- `keyword`: Daha çok başlık veya kısa anahtar ifadeler (örneğin: *Gece Gelen*, *Episode 9*) |
|
|
- `semantic`: Daha açıklayıcı veya anlam yüklü ifadeler (örneğin: *2020 yılı dram filmleri*, *Bilimkurgu filmleri*) |
|
|
|
|
|
## 📊 Eğitim Parametreleri |
|
|
|
|
|
| Parametre | Değer | |
|
|
|------------------------|-----------------------| |
|
|
| Öğrenme oranı | 1e-5 | |
|
|
| Epoch | 5 | |
|
|
| Batch size | 16 | |
|
|
| Dropout oranları | 0.3 (attention & hidden) | |
|
|
| Değerlendirme metriği | F1 | |
|
|
| Early stopping | 2 adım sabitlik | |
|
|
|
|
|
## 📈 Model Başarımı |
|
|
|
|
|
Test kümesi üzerinde elde edilen sonuçlar: |
|
|
|
|
|
```text |
|
|
precision recall f1-score support |
|
|
|
|
|
keyword 0.97 0.95 0.96 552 |
|
|
semantic 0.71 0.81 0.76 86 |
|
|
|
|
|
accuracy 0.93 638 |
|
|
macro avg 0.84 0.88 0.86 638 |
|
|
weighted avg 0.93 0.93 0.93 638 |
|
|
|