File size: 1,378 Bytes

8db3ae3
 
 
 
 
 
 
2cdbade
 
 
 
 
4d067c2
df3a50b
2cdbade

---
license: mit
language:
- ar
base_model:
- aubmindlab/bert-base-arabertv02
pipeline_tag: token-classification
---

# SWEET MADAR CODA Model

## Model Description
`CAMeL-Lab/text-editing-coda` is a text editing model tailored for grammatical error correction (GEC) in dialectal Arabic (DA).
The model is based on [AraBERTv02](https://huggingface.co/aubmindlab/bert-base-arabertv02), which we fine-tuned using the [MADAR CODA](https://camel.abudhabi.nyu.edu/madar-coda-corpus/) corpus.
This model was introduced in our ACL 2025 paper, [Enhancing Text Editing for Grammatical Error Correction: Arabic as a Case Study](https://arxiv.org/abs/2503.00985), where we refer to it as SWEET (Subword Edit Error Tagger).
It achieved SOTA performance on the MADAR CODA dataset. Details about the training procedure, data preprocessing, and hyperparameters are available in the paper.
The fine-tuning code and associated resources are publicly available on our GitHub repository: https://github.com/CAMeL-Lab/text-editing.



## Citation
```bibtex
@inter{alhafni-habash-2025-enhancing,
      title={Enhancing Text Editing for Grammatical Error Correction: Arabic as a Case Study}, 
      author={Bashar Alhafni and Nizar Habash},
      year={2025},
      eprint={2503.00985},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.00985}, 
}
```