philomath-1209
/

programming-language-identification

Text Classification

programming-language

code-classification

Model card Files Files and versions Community

programming-language-identification / README.md

Maninder Singh

Update README.md

4d6cc9b over 1 year ago

|

1.53 kB

	---
	license: wtfpl
	datasets:
	- cakiki/rosetta-code
	language:
	- en
	metrics:
	- accuracy
	library_name: transformers
	pipeline_tag: text-classification
	tags:
	- code
	- programming-language
	- code-classification
	base_model: huggingface/CodeBERTa-small-v1
	---
	This Model is a fine-tuned version of huggingface/CodeBERTa-small-v1 on cakiki/rosetta-code Dataset for 25 Programming Languages as mentioned below.
	## Training Details:
	Model is trained for 25 epochs on Azure for nearly 26000 Datapoints for above Mentioned 25 Programming Languages<br> extracted from Dataset having 1006 of total Programming Language.
	### Programming Languages this model is able to detect vs Examples used for training
	<ol>
	<li>'ARM Assembly': 3,</li>
	<li>'AppleScript': 17,</li>

	<li>'C': 22,</li>

	<li>'C#': 10,</li>

	<li>'C++': 6,</li>

	<li>'COBOL': 2,</li>

	<li>'Erlang': 9,</li>

	<li>'Fortran': 16,</li>

	<li>'Go': 8,</li>

	<li>'Java': 19,</li>

	<li>'JavaScript': 1,</li>

	<li>'Kotlin': 24,</li>

	<li>'Lua': 5,</li>

	<li>'Mathematica/Wolfram Language': 14,</li>

	<li>'PHP': 15,</li>

	<li>'Pascal': 18,</li>

	<li>'Perl': 23,</li>

	<li>'PowerShell': 20,</li>

	<li>'Python': 21,</li>

	<li>'R': 4</li>

	<li>'Ruby': 12,</li>

	<li>'Rust': 11,</li>

	<li>'Scala': 0,</li>

	<li>'Swift': 13,</li>

	<li>'Visual Basic .NET': 7,</li>

	<li>'jq': 25</li>

	</ol>
	<br>
	Below is the Training Result for 25 epochs.
	![training detail.png](https://cdn-uploads.huggingface.co/production/uploads/645c859ad90782b1a6a3e957/Oi9TuJ8nEjtt6Z_W56myn.png)