rasyosef's picture
Add new SparseEncoder model
eb3bb31 verified
metadata
language:
  - am
license: mit
tags:
  - sentence-transformers
  - sparse-encoder
  - sparse
  - splade
  - generated_from_trainer
  - dataset_size:184407
  - loss:SpladeLoss
  - loss:SparseMultipleNegativesRankingLoss
  - loss:FlopsLoss
base_model: rasyosef/roberta-base-amharic
widget:
  - text: >+
      ዩቲዩብ ቲክቶክ መሰል መተግበሪያ ሕንድ ውስጥ ሊጀምር ነው\nዩቲዩብ ሾርትስ የተሰኘ ስም የተሰጠው መተግበሪያ
      ተንቀሳቃሽ ምስሎች መጋሪያ ነው።


      ተጠቃሚዎች ከ15 ሰኮንድ የረዘመ ምስል እንዲጭኑ አይፈቀድላቸውም። 


      መተግበሪያ ከቻይናው ቲክቶክ ጋር ተመሳሳይነት ያለው ቴክኖሎጂ እንደሚጠቀምም ታውቋል። 


      ሕንድ ባለፈው ሰኔ ከቻይና ጋር ድንበር ላይ መጋጨቷን ተከትሎ ቲክቶክ የተሰኘው አነጋጋሪ የተንቀሳቃሽ ምስል መጋሪያ
      ድር አምባን ጨምሮ ሌሎች 58 መተበግሪያዎችን ማገዷ አይዘነጋም። 


      በወቅቱ ቲክቶክ ሕንድ ውስጥ በዓለም ትለቁ የተባለ ገበያ ነበረው። የተጠቃሚዎች ቁጥርም 120 ሚሊዮን ገደማ ነበር።


      ዩቲዩብ ሕንድ ውስጥ የቲክቶክን ክፍተት ለመሙላት ጥቅም ላይ መዋል ከጀመሩ ሃገር በቀል ድርጅቶችም ፉክክር
      ይጠብቀዋል። 


      የዩቲዩብ ምርቶች ቁጥጥር ምክትል ፕሬዝደንት የሆኑት ክሪስ ጄፍ እንዳሉት ሾርትስ የተሰኘው አዲስ ቴክኖሎጂ ዋና ዓላማው
      ተጠቃሚዎች ሞባይል ስልካቸውን ብቻ ተጠቅመው አጠር ያሉ ማራኪ ቪድዮዎችን እንዲሠሩ ማመቻቸት ነው። 


      አዲሱ ቴክኖሎጂ የተለያዩ ካሜራዎችን ተጠቅሞ ቪድዮዎችን መሥራት ያስችላል። 


      አልፎም ተጠቃሚዎች ከሙዚቃ ቤተ መዘክር የፈለጉትን ሙዚቃ ተጠቅመው መጠቀም እንዲችሉ ያደርጋል። 


      ምክትል ፕሬዝደንቱ ሾርትስ በደንብ እየተሻሻለ ሲመጣ አዳዲስ ቴክኖሎጂዎች ተገጥመውለት ወደ ሌሎች ገበያዎች እንደሚሠራጭ
      ተናግረዋል። 


      የአሜሪካው ፕሬዝደንት ዶናልድ ትራምፕ ቻይና ሠራሹ ቲክቶክ ዩናይትድ ስቴትስ ውስጥ እንዳይሠራ አደርጋለሁ ማለታቸውን
      ተከትሎ በርካታ አማራጮች ወደ ገበያ መምጣት ጀምረዋል። 


      ፕሬዝደንቱ የተጠቃሚዎች ግላዊ መረጃ በቲክቶክ አማይነት ለቻይና መንግሥት ተላልፎ እየተሰጠ ነው ይላሉ። 


      የሕንድ መንግሥትም ተመሳሳይ ቅሬታ በማቅረብ ነው ቲክቶክን ከጥቅም ውጭ ያደረገው። 

  - text: >-
      በጃኑዋሪ 1958 እ.ኤ.አ.፣ ሴኔጋልና የፈረንሣይ ሱዳን ተቀላቅለው የማሊ ፌዴሬሽንን መሠረቱ። ይህም ፌዴሬሽን
      በአፕሪል 4፣ 1960 እ.ኤ.አ. ከፈረንሣይ ጋር በተፈረመው የሥልጣን ዝውውር ስምምነት አማካኝ በጁን 20፣ 1960
      እ.ኤ.አ. ነጻነቱን አውጀ። በውስጣዊ የፖለቲካ ውዝግቦች ምክኒያት ፌዴሬሽኑ ክሁለት ወር በኋላ ተከፈለ። ሴኔጋልም
      ነጻነቱን በድጋሚ አውጀ። ሊዎፖልድ ሴንግሆርም የመጀመሪያው ፕሬዘዳንት ሆኖ በኦገስት 1961 እ.ኤ.አ. ተመረጠ።
      ፕሬዝዳንት ሊዎፖልድ ሴንግሆር ሀገሩን መምራት ከጀመረ በኋላ ከጠቅላይ ሚኒስትሩ ማማዱ ዲያ ጋር ባለው አለመስማማት
      ምክኒያት በጠቅላይ ሚኒስትሩ የተመራ መፈንቅለ-መንግሥት በዲሴምበር 1962 እ.ኤ.አ. ተካሄደ። ይህ መፈንቅለ-መንግሥት
      ያለ ደም ፍስሻ የከሸፈ ሲሆን ማማዱ ዲያም ታሰረ። ከዛም ሴኔጋል የፕሬዝዳነንቱን ሥልጣን የሚያጠነክር አዲስ
      ሕገ-መንግሥት አሳለፈች። በ1980 እ.ኤ.አ. ፕሬዝዳንት ሴንግሆር በራሱ ፍቃድ ከሥልጣኑ የወረደ ሲሆን በ1981 
      እ.ኤ.ኣ. በራሱ በሊዎፖልድ ሴንግሆር የተመረጠው አብዱ ዲዮፍ ፕሬዝዳንት ሆነ። በፌብሩዋሪ 1፣ 1982 እ.ኤ.አ.፣
      ሴኔጋል ከጋምቢያ ጋር ተዋሕዳ የሴኔጋምቢያ ኮንፌዴሬሽንን መሠረተች። ከስምንት ዓመት በኋላ ግን በ1989 እ.ኤ.አ.
      ኮንፌዴሬሽኑ ፈረሰ። ከ1982 እ.ኤ.አ. ጀምሮ በደቡባዊ ሴኔጋል በካሳማንክ አካባቢ የሚገኙ አማጺዎች ከሴኔጋል
      መንግሥት ጋር በየጊዜው ተጋጭተዋል። ሴኔጋል ዓለም-አቀፍ ሰላም-አስከባሪ ሃይሎችን በመላክ ትታተወቃለች። አብዱ ዲዮፍ
      ከ1981 እስከ 2000 እ.ኤ.አ. ድረስ ፕሬዝዳንት ነበረ። በሥልጣን ጊዜው አብዱ የፖለቲካ ተሳትፎን አበረታትቷል፣
      መንግሥቱ በኤኮኖሚው ላይ ያለውን ቁጥጥር አሳንሷል፣ እና ሴኔጋል ክውጭ በተለይም ከታዳጊ ሀገሮች ጋር ያላትን
      የዲፕሎማሲ ግንኙነቶችን አጠናክሯል። አብዱ ለአራት የሥራ-ጊዜዎች ፕሬዝዳንት ሆኖ አገልግሏል። በ2000 እ.ኤ.አ.
      በዓለም-አቀፍ ታዛቢዎች ነጻና ዲሞክራሲያዊ በተባለ ምርጫ የአብዱ ዲዮፍ ተቀናቃኝ አብዱላይ ዋዲ አሸንፎ ፕሬዝዳንት
      ሆኗል። ወደ ውጭ አገር የሚላኩ ሸቀጦች በተለይ አሣ፣ ጥጥ፣ ጨርቅ፣ ባምባራ ለውዝ (Vignea subterranea)፣
      ካልሲየም ፎስፌት ናቸው። ሴኔጋል ፕሬዝዳንታዊ ሪፐብሊክ ናት። ከ2001 እ.ኤ.አ. ጀምሮ ፕሬዝዳንቷ በየአምስት ዓመት
      የሚመረጥ ሲሆን ከዛ በፊት ደግሞ በየሰባት ዓመት ነበር። ያሁኑ ፕሬዝዳንት አብዱላዬ ዋዴ ሲሆኑ በማርች 2007
      እ.ኤ.አ. እንደገና ተመርጠዋል።
  - text: >-
      በዩናይትድ ስቴትስ የሚደገፉት የሶሪያ ዲሞክራሲያዊ ኃይሎች ዛሬ ማክሰኞ ባወጡት መግለጫ ከሶሪያዋ ራካ ከተማ
      “የእስልምና መንግሥት” ብሎ ራሱን በሚጠራው ቡድን ቁጥጥር ሥር የነበሩትን የመጨረሻዎቹን ይዞታዎች አስለቅቀው
      መቆጣጠራቸውን አስታወቁ።በኩሮዶችና በአረብ ሚሊሺያዎች የተዋቀረው የሶሪያ ዲሞክራሲያዊ ኃይሎች ቃል አቀባይ ለጋዜጠኞች
      በሰጡት ቃል የራካው ውጊያ ተጠናቋል ብለዋል።ብሪታንያ የሚገኘው የሶሪያ ሰብዓዊ መብቶች ቅኝት አካልም ራካ ነፃ
      ወጥታለች ሲል አስታውቋል።የዲምክራሲያዊ ኃይሎቹ ተዋጊዎች የእስልምና መንግሥት የዕዝ ማዕከል ሆኖ ሲያገለግል የነበረውን
      አንድ ሆስፒታል ከተቆጣጠሩ በኋላ በከተማዋ የቡድኑ ዋና ሰፈር የነበረውን የኳስ ሜዳ ይዘውታል።የእስልምና መንግሥት
      ተዋጊዎችን ከራካ የማስወጣት ጥቃቱ በዩናይትድ ስቴትስ በሚመራው ሕብረት የአየር ጥቃትና ሌላም ድጋፍ እየታገዘ
      የተጀመረው ባለፈው ሰኔ ወር እንደነበር ይታወሳል።ራካ ዘጠና ከመቶ በሶሪያ ዲሞክራሲያዊ ኃይሎች እጅ መግባቷን
      የዩናይትድ ስቴትስ መራሹ ሕብረት ቃል ኣአቀባይ ራያን ዲለን ተናግረዋል። 
  - text: በኦሮሚያ ክልል ለሚገኙ ታማኝ ግብር ከፋይ ባለሀብቶች እውቅና ተሰጠ
  - text: ሱዳን ከኢትዮጵያ ጋር የሚያወዛግባትን መሬት እንደማትለቅ አስታወቀች
pipeline_tag: feature-extraction
library_name: sentence-transformers
metrics:
  - dot_accuracy@1
  - dot_accuracy@3
  - dot_accuracy@5
  - dot_accuracy@10
  - dot_precision@1
  - dot_precision@3
  - dot_precision@5
  - dot_precision@10
  - dot_recall@1
  - dot_recall@3
  - dot_recall@5
  - dot_recall@10
  - dot_ndcg@10
  - dot_mrr@10
  - dot_map@100
  - query_active_dims
  - query_sparsity_ratio
  - corpus_active_dims
  - corpus_sparsity_ratio
model-index:
  - name: SPLADE-RoBERTa-Amharic-Base
    results:
      - task:
          type: sparse-information-retrieval
          name: Sparse Information Retrieval
        dataset:
          name: Unknown
          type: unknown
        metrics:
          - type: dot_accuracy@1
            value: 0.6625659050966608
            name: Dot Accuracy@1
          - type: dot_accuracy@3
            value: 0.8331868775629759
            name: Dot Accuracy@3
          - type: dot_accuracy@5
            value: 0.8725834797891037
            name: Dot Accuracy@5
          - type: dot_accuracy@10
            value: 0.9111013473930872
            name: Dot Accuracy@10
          - type: dot_precision@1
            value: 0.6625659050966608
            name: Dot Precision@1
          - type: dot_precision@3
            value: 0.27772895918765866
            name: Dot Precision@3
          - type: dot_precision@5
            value: 0.1745166959578207
            name: Dot Precision@5
          - type: dot_precision@10
            value: 0.09111013473930872
            name: Dot Precision@10
          - type: dot_recall@1
            value: 0.6625659050966608
            name: Dot Recall@1
          - type: dot_recall@3
            value: 0.8331868775629759
            name: Dot Recall@3
          - type: dot_recall@5
            value: 0.8725834797891037
            name: Dot Recall@5
          - type: dot_recall@10
            value: 0.9111013473930872
            name: Dot Recall@10
          - type: dot_ndcg@10
            value: 0.793323433202864
            name: Dot Ndcg@10
          - type: dot_mrr@10
            value: 0.7548727927023166
            name: Dot Mrr@10
          - type: dot_map@100
            value: 0.7575361502469213
            name: Dot Map@100
          - type: query_active_dims
            value: 144.32879638671875
            name: Query Active Dims
          - type: query_sparsity_ratio
            value: 0.995489725112915
            name: Query Sparsity Ratio
          - type: corpus_active_dims
            value: 310.48967695411466
            name: Corpus Active Dims
          - type: corpus_sparsity_ratio
            value: 0.9902971975951841
            name: Corpus Sparsity Ratio

SPLADE-RoBERTa-Amharic-Base

This is a SPLADE Sparse Encoder model finetuned from rasyosef/roberta-base-amharic using the sentence-transformers library. It maps sentences & paragraphs to a 32000-dimensional sparse vector space and can be used for semantic search and sparse retrieval.

Model Details

Model Description

  • Model Type: SPLADE Sparse Encoder
  • Base model: rasyosef/roberta-base-amharic
  • Maximum Sequence Length: 510 tokens
  • Output Dimensionality: 32000 dimensions
  • Similarity Function: Dot Product
  • Language: am
  • License: mit

Model Sources

Full Model Architecture

SparseEncoder(
  (0): MLMTransformer({'max_seq_length': 510, 'do_lower_case': False, 'architecture': 'XLMRobertaForMaskedLM'})
  (1): SpladePooling({'pooling_strategy': 'max', 'activation_function': 'relu', 'word_embedding_dimension': 32000})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SparseEncoder

# Download from the 🤗 Hub
model = SparseEncoder("rasyosef/SPLADE-RoBERTa-Amharic-Base")
# Run inference
sentences = [
    'ሱዳን ከኢትዮጵያ ጋር የሚያወዛግባትን መሬት እንደማትለቅ አስታወቀች',
    'የሱዳኑ ሱና ከፍተኛ የመከላከያ ኃላፊን ጠቅሶ፤ ሱዳን በምዕራባዊ ድንበሯ ላይ የሚገኘውንና ከኢትዮጵያ ጋር ያወዛግባት የነበረውን መሬት እንደማትመልስ ዘግቧል።\n\n"ሱዳን ከአልፋሻጋ ይዞታ ቅንጣት ታህል እንደማትሰጥ ሜጀር ጀነራል ሀይደር አልቲራፊ አረጋግጠዋል። ለወታደራዊ ኃይል ምልመላ እየተደረገ መሆኑንም ተናግረዋል" ይላል የመንግሥታዊው ሱና ዘገባ።\n\nኢትዮጵያ በበኩሏ አለመግባባቱን በድርድር ለመፍታት ሱዳን የያዘችውን መሬት እንድትለቅ እንደ ቅድመ ሁኔታ አስቀምጣለች። \n\nየሱዳኑ ጄነራል ግን አልገዳሪፍ ውስጥ ፋላታ ከተባለው ጎሳ ድጋፍ በተቀበሉበት ወቅት ባደረጉት ንግግር "ሁሉም ዜጎች ልጆቻቸው ወታደራዊ ኃይሉን ተቀላቅለው የአገራቸውን ዳር ድንበርና ክብር እንዲያስጠብቁ እንዲያነሳሱ እጠይቃለሁ" ብለዋል።\n\nየሱዳን ወታደራዊ ኃይል ድንበር ላይ ያለውን ቀጠና ለማሳደግ የመንገድና የድልድይ ግንባታ ላይ እንደተሰማራ ተናግረዋል። "በቀጠናው የአገልግሎት ዘርፍ በመገንባት እንቅስቃሴን ምቹ ለማድረግም እየሠሩ ነው" ሲሉ አክለዋል።\n\nየኢትዮጵያ የውጪ ጉዳይ ሚንስትር ቃል አቀባይ ዲና ሙፍቲ፤ ከቀናት በፊት በሰጡት መግለጫ ሱዳን ወደቀደመ ይዞታዋ ካልተመለሰች ለድርድር መቀመጥ እንደማይቻል ተናግረዋል።\n\nሱዳን የኢትዮጵያን ድንበር አልፋ እንድትጠብቅም ሆነ መሬት እንድትይዝ የተደረሰ ስምምነት እንደሌለም ቃል አቀባዩ አምባሳደር ዲና መናገራቸው ይታወሳል።\n\nሱዳን የያዘችውን መሬት እንድትለቅ ኢትዮጵያ በቅድመ ሁኔታ ማስቀመጧንና ይህ ከተሳካ ሁለቱ አገራት በዋናነትም ችግራቸውን ተነጋግረው መፍታት እንደሚችሉም አስረድተዋል።\n\nሱዳን እና ኢትዮጵያን የሚያወዛግበው አልፋሽጋ የግብርና ሥራ እየተከናወነበት የሚገኝ ሲሆን፤ ባሳለፍነው ጥቅምት ሱዳን አካባቢውን ሙሉ በሙሉ እንደምትቆጣጠር አስታውቃለች።\n\nይህም ከኢትዮጵያ ጋር የሚያወዛግባትንና በኢትዮጵያ ሚሊሻ ተይዞ የነበረውን የድንበር አካባባቢ ይጠቀልላል።\n\n ',
    'ትግራይ፡ ጦርነቱን ተከትሎ ከ6ሺህ በላይ ኢትዮጵያውያን ወደ ሱዳን ሸሽተዋል\\nየሱዳን ባለስልጣናት በቀጣይ ቀናት እስከ 200 ሺህ ኢትዮጵያውን ድንበር ተሻግረው ወደ ሱዳን ሊገቡ እንደሚችሉ ጠቁመዋል። \n\nጠቅላይ ሚንስትር ዐብይ የትግራይ ልዩ ኃይል በአገር መከላከያ ሠራዊት ሰሜን እዝ ላይ ጥቃት ሰንዝሯል ካሉ በኋላ የአገር መከላከያ ሠራዊት እርምጃ እንዲወስድ ማዘዛቸው ይታወሳል። \n\nሮይተርስ የዜና ወኪል በዘገባው ወደ ሱዳን ድንበር የተሻገሩት ስደተኞች ሲቪል ወይም ወታደራዊ ይሁኑ ያለው ነገር የለም። \n\nየስደተኞቹ ቁጥር ትናንት ማክሰኞ 6ሺህ መድረሱን የሱዳን የስደተኞች ኮሚሽን ገልጾ ቁጥሩ ከዚህም ሊለቅ እንደሚችል ስጋቱን አስቀምጧል። \n\nሮይተርስ የአገሬውን የዜና አገልግሎት ጠቅሶ እንደዘገበው 6ሺህ የሚሆኑ ስደተኞች ወደ ሱዳን የዘለቁት ሉቅዲ፣ ቁዳይማህ እና ሐምዳይት በተባሉ የሱዳን ድንበር አካባቢዎች በኩል ነው። ሌሎች በርካታ ስደተኞችም በአትባራ ወንዝ ዳርቻ ወደ ሱዳን ለመሻገር በመጠባበቅ ላይ ናቸው።\n\nሮይተርስ የሱዳን ዜና አገልግሎትን ጠቅሶ ከቀናት በፊት እንደዘገበው ደግሞ  የጦርነቱን ማገርሸት ተከትሎ የሱዳን መንግሥት ከኢትዮጵያ ጋር የሚያዋስነውን ድንበር በከፊል እንደዘጋ ጽፎ ነበር።\n\nየሱዳን ዜና አገልግሎት እንደሚለው በምሥራቅ ሱዳን አል ቃዳሪፍ ክልል የሚገኘው አስተዳደር ከአማራና ትግራይ የሚያገናኙትን አዋሳኝ ድንበሮችን ላልተወሰነ ጊዜ ዘግቷል።\n\nየዜና አገልግሎቱ ዘገባ እንዳተተው በሱዳን በኩል ሁለቱን የኢትዮጵያ ክልሎች በሚያዋስኑ ግዛቶች አሁን ምርት የመሰብሰቢያ ወቅት ስለሆነ የጦርነቱ ዳፋ የስደተኛ ጎርፍ አስከትሎ ገበሬዎችና ማሳቸው ላይ ችግር ሊፈጥር ይችላል።\n\nበጎረቤት አገር የሚደረገው ጦርነት ያሳሰበው የሱዳን መንግሥት የደኅንነትና ጸጥታ ጉዳዮች ምክር ቤት ባለፈው ማክሰኞ ልዩ ስብሰባ መቀመጡንና በጉዳዩ ዙርያ መምከሩም ተዘግቧል።\n\nየሱዳን የመከላከያ ሚኒስትር ያሲን ኢብራሂም ይህን ስብሰባ  ተከትሎ እንዳሉት በጎረቤት አገር ኢትዮያ ያለውን ሁኔታ በአንክሮ እየተከታተሉት እንደሆነና ሁለቱም ተዋጊ ወገኖች ወደ ሰላምና መረጋጋት እንዲመለሱ ማሳሰባቸውን ሱዳን ትሪቡን ዘግቧል።\n\nየሱዳን ጠቅላይ ሚኒስተር ቢሮ እንደገለጠው አብደላ ሐምዱክ ለኢትዮጵያ አቻቸው ዐቢይ አሕመድ አራት ጊዜ ያህል እንደደወሉላቸውና ከህወሓት ጋር ለድርድር ዝግጁ እንዲሆኑ እንደወተወቷቸው ይኸው ጋዜጣ ዘግቧል።\n\nአቶ ገዱ በሱዳን\n\nይህ በአንዲህ እንዳለ የኢፊዲሪ የውጭ ጉዳይ ሚኒስትር የነበሩትና በቅርቡ የጠቅላይ ሚኒስትር የብሔራዊ ደኅንነት አማካሪ ሚኒስትር ተደርገው የተመደቡት አቶ ገዱ አንዳጋቸው ሱዳን ገብተዋል ሲሉ የመንግሥት መገናኛ ብዙኃን ዘግበዋል።\n\nአቶ ገዱ ወደ ካርቱም ያቀኑት ከጠቅላይ ሚኒስትር ዐቢይ አህመድ የተላከ መልዕክት ለሱዳን ሉዓላዊ ምክር ቤት ፕሬዚዳንት ለሌትናልት ጄኔራል አብዱልፈታህ አልቡርሃን እና ለሱዳን ጠቅላይ ሚኒስትር አብደላህ ሀምዶክ ለማድረስ ነው።\n\nአቶ ገዱ ከሌትናልት ጄኔራል አብዱልፈታህ አልቡርሃን እና ጠቅላይ ሚኒስትር አብደላህ ሀምዶክ በኢትዮጵያ ወቅታዊ ሁኔታ ዙርያ መነጋገራቸውም ተዘግቧል።\n\n',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 32000]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 56.5779,  44.1052,  12.5016],
#         [ 44.1052, 107.3544,  17.8198],
#         [ 12.5016,  17.8198,  82.5939]])

Evaluation

Metrics

Sparse Information Retrieval

Metric Value
dot_accuracy@1 0.6626
dot_accuracy@3 0.8332
dot_accuracy@5 0.8726
dot_accuracy@10 0.9111
dot_precision@1 0.6626
dot_precision@3 0.2777
dot_precision@5 0.1745
dot_precision@10 0.0911
dot_recall@1 0.6626
dot_recall@3 0.8332
dot_recall@5 0.8726
dot_recall@10 0.9111
dot_ndcg@10 0.7933
dot_mrr@10 0.7549
dot_map@100 0.7575
query_active_dims 144.3288
query_sparsity_ratio 0.9955
corpus_active_dims 310.4897
corpus_sparsity_ratio 0.9903

Training Details

Training Dataset

Unnamed Dataset

  • Size: 184,407 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 15.91 tokens
    • max: 81 tokens
    • min: 31 tokens
    • mean: 320.35 tokens
    • max: 510 tokens
    • min: 41 tokens
    • mean: 329.89 tokens
    • max: 510 tokens
  • Samples:
    anchor positive negative
    ነገረ ግራኝ ወፍጻሜ ሞቱ ነገር ግራኝ ወፍጻሜ ሞቱ በ19ኛው ክፍለ ዘመን የተደረሰ መጽሐፍ ሲሆን ግራኝ አህመድ በዓፄ ልብነ ድንግል መታበይ ምክንያት አገሪቱን ለመቅጣት የመጣ ሃይል አድርጎ የሚያቀርብ ጽሑፍ ነው።

    ልብነ ድንግል
    ግራኝ አህመድ
    የኢትዮጵያ ታሪክ
    19ኛ ክፍለ ዘመን አማርኛ ሥነ ጽሑፍ
    ልዑል ራስ መኮንን የንጉሠ ነገሥቱ ዳግማዊ ምኒልክ ተወካይ ሆነው ሁለት ጊዜ የአውሮፓን አገሮች ጎብኝተዋል። በዚህ ጊዜ እሳቸው ኢጣሊያን ሲጎበኙ በነበረ ጊዜ የኢጣሊያ ጋዘጦች የውጫሌ ውልን በተመለከተ፤ «...በውጫሌ ውል ላይ ኢትዮጵያ የኢጣሊያን ጥገኝነት ተቀብላ ውል ከፈረመች በኋላ የጀርመን ንጉሠ ነገሥት ከኢትዮጵያ የሚላከውን ማንኛውንም ደብዳቤም ሆን ጉዳይ በኢጣሊያ መንግሥት በኩል መቀበል ሲገባቸው በቀጥታ ከምኒልክ የተጻፈውን ደብዳቤ ተቀብለዋል...» እያሉ የጻፉትን ራስ መኮንን ተቃውሞአቸውን ለኢጣሊያ መንግሥት ከነገሩ በኋላ ወደ ኢትዮጵያ ሲመለሱ የውሉን መበላሸት ለአጤ ምኒልክ አሳወቁ። ከኢጣሊያንም ጋር በተደረገውም ጦርነት ራስ መኮንን ፲፭ ሺህ እግረኛ ወታደሮች ይዘው ከምኒልክ እና ታላላቅ ጦር አዛዦች ጋር ዘምተዋል። በ፲፰፻፺፰ ዓ.ም መጀመሪያ ላይ በብርቱ ስለታመሙ ለኅክምና ወደ አዲስ አበባ ለመሄድ ጥር ፬ ቀን ከከተማቸው ከሐረር ተነሱ። ጥር ፱ቀን ቡርቃ ወንዝ አድረው የጥምቀትን በዓል አክብረው ከዋሉ በኋላ ሕመሙ ስለጸናባቸው ወደ ኋላ ተመልሰው ቁልቢ ገብተው በሐኪም ይታከሙ ጀመር። እዚሁም ሲታመሙ ከቆዩ በኋላ መጋቢት ፲፫ ቀን ፲፰፻፺፰ ዓ.ም ቁልቢ ላይ አርፈው ሐረር ላይ እሳቸው በተከሉት በቅዱስ ሚካኤል ቤተ ክርስቲያን ተቀበሩ። ዐፄ ምኒልክም የአርባቸው ለቅሶ የሚለቀሰው አዲስ አበባ እንዲሆን ባዘዙት መሠረት፤ ሰኞ ሚያዝያ ፳፪ ቀን በአዲስ አበባና በዙሪያው ያሉት የየገዳማቱና የየአድባራቱ ካህናት የክርስቲያን የፍታት ጸሎት ተድርጎ በማግስቱም ማክሰኞ የጊዮርጊስ ዕለት ሚያዝያ ፳፫ቀን ፲፰፻፺፰ ዓ.ም በሰኢ ሜዳ ላይ ድንኳን ተተክሎ፤ መኳንንቱና ሠራዊቱ ተሰብስቦ የራስ መኮንን የማዕረግ ልብሳቸውና የራስ ወርቃቸው፤ ኒሻኖቻቸውና የጦር መሳሪያቸው ተይዞ ፈረስና ...
    ምርጫ ቦርድ ለመኢአድና ለአንድነት የሰጠው ቀነ ገደብ አለቀ መኢአድ እና አንድነት ለዴሞክራሲና ለፍትሕ ፓርቲ “የመተዳደሪያ ደንቦቻቸውን የጣሱ የአመራር ምርጫዎች አካሂደዋል” ያለው የኢትዮጵያ ብሔራዊ ምርጫ ቦርድ “የውስጥ ችግሮቻችሁን ፍቱ” በሚል ለሁለቱ ፓርቲዎች የሰጠው የሁለት ሣምንታት ቀነ ገደብ ማክሰኞ፤ ጥር 19/2007 ዓ.ም ተጠናቅቋል፡፡ሁለቱ ፓርቲዎች በተደጋጋሚ በሰጧቸው መግለጫዎች ምርጫ ቦርድ በውስጥ ጉዳያችን ጣልቃ እየገባ ነው ሲሉ ስሞታ አሰምተዋል፡፡የቀነ ገደቡን መጠናቀቅ አስመልክቶ እስክንድር ፍሬው የኢትዮጵያ ምርጫ ቦርድን የሕዝብ ግንኙነት ዳይሬክተር አቶ ደምሰው በንቲን በስልክ አነጋግሯል፡፡የተያያዘውን የድምፅ ፋይል ያዳምጡ፡፡ የምርጫ ቦርዱ የምርጫው የጊዜ ሰሌዳን አስመልክቶ ባስቀመጠው መረጃ መሰረት ከታህሳስ 16-ጥር 16፣ 2013 ዓ.ም የምርጫ ክልል ቢሮዎችን መክፈት፣ እንዲሁም ከጥር 24- የካቲት 21 2013 ዓ.ም ለምርጫ አስፈፃሚዎች ስልጠና ለመራጮች ምዝገባ የሚከናወን ይሆናል።

    በዚህም የጊዜ ሰሌዳ መሰረት በተለያዩ ክልሎች የሚገኙ የምርጫ ቢሮዎች ለመክፈት የሚያስፈልገው ትብብርን ማግኘት እንዳልቻለ ቅሬታውን አቅርቧል።

    በአሁኑም ወቅት ለምርጫ ክልል እና ለዞን ማስተባበሪያ ጽ/ቤት ሊያገለግሉ የሚችሉ ቢሮዎችን አምስት ክልሎች ሙሉ በሙሉ ማሟላት አልተቻለም ብሏል። እነዚህም የተጠቀሱት ክልሎች አፋር፣ አማራ፣ ሲዳማ፣ ደቡብ ብሔሮች፣ ብሔረሰቦች እና ሕዝቦች፣ ሶማሌ ክልል ሲሆኑ እነዚህም ክልሎች የተጠየቁትን በሙሉ እስከ የካቲት 5፣ 2013 ዓ.ም ማጠናቀቅ አለባቸው ሲል አሳስቧል።

    ብሔራዊ ምርጫ ቦርዱ ጥር 10፣ 2013 ባወጣው መግለጫ ከክልሎች እና የከተማ መስተዳድሮች የሚያስፈልገው ትብብር ባለመሟላቱ የምርጫ ክልል ቢሮዎችን ለመክፈት ዝግጅት ማድረግ እንዳልቻለ ባስታወቀው መሰረት ከፍተኛ መሻሻሎች ታይተዋል ብሏል።

    በዚህም መሰረት አዲስ አበባና ድሬዳዋ መስተዳድሮች፣ ቤኒሻንጉል ጉሙዝ፣ ኦሮሚያ፣ ሐረሪ ክልሎች ለምርጫ ክልልና ለዞን ማስተባበሪያ ፅህፈት ቤት የሚያስፈልጉትን ቢሮዎች በማዘጋጀት ለቦርዱ ማስታወቃቸው ተገልጿል።

    በእነዚህ ቢሮዎችን ባሟሉ ቦታዎች የምርጫ ጊዜ ሰሌዳው በሚያዘው መሰረት ከየካቲት 08-21፣ 2013 ዓ.ም የዕጩ ምዝገባ የሚካሄድ ሲሆን በቀሪዎቹ ደግሞ ሙሉ ለሙሉ አሟልተው ሲያቀርቡ ምዝገባው እንደሚጀመር አስታውቋል።

    ከዚህም በተጨማሪ የኢትዮጵያ ብሔራዊ ምርጫ ቦርድ ግንቦት 28፣ 2013 ዓ.ም ለሚደረገው ምርጫ የመራጮች ትምህርት ለማስተማር ዕውቅና ለተሰጣቸው...
    ሁሉም ኢትዮጵያዊ በፈለገበት ቦታ የሚኖርባትን ሀገር መገንባት አማራጭ የሌለው ሥራቸው መሆኑን የአማራ ክልል እና የወላይታ ዞን የሥራ ኃላፊዎች ተናገሩ። ባሕር ዳር፡ መስከረም 19/2012 ዓ/ም (አብመድ) ከኅብረተሰቡ ጋር ያላቸው መልካም ትስስር ግጭት ለሚፈጥሩትና ኢትዮጵያ የጋራ መሆኗ ላልገባቸው ምሳሌ እንደሚሆን በወላይታ የሚኖሩ አማራዎች ተናገሩ፡፡በ “ጊፋታ” (የወላይታ ብሄር ዘመን መለወጫ በዓል) ላይ ከተለያዩ የኢትዮጵያ አካባቢዎች እንግዶች ታድመዋል፡፡ ከታዳሚዎች መካከል የአማራ ክልል የመንግሥት የሥራ ኃላፊዎች ልዑክ ይገኝበታል። ባሕር ዳር፡ መስከረም 13/2013ዓ.ም (አብመድ) ከሰሞኑ በቤኔሻንጉል ጉሙዝ ክልል መተከል ዞን በተፈጠረ የፀጥታ ችግር የተሳተፉ አካላት ላይ ርምጃ የመውሰድ ተግባሩ ተጠናክሮ መቀጠሉን የክልሉ ሰላም ግንባታና ፀጥታ ቢሮ አስታወቀ፡፡ ቢሮው የታላቁ የኢትዮጵያ ሕዳሴ ግድብ መገኛ በመሆኑ የመላው ኢትዮጵያውያን ዓይን እና ጆሮ ወደ ክልሉ መሆኑን ቢሮው አስታውሷል፡፡ በመተከል ዞን በርካታ ብሔር ብሔረሰቦች እና ሕዝቦች በወንድማማችነት ለዘመናተ አብረው መኖራቸውንም አመላክቷል፡፡በመተከል ዞን የአማራ፣ የአገው፣ የሽናሻ፣ የጉሙዝ፣ የኦሮሞ እና ሌሎችም ብሔረሰቦች ዘመናትን አብረው አሳልፈዋል፡፡ ክፉ ጊዜን በመተባበር ማሳለፋቸው እና ደስታቸውን በጋራ መካፈላቸውም ለዓመታት ብዝኃነት ጎልቶ እንዲወጣ አድርጎታል፡፡ ሕዝቦች መካከል ምንም ችግር አለመፈጠሩን በማንሳትም አሁንም በተለመደው አብሮነታቸው እየኖሩ መሆኑን አስታውቋል፡፡
  • Loss: SpladeLoss with these parameters:
    {
        "loss": "SparseMultipleNegativesRankingLoss(scale=1.0, similarity_fct='dot_score')",
        "document_regularizer_weight": 0.0003,
        "query_regularizer_weight": 0.0005
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: epoch
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 6e-05
  • num_train_epochs: 4
  • lr_scheduler_type: cosine
  • warmup_ratio: 0.05
  • fp16: True
  • optim: adamw_torch_fused
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: epoch
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 6e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: cosine
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.05
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss dot_ndcg@10
1.0 5763 34.5486 0.7278
2.0 11526 0.0824 0.7739
3.0 17289 0.0249 0.7798
4.0 23052 0.009 0.7933
-1 -1 - 0.7933

Framework Versions

  • Python: 3.11.13
  • Sentence Transformers: 5.0.0
  • Transformers: 4.53.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.8.1
  • Datasets: 3.6.0
  • Tokenizers: 0.21.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

SpladeLoss

@misc{formal2022distillationhardnegativesampling,
      title={From Distillation to Hard Negative Sampling: Making Sparse Neural IR Models More Effective},
      author={Thibault Formal and Carlos Lassance and Benjamin Piwowarski and Stéphane Clinchant},
      year={2022},
      eprint={2205.04733},
      archivePrefix={arXiv},
      primaryClass={cs.IR},
      url={https://arxiv.org/abs/2205.04733},
}

SparseMultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

FlopsLoss

@article{paria2020minimizing,
    title={Minimizing flops to learn efficient sparse representations},
    author={Paria, Biswajit and Yeh, Chih-Kuan and Yen, Ian EH and Xu, Ning and Ravikumar, Pradeep and P{'o}czos, Barnab{'a}s},
    journal={arXiv preprint arXiv:2004.05665},
    year={2020}
}