jinav2-cross-encoder
Collection
1 item
•
Updated
This is a Cross Encoder model finetuned from jinaai/jina-reranker-v2-base-multilingual using the sentence-transformers library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import CrossEncoder
# Download from the 🤗 Hub
model = CrossEncoder("SMARTICT/jina-reranker-v2-base-multilingual-wiki-tr-rag-prefix")
# Get scores for pairs of texts
pairs = [
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.'],
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.'],
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.'],
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Taşıma kuvveti, bir cismin havada yukarı doğru kaldırılmasına neden olan kuvvettir. Direnç kuvveti ise cismin hareketini yavaşlatan, ona karşı koyan kuvvettir. Hava taşımacılığında her iki kuvvet de önemlidir. Uçaklar uçabilmek için yeterli taşıma kuvveti üretmelidir. Ancak aynı zamanda direnci minimize etmek için tasarlanırlar çünkü direnç yakıt tüketimini artırır. Kara taşıtlarında ise düşük hızlarda direnç kuvveti ön plandadır. Ancak yüksek hızlarda, örneğin Formula 1 araçlarında, taşıma kuvveti de önemli hale gelir çünkü aracın yol tutuşunu sağlar.'],
['query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?', 'passage: Evet, yazıda da belirtildiği gibi kuvvet makineleri yakıt kullanan ısı makineleri ve doğal enerji kaynaklarını kullanan makinelere ayrılır. Örneğin, araçlarda kullanılan motorlar ısı makineleridir çünkü benzin veya dizel yakıtı kullanarak mekanik enerji üretirler. Rüzgar türbinleri ise rüzgarın kinetik enerjisini elektrik enerjisine dönüştüren doğal enerji kaynaklı kuvvet makineleridir.'],
]
scores = model.predict(pairs)
print(scores.shape)
# (5,)
# Or rank different texts based on similarity to a single text
ranks = model.rank(
'query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır?',
[
'passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur.',
'passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır.',
'passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir.',
'passage: Taşıma kuvveti, bir cismin havada yukarı doğru kaldırılmasına neden olan kuvvettir. Direnç kuvveti ise cismin hareketini yavaşlatan, ona karşı koyan kuvvettir. Hava taşımacılığında her iki kuvvet de önemlidir. Uçaklar uçabilmek için yeterli taşıma kuvveti üretmelidir. Ancak aynı zamanda direnci minimize etmek için tasarlanırlar çünkü direnç yakıt tüketimini artırır. Kara taşıtlarında ise düşük hızlarda direnç kuvveti ön plandadır. Ancak yüksek hızlarda, örneğin Formula 1 araçlarında, taşıma kuvveti de önemli hale gelir çünkü aracın yol tutuşunu sağlar.',
'passage: Evet, yazıda da belirtildiği gibi kuvvet makineleri yakıt kullanan ısı makineleri ve doğal enerji kaynaklarını kullanan makinelere ayrılır. Örneğin, araçlarda kullanılan motorlar ısı makineleridir çünkü benzin veya dizel yakıtı kullanarak mekanik enerji üretirler. Rüzgar türbinleri ise rüzgarın kinetik enerjisini elektrik enerjisine dönüştüren doğal enerji kaynaklı kuvvet makineleridir.',
]
)
# [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
gooaq-dev
CrossEncoderRerankingEvaluator
with these parameters:{
"at_k": 10,
"always_rerank_positives": false
}
Metric | Value |
---|---|
map | 0.9094 (-0.0382) |
mrr@10 | 0.9248 (-0.0228) |
ndcg@10 | 0.9386 (-0.0118) |
NanoMSMARCO_R100
, NanoNFCorpus_R100
and NanoNQ_R100
CrossEncoderRerankingEvaluator
with these parameters:{
"at_k": 10,
"always_rerank_positives": true
}
Metric | NanoMSMARCO_R100 | NanoNFCorpus_R100 | NanoNQ_R100 |
---|---|---|---|
map | 0.5847 (+0.0951) | 0.4027 (+0.1417) | 0.6937 (+0.2741) |
mrr@10 | 0.5880 (+0.1105) | 0.6892 (+0.1894) | 0.7346 (+0.3079) |
ndcg@10 | 0.6644 (+0.1240) | 0.4778 (+0.1527) | 0.7569 (+0.2562) |
NanoBEIR_R100_mean
CrossEncoderNanoBEIREvaluator
with these parameters:{
"dataset_names": [
"msmarco",
"nfcorpus",
"nq"
],
"rerank_k": 100,
"at_k": 10,
"always_rerank_positives": true
}
Metric | Value |
---|---|
map | 0.5604 (+0.1703) |
mrr@10 | 0.6706 (+0.2026) |
ndcg@10 | 0.6330 (+0.1776) |
question
, answer
, and label
question | answer | label | |
---|---|---|---|
type | string | string | int |
details |
|
|
|
question | answer | label |
---|---|---|
query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır? |
passage: Kumbara, özellikle çocuklara küçük yaşta para biriktirmenin ve tasarrufun önemini anlamalarını sağlamak için eğlenceli ve görsel bir araç sunar. İçine attıkları her kuruşu görerek birikimlerinin artışını gözlemlemeleri, onlarda tasarruf alışkanlığı kazanmalarına yardımcı olur. |
1 |
query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır? |
passage: Uzay araçlarında yakıt tasarrufu sağlamak için reaksiyon kontrol sistemlerine alternatif olarak ark jetleri, iyon iticileri veya Hall etkili iticiler gibi yüksek özgül itki motorları kullanılabilir. Ayrıca, ISS dahil bazı uzay araçları, dönme oranlarını kontrol etmek için dönen momentum çarklarından yararlanır. |
0 |
query: Kumbara tasarruf bilincinin aşılanmasında nasıl bir araçtır? |
passage: Kubar, genellikle pipo, bong veya vaporizör kullanılarak içilir. Ayrıca sigara gibi sarılarak da tüketilebilir. Ancak kubar tek başına yanmadığı için, bu şekilde içildiğinde genellikle normal esrar veya tütün ile karıştırılır. Dekarboksile edilmiş kubar ise oral yolla da kullanılabilir. |
0 |
BinaryCrossEntropyLoss
with these parameters:{
"activation_fn": "torch.nn.modules.linear.Identity",
"pos_weight": 5
}
eval_strategy
: stepsper_device_train_batch_size
: 16per_device_eval_batch_size
: 16learning_rate
: 2e-05num_train_epochs
: 2warmup_ratio
: 0.1bf16
: Truedataloader_num_workers
: 4load_best_model_at_end
: Trueoverwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 2max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 4dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Trueignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size
: 0fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
: auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: proportionalEpoch | Step | Training Loss | gooaq-dev_ndcg@10 | NanoMSMARCO_R100_ndcg@10 | NanoNFCorpus_R100_ndcg@10 | NanoNQ_R100_ndcg@10 | NanoBEIR_R100_mean_ndcg@10 |
---|---|---|---|---|---|---|---|
-1 | -1 | - | 0.9555 (+0.0050) | 0.6801 (+0.1397) | 0.4668 (+0.1417) | 0.7932 (+0.2925) | 0.6467 (+0.1913) |
0.0006 | 1 | 0.2737 | - | - | - | - | - |
0.6150 | 1000 | 0.0997 | - | - | - | - | - |
1.2300 | 2000 | 0.019 | - | - | - | - | - |
1.8450 | 3000 | 0.0202 | - | - | - | - | - |
-1 | -1 | - | 0.9386 (-0.0118) | 0.6644 (+0.1240) | 0.4778 (+0.1527) | 0.7569 (+0.2562) | 0.6330 (+0.1776) |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
Base model
jinaai/jina-reranker-v2-base-multilingual