Matryoshka Representation Learning
Paper • 2205.13147 • Published • 26
How to use HoangVuSnape/vietnamese-document-embedding_pr_v3_10_epoch with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("HoangVuSnape/vietnamese-document-embedding_pr_v3_10_epoch", trust_remote_code=True)
sentences = [
"Ngành Kỹ thuật Trắc địa – Bản đồ là gì và sinh viên sẽ được trang bị những kỹ năng nào?",
"Triển vọng việc làm\n\nCác công ty xây dựng, nhà thầu xây dựng và các công ty tư vấn về xây dựng. Các cơ quan, tổ chức quản lý nhà nước liên quan đến xây dựng, phát triển hạ tầng và đô thị. Các công ty tài chính, ngân hàng và các tổ chức cho vay đầu tư vào các dự án xây dựng. Các công ty cung cấp dịch vụ quản lý dự án và tư vấn xây dựng. KỸ THUẬT XÂY DỰNG CÔNG TRÌNH GIAO THÔNG\n\nThông tin tuyển sinh:\n\nWebsite: http://www.dce.hcmut.edu.vn/\n\nMã tuyển sinh: 115 (Chương trình tiêu chuẩn), 215 (Chương trình giảng dạy bằng tiếng Anh)\n\nNgành Kỹ thuật Xây dựng Công trình Giao thông có 01 chuyên ngành : Cầu đường. KỸ THUẬT TRẮC ĐỊA – BẢN ĐỒ\n\nWebsite: http://www.dce.hcmut.edu.vn/\n\nNgành Kỹ thuật Trắc địa – Bản đồ thuộc Khoa Kỹ thuật Xây dựng. TỔNG QUAN CHƯƠNG TRÌNH\n\nNgành Kỹ thuật Trắc địa – Bản đồ bao gồm Khoa học và công nghệ về việc thu thập, phân tích và biễu diễn các thông tin không gian (dựa trên Trái đất). Nó bao gồm những ứng dụng thú vị như định vị vệ tinh, viễn thám, trắc địa, địa chính và hệ thông tin địa lý. Kỹ thuật Trắc địa – Bản đồ là một trong những ngành khoa học thông tin phát triển nhanh nhất ở Việt Nam và khắp thế giới. Chương trình sẽ đào tạo thành những kỹ sư có tay nghề cao, có năng lực thiết kế và tổ chức thi công các công trình định vị chính xác cao bằng những kỹ thuật hiện đại như toàn đạc điện tử và các hệ thống định vị bằng vệ tinh; công trình thành lập bản đồ địa hình, địa chính và chuyên đề dưới dạng số bằng phương pháp toàn đạc, trắc lượng ảnh, viễn thám và biên tập; công trình thành lập và vận hành các hệ thống thông tin địa lý; các công tác trắc địa phục vụ xây dựng công trình.",
"Ngành: Sư phạm tiếng Anh\n\nMã ngành: 7140231D, Tổ hợp: (D01, D96), Điểm chuẩn: 26.08\n\n2. Ngành: Thiết kế đồ họa\n\nMã ngành: 7210403D, Tổ hợp: (V01, V02, V07, V08), Điểm chuẩn: 24.50\n\n3. Ngành: Thiết kế thời trang\n\nMã ngành: 7210404D, Tổ hợp: (V01, V02, V07, V09), Điểm chuẩn: 21.50\n\n4. Ngành: Ngôn ngữ Anh\n\nMã ngành: 7220201D, Tổ hợp: (A00, A01, D01, D96), Điểm chuẩn: 22.75\n\n5. Ngành: Kinh doanh Quốc tế\n\nMã ngành: 7340120D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.25\n\n6. Ngành: Thương mại điện tử\n\nMã ngành: 7340122D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.25\n\n7. Ngành: Kế toán\n\nMã ngành: 7340301D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.25\n\n8. Ngành: Công nghệ kỹ thuật máy tính\n\nMã ngành: 7480106D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.00\n\n9. Ngành: Hệ thống nhúng và IoT\n\nMã ngành: 7480109D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.75\n\n10. Ngành: Công nghệ thông tin\n\nMã ngành: 7480201D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.25\n\n11. Ngành: Công nghệ kỹ thuật công trình xây dựng\n\nMã ngành: 7510102D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.00\n\n12. Ngành: Hệ thống kỹ thuật công trình xây dựng\n\nMã ngành: 7510105D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.00\n\n13. Ngành: Công nghệ kỹ thuật cơ khí\n\nMã ngành: 7510201D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 21.50\n\n14. Ngành: Công nghệ chế tạo máy\n\nMã ngành: 7510202D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 18.00\n\n15. Ngành: Công nghệ kỹ thuật ô tô\n\nMã ngành: 7510205D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.50\n\n16. Ngành: Công nghệ kỹ thuật nhiệt\n\nMã ngành: 7510206D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 16.50\n\n17. Ngành: Công nghệ kỹ thuật điện, điện tử\n\nMã ngành: 7510301D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.25\n\n18. Ngành: Công nghệ kỹ thuật điện tử, viễn thông\n\nMã ngành: 7510302, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.75\n\n19. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.00\n\n20. Ngành: Công nghệ kỹ thuật hóa học\n\nMã ngành: 7510401, Tổ hợp: (A00, B00, D07, D90), Điểm chuẩn: 17.00\n\n21. Ngành: Công nghệ vật liệu\n\nMã ngành: 7510402D, Tổ hợp: (A00, B00, D07, D90), Điểm chuẩn: 17.00\n\n22. Ngành: Công nghệ kỹ thuật môi trường\n\nMã ngành: 7510406, Tổ hợp: (A00, B00, D07, D90), Điểm chuẩn: 17.00\n\n23. Ngành: Quản lý công nghiệp\n\nMã ngành: 7510601, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.75\n\n24. Ngành: Logistics và quản lý chuỗi cung ứng\n\nMã ngành: 7510605D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 24.25\n\n25. Ngành: Công nghệ kỹ thuật in\n\nMã ngành: 7510802D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n26. Ngành: Công nghệ may\n\nMã ngành: 7540204D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.50\n\n27. Ngành: Kiến trúc\n\nMã ngành: 7580101, Tổ hợp: (V00, V01, V02, V03), Điểm chuẩn: 22.25\n\n28. Ngành: Kiến trúc nội thất\n\nMã ngành: 7580101D, Tổ hợp: (V03, V04, V05, V06), Điểm chuẩn: 22.00\n\n29. Ngành: Kỹ thuật xây dựng công trình giao thông\n\nMã ngành: 7580205D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n30. Ngành: Kỹ thuật xây dựng\n\nMã ngành: 7580201D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n31. Ngành: Quản trị nhà hàng và dịch vụ ăn uống\n\nMã ngành: 7840110D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.50\n\n32. Ngành: Quản lý và vận hành hạ tầng\n\nMã ngành: 7840101D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.70\n\n33. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.75\n\n34. Ngành: Công nghệ kỹ thuật điện tử - viễn thông\n\nMã ngành: 7510302D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 21.50\n\nCLC Tiếng Việt\n\n1. Ngành: Thiết kế thời trang\n\nMã ngành: 7210404C, Tổ hợp: (V01, V02, V07, V09), Điểm chuẩn: 21.60\n\n2. Ngành: Thương mại điện tử\n\nMã ngành: 7340122C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.50\n\n3. Ngành: Kế toán\n\nMã ngành: 7340301C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.75\n\n4. Ngành: Công nghệ kỹ thuật máy tính\n\nMã ngành: 7480106C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.65\n\n5. Ngành: Công nghệ thông tin\n\nMã ngành: 7480201C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 26.00\n\n6. Ngành: Công nghệ kỹ thuật công trình xây dựng\n\nMã ngành: 7510102C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 20.00\n\n7. Ngành: Công nghệ kỹ thuật cơ khí\n\nMã ngành: 7510201C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.00\n\n8. Ngành: Công nghệ chế tạo máy\n\nMã ngành: 7510202C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.00\n\n9. Ngành: Công nghệ kỹ thuật ô tô\n\nMã ngành: 7510205C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.00\n\n10. Ngành: Công nghệ kỹ thuật nhiệt\n\nMã ngành: 7510206C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n11. Ngành: Công nghệ kỹ thuật điện, điện tử\n\nMã ngành: 7510301C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.00\n\n12. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.00\n\n13. Ngành: Công nghệ kỹ thuật điện tử - viễn thông\n\nMã ngành: 7510302C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.50\n\n14. Ngành: Công nghệ kỹ thuật điện tử, viễn thông\n\nMã ngành: 7510302C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.50\n\n15. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 24.00\n\n16. Ngành: Công nghệ kỹ thuật môi trường\n\nMã ngành: 7510406C, Tổ hợp: (A00, B00, D07, D90), Điểm chuẩn: 17.50\n\n17. Ngành: Quản lý công nghiệp\n\nMã ngành: 7510601C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.75\n\n18. Ngành: Công nghệ kỹ thuật cơ điện tử\n\nMã ngành: 7510203C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 21.50\n\n19. Ngành: Công nghệ may\n\nMã ngành: 7540204C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.25\n\nCLC Tiếng Anh:\n\n1. Ngành: Công nghệ kỹ thuật máy tính\n\nMã ngành: 7480106A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 26.00\n\n2. Ngành: Công nghệ thông tin\n\nMã ngành: 7480201A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 26.50\n\n3. Ngành: Công nghệ kỹ thuật công trình xây dựng\n\nMã ngành: 7510102A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.75\n\n4. Ngành: Công nghệ kỹ thuật cơ khí\n\nMã ngành: 7510201A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.50\n\n5. Ngành: Công nghệ chế tạo máy\n\nMã ngành: 7510202A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.50\n\n6. Ngành: Công nghệ kỹ thuật ô tô\n\nMã ngành: 7510205A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.50\n\n7. Ngành: Công nghệ kỹ thuật nhiệt\n\nMã ngành: 7510206A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n8. Ngành: Công nghệ kỹ thuật điện, điện tử\n\nMã ngành: 7510301A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.50\n\n9. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.50\n\n10. Ngành: Công nghệ kỹ thuật điện tử, viễn thông\n\nMã ngành: 7510302A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.25\n\n11. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.50\n\n12. Ngành: Quản lý công nghiệp\n\nMã ngành: 7510601A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.25\n\nNhân tài\n\nNgành: Robot và trí tuệ nhân tạo\n\nMã ngành: 7510209NT, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.00",
"xiv. Khoa tiếng Nhật\n\n1. CHẤT LƯỢNG ĐÀO TẠO\n\nĐÀO TẠO CỬ NHÂN (4 NĂM)\n\n2.CHẤT LƯỢNG GIẢNG VIÊN\n\nĐỘI NGŨ GIẢNG VIÊN: 8\n\nTiến sĩ: 1\n\nThạc sĩ: 5\n\nCử nhân: 2\n\n3. MỤC TIÊU ĐÀO TẠO\n\nĐào tạo cử nhân ngôn ngữ Nhật, có phẩm chất chính trị, đạo đức và sức khỏe tốt, hiểu và vận dụng các tri thức cơ bản về ngôn ngữ tiếng Nhật. Sau khi tốt nghiệp, người học có đủ năng lực để làm việc ở các cơ quan, tổ chức, các công ty, doanh nghiệp yêu cầu chuẩn về kỹ năng sử dụng tiếng Nhật đáp ứng những yêu cầu của xã hội và của nền kinh tế trong quá trình hội nhập quốc tế. 4. CÁC NGÀNH ĐÀO TẠO\n\nĐẠI HỌC\n\nCử nhân Ngôn ngữ Nhật\n\nxv. Khoa tiếng Hàn Quốc\n\n1. CHẤT LƯỢNG ĐÀO TẠO\n\nĐÀO TẠO CỬ NHÂN (4 NĂM)\n\nTUYỂN SINH:\n\n2016 - 2017: 150 SV\n\n2017 - 2018: 195 SV\n\n2018 - 2019: 120 SV\n\n2019 - 2020: 54 SV\n\n2021 - 2022: 120 SV\n\n2022 - 2023: 88 SV\n\nSong ngành: 20 SV\n\n2. CHẤT LƯỢNG GIẢNG VIÊN\n\nĐỘI NGŨ GIẢNG VIÊN: 6\n\nTiến sĩ: 1\n\nThạc sĩ: 4\n\nCử nhân: 1\n\n3. MỤC TIÊU ĐÀO TẠO\n\nĐào tạo cử nhân ngôn ngữ Hàn Quốc, có phẩm chất chính trị, đạo đức và sức khỏe tốt, hiểu và vận dụng các tri thức cơ bản về ngôn ngữ tiếng Hàn Quốc - định hướng biên phiên dịch. Sau khi tốt nghiệp, người học có đủ năng lực để làm việc ở các cơ quan, tổ chức, các công ty, doanh nghiệp yêu cầu chuẩn về kỹ năng sử dụng tiếng Hàn Quốc đáp ứng những yêu cầu của xã hội và của nền kinh tế trong quá trình hội nhập quốc tế. Đào tạo cử nhân ngôn ngữ Hàn Quốc chuyên ngành Du lịch, có phẩm chất chính trị, đạo đức và sức khỏe tốt, hiểu và vận dụng các tri thức cơ bản về ngôn ngữ Hàn Quốc ngành Du lịch. Sau khi tốt nghiệp, người học có đủ năng lực để làm việc ở các cơ quan, tổ chức, các công ty, doanh nghiệp yêu cầu chuẩn về công việc du lịch và các công việc có liên quan đáp ứng những yêu cầu của xã hội và của nền kinh tế trong quá trình hội nhập quốc tế."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'VietnameseModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("HoangVuSnape/vietnamese-document-embedding_pr_v3_10_epoch")
# Run inference
sentences = [
'Chương trình đào tạo của Đại học FPT có những điểm nổi bật nào?',
'Học phí: 11,900,000 VNĐ/mức. 3. Các khoản phí cần nộp khi nhập học\n\nHọc phí kỳ định hướng: 11,900,000 VNĐ (có 01 học kỳ định hướng, chỉ áp dụng cho SV mới nhập học năm 2024)\n\nHọc phí 01 mức tiếng Anh chuẩn bị: 11,900,000 VNĐ/mức\n\n1. Giáo trình chuẩn quốc tế\n\nChương trình học của Đại học FPT được thiết kế theo chuẩn của Hiệp hội Máy tính (Association for Computing Machinery-ACM), chuẩn đào tạo kỹ sư phần mềm của Accreditation Board for Engineering and Technology (ABET – Mỹ), Hiệp hội Phần mềm Việt Nam (VINASA)\n\nTất cả các giáo trình của Đại học FPT đều được nhập khẩu từ nước ngoài về và cập nhật liên tục theo từng kỳ học\n\n2. Chú trọng vào thực hành\n\nVới thời lượng số tiết thực hành lên đến 60%, sinh viên Đại học FPT đã được làm quen với công việc ngay từ trên ghế nhà trường. 1 lớp học tối đa 30 sinh viên nên trong các giờ thực hành sinh viên sẽ được các thầy cô giảng viên hướng dẫn rất tỉ mỉ và chi tiết\n\n3. Chú trọng vào ngoại ngữ và kỹ năng mềm\n\nNăm đầu tiên các bạn sinh viên sẽ phải trải qua 6 kỳ học tiếng Anh để có thể đạt được nền tảng ngoại ngữ nhất định trước khi sang năm thứ 2 bước vào kỳ học chuyên ngành. Ngoài tiếng Anh là ngôn ngữ bắt buộc ra thì sinh viên Đại học FPT còn được học thêm tiếng Nhật. Như vậy sau khi ra trường các bạn sinh viên có thêm rất nhiều cơ hội để có thể làm việc tại nước ngoài\n\nNgay từ những ngày đầu thành lập, đại học FPT đã đề cao việc phát triển bản thân đặc biệt là kỹ năng mềm cho sinh viên. Các bạn sinh viên sẽ được học rất nhiều các khoá học như kỹ năng thuyết trình, tư duy phản biện, kỹ năng làm việc nhóm, kỹ năng phỏng vấn, kỹ năng viết CV .',
'STT Mã ngành Tên ngành Tổ hợp môn Điểm chuẩn Ghi chú 1 7220201 Ngôn ngữ Anh A; B; C01; C02; C03; C04 21 2 7220204 Ngôn ngữ Trung Quốc A; B; C01; C02; C03; C04 21 3 7220209 Ngôn ngữ Nhật A; B; C01; C02; C03; C04 21 4 7220210 Ngôn ngữ Hàn Quốc A; B; C01; C02; C03; C04 21 5 7320106 Công nghệ truyền thông A; B; C01; C02; C03; C04 21 6 7340101 Quản trị kinh doanh A; B; C01; C02; C03; C04 21 7 7480201 Công nghệ thông tin A; B; C01; C02; C03; C04 21 Phương thức xét tuyển của fpt khá giống nhau.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6232, 0.3595],
# [0.6232, 1.0000, 0.2667],
# [0.3595, 0.2667, 1.0000]])
dim_768InformationRetrievalEvaluator with these parameters:{
"truncate_dim": 768
}
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.466 |
| cosine_accuracy@3 | 0.63 |
| cosine_accuracy@5 | 0.678 |
| cosine_accuracy@10 | 0.752 |
| cosine_precision@1 | 0.466 |
| cosine_precision@3 | 0.21 |
| cosine_precision@5 | 0.1356 |
| cosine_precision@10 | 0.0752 |
| cosine_recall@1 | 0.466 |
| cosine_recall@3 | 0.63 |
| cosine_recall@5 | 0.678 |
| cosine_recall@10 | 0.752 |
| cosine_ndcg@10 | 0.6061 |
| cosine_mrr@10 | 0.5599 |
| cosine_map@100 | 0.5686 |
dim_512InformationRetrievalEvaluator with these parameters:{
"truncate_dim": 512
}
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.464 |
| cosine_accuracy@3 | 0.626 |
| cosine_accuracy@5 | 0.684 |
| cosine_accuracy@10 | 0.746 |
| cosine_precision@1 | 0.464 |
| cosine_precision@3 | 0.2087 |
| cosine_precision@5 | 0.1368 |
| cosine_precision@10 | 0.0746 |
| cosine_recall@1 | 0.464 |
| cosine_recall@3 | 0.626 |
| cosine_recall@5 | 0.684 |
| cosine_recall@10 | 0.746 |
| cosine_ndcg@10 | 0.6015 |
| cosine_mrr@10 | 0.5556 |
| cosine_map@100 | 0.5648 |
dim_256InformationRetrievalEvaluator with these parameters:{
"truncate_dim": 256
}
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.452 |
| cosine_accuracy@3 | 0.602 |
| cosine_accuracy@5 | 0.672 |
| cosine_accuracy@10 | 0.732 |
| cosine_precision@1 | 0.452 |
| cosine_precision@3 | 0.2007 |
| cosine_precision@5 | 0.1344 |
| cosine_precision@10 | 0.0732 |
| cosine_recall@1 | 0.452 |
| cosine_recall@3 | 0.602 |
| cosine_recall@5 | 0.672 |
| cosine_recall@10 | 0.732 |
| cosine_ndcg@10 | 0.5884 |
| cosine_mrr@10 | 0.5428 |
| cosine_map@100 | 0.5525 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Ngành Quản lý Tài nguyên và Môi trường trang bị cho sinh viên những kiến thức và kỹ năng gì? |
Sau khi tốt nghiệp, người học sẽ: |
Chương trình Kỹ thuật Môi trường đào tạo sinh viên về những năng lực nào và có điểm gì nổi bật đối với chương trình giảng dạy bằng tiếng Anh? |
Sau khi tốt nghiệp, người học sẽ: |
Ngành Kỹ thuật Dầu khí và Kỹ thuật Địa chất tập trung nghiên cứu và ứng dụng những lĩnh vực cốt lõi nào? |
Các công ty nghiên cứu và khảo sát địa chất, tư vấn về nền móng công trình. Các tổ chức liên quan đến quy hoạch và phát triển đô thị. Kỹ thuật Dầu khí |
MatryoshkaLoss with these parameters:{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
512,
256
],
"matryoshka_weights": [
1,
1,
1
],
"n_dims_per_step": -1
}
eval_strategy: stepsper_device_train_batch_size: 16per_device_eval_batch_size: 16gradient_accumulation_steps: 8learning_rate: 2e-05num_train_epochs: 10lr_scheduler_type: cosinewarmup_ratio: 0.1bf16: Truetf32: Truedataloader_drop_last: Truedataloader_num_workers: 8load_best_model_at_end: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 16per_device_eval_batch_size: 16per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 8eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 10max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Truelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Truedataloader_num_workers: 8dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 | dim_512_cosine_ndcg@10 | dim_256_cosine_ndcg@10 |
|---|---|---|---|---|---|
| -1 | -1 | - | 0.6061 | 0.6015 | 0.5884 |
| 5.0 | 20 | 1.5599 | - | - | - |
| 10.0 | 40 | 0.6181 | - | - | - |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
dangvantuan/vietnamese-document-embedding