Matryoshka Representation Learning
Paper • 2205.13147 • Published • 26
How to use HoangVuSnape/vietnamese-document-embedding-finetuned-univ15 with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("HoangVuSnape/vietnamese-document-embedding-finetuned-univ15", trust_remote_code=True)
sentences = [
"Thí sinh cần đáp ứng điều kiện tiếng Anh tối thiểu nào cho các chương trình giảng dạy bằng tiếng Anh và các phương thức xét tuyển cụ thể mà Đại học Bách khoa TP HCM áp dụng trong năm 2022 là gì?",
"Trong đề án tuyển sinh năm 2022, ĐH Bách khoa (ĐH Quốc gia TP HCM) thống nhất tuyển sinh bằng 05 phương thức xét tuyển và mở thêm ngành mới đó là ngành Kỹ thuật vật liệu (chương trình chất lượng cao giảng dạy bằng tiếng Anh) nhằm ngành Phục vụ chiến lược phát triển ngành vật liệu hiện đại, tiên tiến theo đúng chuẩn mực quốc tế. Năm 2022, trường đào tạo 35 ngành chương trình đại trà, 15 ngành tài năng, PFIEV – 8 ngành Việt – Pháp, 19 ngành chương trình chất lượng cao- tiên tiến, 9 ngành chương trình chuyển tiếp quốc tế, chương trình chất lượng cao tăng cường tiếng Nhật,…\n\nDự kiến phương thức chủ đạo trong kỳ tuyển sinh năm 2022 là tuyển sinh theo hình thức kết hợp các các tiêu chí để đánh giá toàn diện năng lực thí sinh bao gồm: Năng lực học tập, các hoạt động xã hội, các hoạt động văn thể mỹ, bài luận, thư giới thiệu, phòng vấn. Cụ thể, năng lực học tập bao gồm kết quả THPT, kết quả kỳ thi tốt nghiệp THPT, kết quả kỳ thi đánh giá năng lực,…và các chứng chỉ tuyển sinh quốc tế, chứng chỉ ngoại ngữ. Trường ĐH Bách khoa (ĐH Quốc gia TP HCM) cho rằng kết quả kỳ thi đánh giá năng lực là một thành tố quan trọng để đánh giá toàn diện năng lực học tập tại trường của thí sinh. Đối với chương trình giảng dạy bằng tiếng Anh (chất lượng cao, tiên tiến, chuyển tiếp quốc tế) thí sinh cần đạt điều kiện tiếng Anh sơ tuyển tối thiểu IELTS 4.5 hoặc đạt yêu cầu trong kỳ thi sơ tuyển tiếng Anh của nhà trường. Các phương thức xét tuyển của ĐH Bách khoa (ĐH Quốc gia TP HCM):\n\n– Phương thức 1: Xét tuyển thẳng theo quy chế tuyển sinh của Bộ GD&ĐT và : 1% ~ 5% tổng chỉ tiêu. – Phương thức 2: Ưu tiên xét tuyển thẳng (UTXTT) và Ưu tiên xét tuyển (UTXT) theo quy định của ĐHQG-HCM: 15% ~ 20% tổng chỉ tiêu. – Phương thức 3: Xét tuyển thí sinh có chứng chỉ tuyển sinh quốc tế hoặc thí sinh người nước ngoài: 1% ~ 5% tổng chỉ tiêu\n\n– Phương thức 4: Xét tuyển theo kết quả THPT kết hợp phỏng vấn đối với thí sinh dự tính du học nước ngoài: 1% ~ 5% tổng chỉ tiêu. – Phương thức 5: Xét tuyển tổng hợp bao gồm các tiêu chí về học lực (kết quả kỳ thi đánh giá năng lực của ĐHQG-HCM, kết quả kỳ thi tốt nghiệp THPT 2022, kết quả quá trình học tập THPT, Năng lực khác, Hoạt động xã hội): 25% ~ 90% tổng chỉ tiêu. Năm 2022, nhà trường chú trọng xây dựng lộ trình cho chương trình kỹ sư và thạc sĩ với mô hình chuyên sâu đặc thù nhằm cung ứng cho thị trường các chuyên gia trong lĩnh vực khoa học – kỹ thuật có trình độ cao. Lộ trình đào tạo được rút gọn trong 5 – 5.5 năm với 180 tín chỉ.",
"Ngành: Sư phạm tiếng Anh\n\nMã ngành: 7140231D, Tổ hợp: (D01, D96), Điểm chuẩn: 26.08\n\n2. Ngành: Thiết kế đồ họa\n\nMã ngành: 7210403D, Tổ hợp: (V01, V02, V07, V08), Điểm chuẩn: 24.50\n\n3. Ngành: Thiết kế thời trang\n\nMã ngành: 7210404D, Tổ hợp: (V01, V02, V07, V09), Điểm chuẩn: 21.50\n\n4. Ngành: Ngôn ngữ Anh\n\nMã ngành: 7220201D, Tổ hợp: (A00, A01, D01, D96), Điểm chuẩn: 22.75\n\n5. Ngành: Kinh doanh Quốc tế\n\nMã ngành: 7340120D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.25\n\n6. Ngành: Thương mại điện tử\n\nMã ngành: 7340122D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.25\n\n7. Ngành: Kế toán\n\nMã ngành: 7340301D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.25\n\n8. Ngành: Công nghệ kỹ thuật máy tính\n\nMã ngành: 7480106D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.00\n\n9. Ngành: Hệ thống nhúng và IoT\n\nMã ngành: 7480109D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.75\n\n10. Ngành: Công nghệ thông tin\n\nMã ngành: 7480201D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.25\n\n11. Ngành: Công nghệ kỹ thuật công trình xây dựng\n\nMã ngành: 7510102D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.00\n\n12. Ngành: Hệ thống kỹ thuật công trình xây dựng\n\nMã ngành: 7510105D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.00\n\n13. Ngành: Công nghệ kỹ thuật cơ khí\n\nMã ngành: 7510201D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 21.50\n\n14. Ngành: Công nghệ chế tạo máy\n\nMã ngành: 7510202D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 18.00\n\n15. Ngành: Công nghệ kỹ thuật ô tô\n\nMã ngành: 7510205D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.50\n\n16. Ngành: Công nghệ kỹ thuật nhiệt\n\nMã ngành: 7510206D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 16.50\n\n17. Ngành: Công nghệ kỹ thuật điện, điện tử\n\nMã ngành: 7510301D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.25\n\n18. Ngành: Công nghệ kỹ thuật điện tử, viễn thông\n\nMã ngành: 7510302, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.75\n\n19. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.00\n\n20. Ngành: Công nghệ kỹ thuật hóa học\n\nMã ngành: 7510401, Tổ hợp: (A00, B00, D07, D90), Điểm chuẩn: 17.00\n\n21. Ngành: Công nghệ vật liệu\n\nMã ngành: 7510402D, Tổ hợp: (A00, B00, D07, D90), Điểm chuẩn: 17.00\n\n22. Ngành: Công nghệ kỹ thuật môi trường\n\nMã ngành: 7510406, Tổ hợp: (A00, B00, D07, D90), Điểm chuẩn: 17.00\n\n23. Ngành: Quản lý công nghiệp\n\nMã ngành: 7510601, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.75\n\n24. Ngành: Logistics và quản lý chuỗi cung ứng\n\nMã ngành: 7510605D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 24.25\n\n25. Ngành: Công nghệ kỹ thuật in\n\nMã ngành: 7510802D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n26. Ngành: Công nghệ may\n\nMã ngành: 7540204D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.50\n\n27. Ngành: Kiến trúc\n\nMã ngành: 7580101, Tổ hợp: (V00, V01, V02, V03), Điểm chuẩn: 22.25\n\n28. Ngành: Kiến trúc nội thất\n\nMã ngành: 7580101D, Tổ hợp: (V03, V04, V05, V06), Điểm chuẩn: 22.00\n\n29. Ngành: Kỹ thuật xây dựng công trình giao thông\n\nMã ngành: 7580205D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n30. Ngành: Kỹ thuật xây dựng\n\nMã ngành: 7580201D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n31. Ngành: Quản trị nhà hàng và dịch vụ ăn uống\n\nMã ngành: 7840110D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.50\n\n32. Ngành: Quản lý và vận hành hạ tầng\n\nMã ngành: 7840101D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.70\n\n33. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.75\n\n34. Ngành: Công nghệ kỹ thuật điện tử - viễn thông\n\nMã ngành: 7510302D, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 21.50\n\nCLC Tiếng Việt\n\n1. Ngành: Thiết kế thời trang\n\nMã ngành: 7210404C, Tổ hợp: (V01, V02, V07, V09), Điểm chuẩn: 21.60\n\n2. Ngành: Thương mại điện tử\n\nMã ngành: 7340122C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.50\n\n3. Ngành: Kế toán\n\nMã ngành: 7340301C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.75\n\n4. Ngành: Công nghệ kỹ thuật máy tính\n\nMã ngành: 7480106C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.65\n\n5. Ngành: Công nghệ thông tin\n\nMã ngành: 7480201C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 26.00\n\n6. Ngành: Công nghệ kỹ thuật công trình xây dựng\n\nMã ngành: 7510102C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 20.00\n\n7. Ngành: Công nghệ kỹ thuật cơ khí\n\nMã ngành: 7510201C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.00\n\n8. Ngành: Công nghệ chế tạo máy\n\nMã ngành: 7510202C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.00\n\n9. Ngành: Công nghệ kỹ thuật ô tô\n\nMã ngành: 7510205C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.00\n\n10. Ngành: Công nghệ kỹ thuật nhiệt\n\nMã ngành: 7510206C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n11. Ngành: Công nghệ kỹ thuật điện, điện tử\n\nMã ngành: 7510301C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.00\n\n12. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.00\n\n13. Ngành: Công nghệ kỹ thuật điện tử - viễn thông\n\nMã ngành: 7510302C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.50\n\n14. Ngành: Công nghệ kỹ thuật điện tử, viễn thông\n\nMã ngành: 7510302C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.50\n\n15. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 24.00\n\n16. Ngành: Công nghệ kỹ thuật môi trường\n\nMã ngành: 7510406C, Tổ hợp: (A00, B00, D07, D90), Điểm chuẩn: 17.50\n\n17. Ngành: Quản lý công nghiệp\n\nMã ngành: 7510601C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.75\n\n18. Ngành: Công nghệ kỹ thuật cơ điện tử\n\nMã ngành: 7510203C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 21.50\n\n19. Ngành: Công nghệ may\n\nMã ngành: 7540204C, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.25\n\nCLC Tiếng Anh:\n\n1. Ngành: Công nghệ kỹ thuật máy tính\n\nMã ngành: 7480106A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 26.00\n\n2. Ngành: Công nghệ thông tin\n\nMã ngành: 7480201A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 26.50\n\n3. Ngành: Công nghệ kỹ thuật công trình xây dựng\n\nMã ngành: 7510102A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.75\n\n4. Ngành: Công nghệ kỹ thuật cơ khí\n\nMã ngành: 7510201A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.50\n\n5. Ngành: Công nghệ chế tạo máy\n\nMã ngành: 7510202A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.50\n\n6. Ngành: Công nghệ kỹ thuật ô tô\n\nMã ngành: 7510205A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.50\n\n7. Ngành: Công nghệ kỹ thuật nhiệt\n\nMã ngành: 7510206A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 17.00\n\n8. Ngành: Công nghệ kỹ thuật điện, điện tử\n\nMã ngành: 7510301A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.50\n\n9. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.50\n\n10. Ngành: Công nghệ kỹ thuật điện tử, viễn thông\n\nMã ngành: 7510302A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 22.25\n\n11. Ngành: Công nghệ kỹ thuật điều khiển và tự động hóa\n\nMã ngành: 7510303A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 23.50\n\n12. Ngành: Quản lý công nghiệp\n\nMã ngành: 7510601A, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 19.25\n\nNhân tài\n\nNgành: Robot và trí tuệ nhân tạo\n\nMã ngành: 7510209NT, Tổ hợp: (A00, A01, D01, D90), Điểm chuẩn: 25.00",
"4. CÁC NGÀNH ĐÀO TẠO\n\na. ĐẠI HỌC\n\nCử nhân Sư phạm Địa lý (hệ Chính quy, hệ VHVL)\n\nCử nhân Sư phạm Lịch sử - Địa lý\n\nCử nhân Địa lý học\n\nb. SAU ĐẠI HỌC\n\nThạc sĩ Địa lý học\n\nTiến sĩ Địa lý học\n\nC. BỒI DƯỠNG\n\nBồi dưỡng các chuyên đề nâng cao trình độ cho đội ngũ giáo viên phổ thông như: dạy học tích cực, kiểm tra đánh giá, hệ thống thông tin địa lí, dạy học tích hợp, trải nghiệm sáng tạo, nghiên cứu khoa học, ứng dụng công nghệ thông tin trong dạy học địa lí…\n\niv. Khoa Giáo dục Chính trị\n\n1. CHẤT LƯỢNG ĐÀO TẠO\n\nĐÀO TẠO CỬ NHÂN (4 NĂM)\n\nCử nhân Sư phạm Giáo dục Chính trị\n\nTUYỂN SINH: 80 - 100 SV/năm\n\n2006 - 2017: 900 Sinh viên\n\nĐÀO TẠO VĂN BẰNG 2 (18 & 24 THÁNG)\n\nCử nhân Giáo dục Chính trị\n\nTUYỂN SINH:\n\n2006 - 2017: 1.000 Sinh viên\n\n2. CHẤT LƯỢNG GIẢNG VIÊN\n\nĐỘI NGŨ GIẢNG VIÊN: 23\n\nPhó Giáo sư Tiến sĩ: 1\n\nTiến sĩ: 7\n\nThạc sĩ: 15\n\n3. MỤC TIÊU ĐÀO TẠO\n\nĐào tạo giáo viên dạy Giáo dục công dân bậc trung học cơ sở có trình độ cử nhân Sư phạm Giáo dục công dân;\n\nĐào tạo giáo viên dạy giáo dục kinh tế và pháp luật bậc Trung học phổ thông có trình độ cử nhân Sư phạm Giáo dục Chính trị."
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'VietnameseModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("HoangVuSnape/vietnamese-document-embedding-finetuned-univ15")
# Run inference
sentences = [
'Xin vui lòng cung cấp địa chỉ, số điện thoại và email của các cơ sở đào tạo thuộc Đại học FPT?',
'TP. Hồ Chí Minh: Khu Công nghệ cao, Quận 9. Đà Nẵng, Quy Nhơn, Cần Thơ: Các khu vực trung tâm với cơ sở hiện đại. Đây là thông tin liên hệ của các cơ sở đào tạo thuộc Đại học FPT trên toàn quốc, bao gồm các địa chỉ, số điện thoại, và email của từng cơ sở. Các thông tin này giúp học sinh, phụ huynh, và đối tác dễ dàng liên lạc hoặc đến trực tiếp các cơ sở của trường. Chi tiết từng cơ sở:\n\nHà Nội\n\nĐịa chỉ: Khu Giáo dục và Đào tạo – Khu Công nghệ cao Hòa Lạc, Km29 Đại lộ Thăng Long, Huyện Thạch Thất, TP. Hà Nội. Điện thoại: (024) 7300 5588\n\nEmail: tuyensinh.hanoi@fpt.edu.vn\n\nTP. Hồ Chí Minh\n\nĐịa chỉ: Lô E2a-7, Đường D1, Khu Công nghệ cao, Phường Long Thạnh Mỹ, TP.',
'Chính vì vậy các kỹ sư lập trình hiện nay đều thiếu kỹ năng ngoại ngữ và khả năng tự học kiến thức mới Các vị trí công việc sau khi ra trường:\n\nLập trình viên phát triển ứng dụng\n\nKỹ sư cầu nối\n\nChuyên viên phân tích nghiệp vụ\n\nKỹ sư đảm bảo chất lượng phần mềm\n\nKỹ sư quy trình sản xuất phần mềm\n\nQuản trị viên dự án phần mềm và CNTT\n\nGiám đốc kỹ thuật\n\nChuyên viên phát triển ứng dụng AI về xử lý hình ảnh, âm thanh\n\n**HỌC PHÍ TRƯỜNG ĐẠI HỌC FPT TẠI HÀ NỘI VÀ TP. HCM\n\n**ÁP DỤNG CHO SINH VIÊN NHẬP HỌC MỚI NĂM 2024 HỆ ĐẠI HỌC CHÍNH QUY\n\nTrường Đại học FPT trân trọng thông báo các mức học phí áp dụng cho sinh viên nhập học mới năm 2024 hệ đại học chính quy tại Hà Nội và TP. Hồ Chí Minh như sau:\n\n1. Học phí Chương trình chính khóa\n\nSố kỳ học: 9 học kỳ (bao gồm cả giai đoạn thực tập tại doanh nghiệp). Thời lượng học mỗi kỳ: 4 tháng. Học phí chuyên ngành:\n\nTừ học kỳ 1 đến học kỳ 3: 28,700,000 VNĐ/Học kỳ\n\nTừ học kỳ 4 đến học kỳ 6: 30,500,000 VNĐ/Học kỳ\n\nTừ học kỳ 7 đến học kỳ 9: 32,500,000 VNĐ/Học kỳ\n\nMức học phí trên áp dụng cho sinh viên nhập học mới năm 2024 hệ đại học chính quy của Trường ĐH FPT, theo QĐ 08/QĐ-CTGDFPT ngày 12/01/2024 Quy định tài chính sinh viên năm học 2024-2025 các hệ đào tạo thuộc hệ thống giáo dục FPT.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.7543, 0.5277],
# [0.7543, 1.0000, 0.4779],
# [0.5277, 0.4779, 1.0000]])
dim_768InformationRetrievalEvaluator with these parameters:{
"truncate_dim": 768
}
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.466 |
| cosine_accuracy@3 | 0.63 |
| cosine_accuracy@5 | 0.678 |
| cosine_accuracy@10 | 0.752 |
| cosine_precision@1 | 0.466 |
| cosine_precision@3 | 0.21 |
| cosine_precision@5 | 0.1356 |
| cosine_precision@10 | 0.0752 |
| cosine_recall@1 | 0.466 |
| cosine_recall@3 | 0.63 |
| cosine_recall@5 | 0.678 |
| cosine_recall@10 | 0.752 |
| cosine_ndcg@10 | 0.6058 |
| cosine_mrr@10 | 0.5595 |
| cosine_map@100 | 0.5682 |
dim_512InformationRetrievalEvaluator with these parameters:{
"truncate_dim": 512
}
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.464 |
| cosine_accuracy@3 | 0.626 |
| cosine_accuracy@5 | 0.684 |
| cosine_accuracy@10 | 0.746 |
| cosine_precision@1 | 0.464 |
| cosine_precision@3 | 0.2087 |
| cosine_precision@5 | 0.1368 |
| cosine_precision@10 | 0.0746 |
| cosine_recall@1 | 0.464 |
| cosine_recall@3 | 0.626 |
| cosine_recall@5 | 0.684 |
| cosine_recall@10 | 0.746 |
| cosine_ndcg@10 | 0.6015 |
| cosine_mrr@10 | 0.5556 |
| cosine_map@100 | 0.5648 |
dim_256InformationRetrievalEvaluator with these parameters:{
"truncate_dim": 256
}
| Metric | Value |
|---|---|
| cosine_accuracy@1 | 0.454 |
| cosine_accuracy@3 | 0.602 |
| cosine_accuracy@5 | 0.674 |
| cosine_accuracy@10 | 0.73 |
| cosine_precision@1 | 0.454 |
| cosine_precision@3 | 0.2007 |
| cosine_precision@5 | 0.1348 |
| cosine_precision@10 | 0.073 |
| cosine_recall@1 | 0.454 |
| cosine_recall@3 | 0.602 |
| cosine_recall@5 | 0.674 |
| cosine_recall@10 | 0.73 |
| cosine_ndcg@10 | 0.5886 |
| cosine_mrr@10 | 0.5437 |
| cosine_map@100 | 0.5535 |
anchor and positive| anchor | positive | |
|---|---|---|
| type | string | string |
| details |
|
|
| anchor | positive |
|---|---|
Ngành Quản lý Tài nguyên và Môi trường trang bị cho sinh viên những kiến thức và kỹ năng gì? |
Sau khi tốt nghiệp, người học sẽ: |
Chương trình Kỹ thuật Môi trường đào tạo sinh viên về những năng lực nào và có điểm gì nổi bật đối với chương trình giảng dạy bằng tiếng Anh? |
Sau khi tốt nghiệp, người học sẽ: |
Ngành Kỹ thuật Dầu khí và Kỹ thuật Địa chất tập trung nghiên cứu và ứng dụng những lĩnh vực cốt lõi nào? |
Các công ty nghiên cứu và khảo sát địa chất, tư vấn về nền móng công trình. Các tổ chức liên quan đến quy hoạch và phát triển đô thị. Kỹ thuật Dầu khí |
MatryoshkaLoss with these parameters:{
"loss": "MultipleNegativesRankingLoss",
"matryoshka_dims": [
768,
512,
256
],
"matryoshka_weights": [
1,
1,
1
],
"n_dims_per_step": -1
}
eval_strategy: stepsper_device_train_batch_size: 1per_device_eval_batch_size: 1gradient_accumulation_steps: 10learning_rate: 2e-05num_train_epochs: 1lr_scheduler_type: cosinewarmup_ratio: 0.1fp16: Trueload_best_model_at_end: Trueoptim: adamw_torch_fusedbatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 1per_device_eval_batch_size: 1per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 10eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: cosinelr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torch_fusedoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}| Epoch | Step | Training Loss | dim_768_cosine_ndcg@10 | dim_512_cosine_ndcg@10 | dim_256_cosine_ndcg@10 |
|---|---|---|---|---|---|
| -1 | -1 | - | 0.6061 | 0.6015 | 0.5884 |
| 0.2 | 10 | 0.0 | 0.6058 | 0.6015 | 0.5886 |
| 0.4 | 20 | 0.0 | 0.6058 | 0.6015 | 0.5886 |
| 0.6 | 30 | 0.0 | 0.6058 | 0.6015 | 0.5886 |
| 0.8 | 40 | 0.0 | 0.6058 | 0.6015 | 0.5886 |
| 1.0 | 50 | 0.0 | 0.6058 | 0.6015 | 0.5886 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{kusupati2024matryoshka,
title={Matryoshka Representation Learning},
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
year={2024},
eprint={2205.13147},
archivePrefix={arXiv},
primaryClass={cs.LG}
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
dangvantuan/vietnamese-document-embedding