Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2305.16264

Hugging Face Science team papers

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

Paper • 2506.20920 • Published Jun 26 • 69
SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published Apr 7 • 197
YourBench: Easy Custom Evaluation Sets for Everyone

Paper • 2504.01833 • Published Apr 2 • 22
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper • 2502.02737 • Published Feb 4 • 242

Papers - University of Turku

Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17

Papers - University - Harvard University

MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Paper • 2404.03413 • Published Apr 4, 2024 • 29
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

Paper • 2406.19370 • Published Jun 27, 2024 • 1

LLM Pretraining

Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
Ziya2: Data-centric Learning is All LLMs Need

Paper • 2311.03301 • Published Nov 6, 2023 • 20
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Paper • 2401.16380 • Published Jan 29, 2024 • 51

Data-Constrained Language Models

Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Paper • 2503.07536 • Published Mar 10 • 89
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

Paper • 2503.07703 • Published Mar 10 • 36
Gemini Embedding: Generalizable Embeddings from Gemini

Paper • 2503.07891 • Published Mar 10 • 42
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Paper • 2503.07572 • Published Mar 10 • 47

Papers - Training - Epoch - 4 Epochs by Default

See Page 7 Figure 5 on right: Repeating for 4 epochs is almost as good as new data

Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17

Papers - Hugging Face

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Paper • 2404.01197 • Published Apr 1, 2024 • 32
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17

Data Selection for Language Models via Importance Resampling

Paper • 2302.03169 • Published Feb 6, 2023
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
Challenges with unsupervised LLM knowledge discovery

Paper • 2312.10029 • Published Dec 15, 2023 • 10
How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Paper • 2406.11813 • Published Jun 17, 2024 • 32

Exponentially Faster Language Modelling

Paper • 2311.10770 • Published Nov 15, 2023 • 119
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 259

Hugging Face Science team papers

FineWeb2: One Pipeline to Scale Them All -- Adapting Pre-Training Data Processing to Every Language

Paper • 2506.20920 • Published Jun 26 • 69
SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published Apr 7 • 197
YourBench: Easy Custom Evaluation Sets for Everyone

Paper • 2504.01833 • Published Apr 2 • 22
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Paper • 2502.02737 • Published Feb 4 • 242

LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Paper • 2503.07536 • Published Mar 10 • 89
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

Paper • 2503.07703 • Published Mar 10 • 36
Gemini Embedding: Generalizable Embeddings from Gemini

Paper • 2503.07891 • Published Mar 10 • 42
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Paper • 2503.07572 • Published Mar 10 • 47

Papers - University of Turku

Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17

Papers - Training - Epoch - 4 Epochs by Default

See Page 7 Figure 5 on right: Repeating for 4 epochs is almost as good as new data

Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17

Papers - University - Harvard University

MiniGPT4-Video: Advancing Multimodal LLMs for Video Understanding with Interleaved Visual-Textual Tokens

Paper • 2404.03413 • Published Apr 4, 2024 • 29
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
Emergence of Hidden Capabilities: Exploring Learning Dynamics in Concept Space

Paper • 2406.19370 • Published Jun 27, 2024 • 1

Papers - Hugging Face

Getting it Right: Improving Spatial Consistency in Text-to-Image Models

Paper • 2404.01197 • Published Apr 1, 2024 • 32
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17

LLM Pretraining

Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
Ziya2: Data-centric Learning is All LLMs Need

Paper • 2311.03301 • Published Nov 6, 2023 • 20
Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Paper • 2401.16380 • Published Jan 29, 2024 • 51

Data Selection for Language Models via Importance Resampling

Paper • 2302.03169 • Published Feb 6, 2023
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
Challenges with unsupervised LLM knowledge discovery

Paper • 2312.10029 • Published Dec 15, 2023 • 10
How Do Large Language Models Acquire Factual Knowledge During Pretraining?

Paper • 2406.11813 • Published Jun 17, 2024 • 32

Data-Constrained Language Models

Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17

Exponentially Faster Language Modelling

Paper • 2311.10770 • Published Nov 15, 2023 • 119
Scaling Data-Constrained Language Models

Paper • 2305.16264 • Published May 25, 2023 • 17
LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 259

Previous
1
2
Next

Company

TOS Privacy About Jobs

Website

Models Datasets OCR模型免费转Markdown Pricing 模型下载攻略