Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2506.21734

Reserach papers

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30

Reasoning-Model

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30
DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

Paper • 2508.05405 • Published 18 days ago • 62

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

Paper • 2507.07955 • Published Jul 10 • 24
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Paper • 2505.02567 • Published May 5 • 79
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Paper • 2508.02193 • Published 21 days ago • 128

Representation & Optimization

Understanding about representation sheds light on optimization

about 23 hours ago

Nuclear Norm Regularization for Deep Learning

Paper • 2405.14544 • Published May 23, 2024 • 1
Token embeddings violate the manifold hypothesis

Paper • 2504.01002 • Published Apr 1 • 1
Approximate Nullspace Augmented Finetuning for Robust Vision Transformers

Paper • 2403.10476 • Published Mar 15, 2024 • 1
ElaLoRA: Elastic & Learnable Low-Rank Adaptation for Efficient Model Fine-Tuning

Paper • 2504.00254 • Published Mar 31 • 1

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 259
Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 256
A Survey on Latent Reasoning

Paper • 2507.06203 • Published Jul 8 • 89
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 16
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 14

LLM foundations

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

Paper • 2404.02258 • Published Apr 2, 2024 • 107
Textbooks Are All You Need

Paper • 2306.11644 • Published Jun 20, 2023 • 146
Jamba: A Hybrid Transformer-Mamba Language Model

Paper • 2403.19887 • Published Mar 28, 2024 • 112
Large Language Models Struggle to Learn Long-Tail Knowledge

Paper • 2211.08411 • Published Nov 15, 2022 • 3

Reserach papers

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30

Reasoning-Model

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30
DeepPHY: Benchmarking Agentic VLMs on Physical Reasoning

Paper • 2508.05405 • Published 18 days ago • 62

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30

Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30
Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

Paper • 2507.07955 • Published Jul 10 • 24
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities

Paper • 2505.02567 • Published May 5 • 79
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Paper • 2508.02193 • Published 21 days ago • 128

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 256
A Survey on Latent Reasoning

Paper • 2507.06203 • Published Jul 8 • 89
Language Models are Few-Shot Learners

Paper • 2005.14165 • Published May 28, 2020 • 16
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

Paper • 1910.10683 • Published Oct 23, 2019 • 14

Representation & Optimization

Understanding about representation sheds light on optimization

about 23 hours ago

Nuclear Norm Regularization for Deep Learning

Paper • 2405.14544 • Published May 23, 2024 • 1
Token embeddings violate the manifold hypothesis

Paper • 2504.01002 • Published Apr 1 • 1
Approximate Nullspace Augmented Finetuning for Robust Vision Transformers

Paper • 2403.10476 • Published Mar 15, 2024 • 1
ElaLoRA: Elastic & Learnable Low-Rank Adaptation for Efficient Model Fine-Tuning

Paper • 2504.00254 • Published Mar 31 • 1

LLM foundations

Mixture-of-Depths: Dynamically allocating compute in transformer-based language models

Paper • 2404.02258 • Published Apr 2, 2024 • 107
Textbooks Are All You Need

Paper • 2306.11644 • Published Jun 20, 2023 • 146
Jamba: A Hybrid Transformer-Mamba Language Model

Paper • 2403.19887 • Published Mar 28, 2024 • 112
Large Language Models Struggle to Learn Long-Tail Knowledge

Paper • 2211.08411 • Published Nov 15, 2022 • 3

LLM in a flash: Efficient Large Language Model Inference with Limited Memory

Paper • 2312.11514 • Published Dec 12, 2023 • 259
Hierarchical Reasoning Model

Paper • 2506.21734 • Published Jun 26 • 30

Company

TOS Privacy About Jobs

Website

Models Datasets OCR模型免费转Markdown Pricing 模型下载攻略