Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

Collections

Discover the best community collections!

Collections including paper arxiv:2412.15115

Papers - Training - Activation Function - SwiGLU

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 122
Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published Dec 6, 2024 • 50
Evaluating Language Models as Synthetic Data Generators

Paper • 2412.03679 • Published Dec 4, 2024 • 48
Yi-Lightning Technical Report

Paper • 2412.01253 • Published Dec 2, 2024 • 28

Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 179
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Pipeline Analysis for Developing Instruct LLMs in Low-Resource Languages: A Case Study on Basque

Paper • 2412.13922 • Published Dec 18, 2024

foundation Models

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

GenEx: Generating an Explorable World

Paper • 2412.09624 • Published Dec 12, 2024 • 97
IamCreateAI/Ruyi-Mini-7B

Image-to-Video • Updated Dec 25, 2024 • 246 • 610
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation

Paper • 2412.06016 • Published Dec 8, 2024 • 20
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108

Training Large Language Models to Reason in a Continuous Latent Space

Paper • 2412.06769 • Published Dec 9, 2024 • 90
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
YuLan-Mini: An Open Data-efficient Language Model

Paper • 2412.17743 • Published Dec 23, 2024 • 64

Text Classification

LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Paper • 2411.19638 • Published Nov 29, 2024 • 6
Word Sense Linking: Disambiguating Outside the Sandbox

Paper • 2412.09370 • Published Dec 12, 2024 • 10
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published Dec 18, 2024 • 158
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Papers - Training - Activation Function - SwiGLU

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108

foundation Models

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

GenEx: Generating an Explorable World

Paper • 2412.09624 • Published Dec 12, 2024 • 97
IamCreateAI/Ruyi-Mini-7B

Image-to-Video • Updated Dec 25, 2024 • 246 • 610
Track4Gen: Teaching Video Diffusion Models to Track Points Improves Video Generation

Paper • 2412.06016 • Published Dec 8, 2024 • 20
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108

Phi-4 Technical Report

Paper • 2412.08905 • Published Dec 12, 2024 • 122
Evaluating and Aligning CodeLLMs on Human Preference

Paper • 2412.05210 • Published Dec 6, 2024 • 50
Evaluating Language Models as Synthetic Data Generators

Paper • 2412.03679 • Published Dec 4, 2024 • 48
Yi-Lightning Technical Report

Paper • 2412.01253 • Published Dec 2, 2024 • 28

Training Large Language Models to Reason in a Continuous Latent Space

Paper • 2412.06769 • Published Dec 9, 2024 • 90
Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
YuLan-Mini: An Open Data-efficient Language Model

Paper • 2412.17743 • Published Dec 23, 2024 • 64

Differential Transformer

Paper • 2410.05258 • Published Oct 7, 2024 • 179
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376
Pipeline Analysis for Developing Instruct LLMs in Low-Resource Languages: A Case Study on Basque

Paper • 2412.13922 • Published Dec 18, 2024

Text Classification

LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Paper • 2411.19638 • Published Nov 29, 2024 • 6
Word Sense Linking: Disambiguating Outside the Sandbox

Paper • 2412.09370 • Published Dec 12, 2024 • 10
Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Paper • 2412.13663 • Published Dec 18, 2024 • 158
Qwen2.5 Technical Report

Paper • 2412.15115 • Published Dec 19, 2024 • 376

Previous
1
2
3
4
5
6
7
Next

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs