allthingsdisaggregated's picture

2 82 4

allthingsdisaggregated

lastweek

·

AI & ML interests

None yet

Recent Activity

liked a model 22 days ago

lmsys/Qwen3-235B-A22B-EAGLE3

upvoted a paper 3 months ago

Qwen3-Omni Technical Report

upvoted a paper 4 months ago

Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

View all activity

Organizations

None yet

liked a model 22 days ago

lmsys/Qwen3-235B-A22B-EAGLE3

1B • Updated Jul 28 • 995 • 5

upvoted a paper 3 months ago

Qwen3-Omni Technical Report

Paper • 2509.17765 • Published Sep 22 • 139

upvoted a paper 4 months ago

Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Paper • 2508.02193 • Published Aug 4 • 132

upvoted 11 papers 6 months ago

Inference-Time Hyper-Scaling with KV Cache Compression

Paper • 2506.05345 • Published Jun 5 • 27

Cosmos World Foundation Model Platform for Physical AI

Paper • 2501.03575 • Published Jan 7 • 81

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Paper • 2502.11089 • Published Feb 16 • 166

Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published Feb 19 • 211

Transformers without Normalization

Paper • 2503.10622 • Published Mar 13 • 171

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published Jan 22 • 125

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published Jan 22 • 429

Token-Efficient Long Video Understanding for Multimodal LLMs

Paper • 2503.04130 • Published Mar 6 • 96

Kimi-VL Technical Report

Paper • 2504.07491 • Published Apr 10 • 132

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

Paper • 2505.04921 • Published May 8 • 186

Qwen3 Technical Report

Paper • 2505.09388 • Published May 14 • 317

upvoted a paper 10 months ago

DeepFlow: Serverless Large Language Model Serving at Scale

Paper • 2501.14417 • Published Jan 24 • 3

commented a paper 10 months ago

DeepFlow: Serverless Large Language Model Serving at Scale

Paper • 2501.14417 • Published Jan 24 • 3 •

upvoted a paper 12 months ago

Byte Latent Transformer: Patches Scale Better Than Tokens

Paper • 2412.09871 • Published Dec 13, 2024 • 108

upvoted 3 papers about 1 year ago

GPT-4o System Card

Paper • 2410.21276 • Published Oct 25, 2024 • 87

Baichuan-Omni Technical Report

Paper • 2410.08565 • Published Oct 11, 2024 • 87

Training Language Models to Self-Correct via Reinforcement Learning

Paper • 2409.12917 • Published Sep 19, 2024 • 140