Kai's picture

2 8 1

Kai

KaiLv

·

AI & ML interests

None yet

Organizations

None yet

upvoted 2 papers 5 months ago

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination

Paper • 2507.10532 • Published Jul 14 • 89

Pre-Trained Policy Discriminators are General Reward Models

Paper • 2507.05197 • Published Jul 7 • 39

upvoted 3 papers 9 months ago

DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation

Paper • 2503.06053 • Published Mar 8 • 138

World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning

Paper • 2503.10480 • Published Mar 13 • 55

DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

Paper • 2503.00784 • Published Mar 2 • 13

upvoted 2 papers 10 months ago

CritiQ: Mining Data Quality Criteria from Human Preferences

Paper • 2502.19279 • Published Feb 26 • 10

Thus Spake Long-Context Large Language Model

Paper • 2502.17129 • Published Feb 24 • 73

upvoted a paper over 2 years ago

Full Parameter Fine-tuning for Large Language Models with Limited Resources

Paper • 2306.09782 • Published Jun 16, 2023 • 30