Pine Zhang's picture

3

Pine Zhang

PineZhang

·

nianbai006

AI & ML interests

None yet

Organizations

upvoted a paper 2 months ago

BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping

Paper • 2510.18927 • Published Oct 21 • 83

upvoted a paper 3 months ago

UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios

Paper • 2509.21766 • Published Sep 26 • 23

upvoted a paper 9 months ago

Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

Paper • 2504.04823 • Published Apr 7 • 31