Renjie's picture

2 18 2

Renjie

RogerLos

·

AI & ML interests

LLM

Recent Activity

upvoted a paper 9 days ago

Error-Free Linear Attention is a Free Lunch: Exact Solution from Continuous-Time Dynamics

upvoted a paper 22 days ago

GoRL: An Algorithm-Agnostic Framework for Online Reinforcement Learning with Generative Policies

updated a model 29 days ago

RogerLos/all_pairs_rft_Qwen25-7B

View all activity

Organizations

None yet

RogerLos 's models 495

RogerLos/verl-grpo-8k-Qwen2.5-3B-Instruct-global_step_50

3B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-3B-Instruct-global_step_40

3B • Updated Nov 10 • 3

RogerLos/verl-grpo-8k-Qwen2.5-3B-Instruct-global_step_30

3B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-3B-Instruct-global_step_20

3B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-3B-Instruct-global_step_110

3B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-3B-Instruct-global_step_100

3B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-3B-Instruct-global_step_10

3B • Updated Nov 10 • 5

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_90

2B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_80

2B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_70

2B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_60

2B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_50

2B • Updated Nov 10 • 7

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_40

2B • Updated Nov 10 • 3

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_30

2B • Updated Nov 10 • 5

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_20

2B • Updated Nov 10 • 5

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_110

2B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_100

2B • Updated Nov 10 • 3

RogerLos/verl-grpo-8k-Qwen2.5-1.5B-Instruct-global_step_10

2B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-0.5B-Instruct-global_step_90

0.6B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-0.5B-Instruct-global_step_80

0.6B • Updated Nov 10 • 6

RogerLos/verl-grpo-8k-Qwen2.5-0.5B-Instruct-global_step_70

0.6B • Updated Nov 10 • 3

RogerLos/verl-grpo-8k-Qwen2.5-0.5B-Instruct-global_step_30

0.6B • Updated Nov 10 • 3

RogerLos/verl-grpo-8k-Qwen2.5-0.5B-Instruct-global_step_110

0.6B • Updated Nov 10 • 5

RogerLos/verl-grpo-8k-Qwen2.5-0.5B-Instruct-global_step_100

0.6B • Updated Nov 10 • 4

RogerLos/verl-grpo-8k-Qwen2.5-0.5B-Instruct-global_step_10

0.6B • Updated Nov 10 • 3

RogerLos/verl-grpo-128k-Qwen2.5-7B-Instruct-global_step_90

8B • Updated Nov 10 • 4

RogerLos/verl-grpo-128k-Qwen2.5-7B-Instruct-global_step_80

8B • Updated Nov 10 • 4

RogerLos/verl-grpo-128k-Qwen2.5-7B-Instruct-global_step_70

8B • Updated Nov 10 • 6

RogerLos/verl-grpo-128k-Qwen2.5-7B-Instruct-global_step_60

8B • Updated Nov 10 • 4

RogerLos/verl-grpo-128k-Qwen2.5-7B-Instruct-global_step_50

8B • Updated Nov 10 • 3