Online Data Filter:我们将预先基于难度的数据筛选策略记为 Offline Data Filter。这种方案虽然可以帮助 RL 进行稳定训练,但其数据利用率降低了,因此我们希望在模型训练过程中动态进行基于难度的数据筛选(类似 PRIME)。然而,我们发现训练结果不如 offline data filter 稳定,我们认为这是因为每次更新时的数据量不同,导致梯度不稳定。
Model Size:尽管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的表现,但我们在多模态推理场景下,难以通过 8B 的 InternVL Pretrained 进行成功复现。我们认为这受制于多模态推理数据质量以及多模态预训练数据中很少存在 long CoT 数据。