<ul><li>R1-style Reinforcement Learning (RL) has enhanced Large Language Models' reasoning capabilities.</li><li>Small-scale fine-tuning (SFT) has a significant influence on RL but lacks efficiency.</li><li>An analytical framework comparing SFT and RL efficiency through sample effect analysis was proposed.</li><li>Introduction of Re-distillation technique showed surprising efficiency in fine-tuning pretrain models with fewer samples.</li></ul>

Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning

Discover more