<ul><li>Large language models have impressive reasoning capabilities but suffer from inefficiencies due to verbose outputs.</li><li>Most reinforcement learning works focus on accuracy rather than reasoning efficiency.</li><li>The proposed Bingo framework uses significance-aware and dynamic length rewards to boost efficient reasoning.</li><li>Experiments show that Bingo improves accuracy and efficiency, outperforming other reward baselines.</li></ul>

Bingo: Boosting Efficient Reasoning of LLMs via Dynamic and Significance-based Reinforcement Learning

Discover more