<ul><li>SafeTuneBed is a benchmark and toolkit designed to unify fine-tuning and defense evaluation for large language models (LLMs).</li><li>The toolkit curates a diverse repository of fine-tuning datasets across various tasks, integrates state-of-the-art defenses, and provides evaluators for safety and utility metrics.</li><li>SafeTuneBed is built on Python with dataclass-driven configs and plugins, requiring minimal additional code for specifying fine-tuning regimes, defense methods, and metric suites.</li><li>It aims to standardize data, code, and metrics to facilitate rigorous and comparable research in safe LLM fine-tuning, serving as the first focused toolkit of its kind in this domain.</li></ul>

SafeTuneBed: A Toolkit for Benchmarking LLM Safety Alignment in Fine-Tuning

Discover more