🧠 AI⚪ NeutralImportance 7/10

SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond

arXiv – CS AI|Xiangyang Zhu, Yuan Tian, Qi Jia, Kaiwei Zhang, Zicheng Zhang, Chunyi Li, Kaiyuan Ji, Dongrui Liu, Zijian Chen, Lu Sun, Renrui Zhang, Yan Teng, Jing Shao, Wei Sun, Xia Hu, Yu Qiao, Guangtao Zhai|March 3, 2026 at 05:00 AM|8 views

🤖AI Summary

Researchers introduce SafeSci, a comprehensive framework for evaluating safety in large language models used for scientific applications. The framework includes a 0.25M sample benchmark and 1.5M sample training dataset, revealing critical vulnerabilities in 24 advanced LLMs while demonstrating that fine-tuning can significantly improve safety alignment.

Key Takeaways

→SafeSci framework addresses limited risk coverage and subjective evaluation issues in existing LLM safety benchmarks for scientific domains.
→Testing of 24 advanced LLMs revealed critical vulnerabilities and varying degrees of excessive refusal behaviors on safety-related scientific questions.
→Fine-tuning on the SafeSciTrain dataset significantly enhanced safety alignment of language models.
→The research emphasizes that scientific knowledge safety should be context-dependent rather than universally categorized.
→The framework provides both diagnostic tools and practical resources for building safer AI systems in scientific applications.