🧠 AI⚪ NeutralImportance 6/10

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

arXiv – CS AI|Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh, Ihsen Alouani, Mohammed E. Fouda|March 6, 2026 at 05:00 AM

🤖AI Summary

Researchers introduce SalamaBench, the first comprehensive safety benchmark for Arabic Language Models, evaluating 5 state-of-the-art models across 8,170 prompts in 12 safety categories. The study reveals significant safety vulnerabilities in current Arabic AI models, with substantial variation in safety alignment across different harm domains.

Key Takeaways

→SalamaBench is the first standardized safety evaluation benchmark specifically designed for Arabic Language Models with 8,170 prompts across 12 categories.
→Evaluation of five major Arabic LMs including Fanar, ALLaM, Falcon, and Jais revealed substantial safety alignment variations.
→Fanar 2 achieved the lowest attack success rates but showed uneven robustness across harm domains.
→Jais 2 exhibited consistently elevated vulnerability indicating weaker intrinsic safety alignment.
→Native Arabic LMs perform substantially worse than dedicated safeguard models when acting as safety judges.