🧠 AI🟢 BullishImportance 6/10

Conditioned Activation Transport for T2I Safety Steering

arXiv – CS AI|Maciej Chrab\k{a}szcz, Aleksander Szymczyk, Jan Dubi\'nski, Tomasz Trzci\'nski, Franziska Boenisch, Adam Dziedzic|March 4, 2026 at 05:00 AM|4 views

🤖AI Summary

Researchers introduce Conditioned Activation Transport (CAT), a new framework to prevent text-to-image AI models from generating unsafe content while preserving image quality for legitimate prompts. The method uses a geometry-based conditioning mechanism and nonlinear transport maps, validated on Z-Image and Infinity architectures with significantly reduced attack success rates.

Key Takeaways

→Current text-to-image models remain vulnerable to generating unsafe and toxic content despite their advanced capabilities.
→Linear activation steering methods often degrade image quality when applied to benign prompts, creating a quality-safety trade-off.
→The new CAT framework uses conditioned transport maps that only activate within unsafe activation regions to minimize interference.
→SafeSteerDataset was created containing 2300 safe and unsafe prompt pairs to support the research.
→Testing on Z-Image and Infinity architectures showed CAT effectively reduces attack success rates while maintaining image fidelity.