#model-integrity News & Analysis

4 articles tagged with #model-integrity. AI-curated summaries with sentiment analysis and key takeaways from 50+ sources.

4 articles

AIBearishCrypto Briefing · Jun 217/10

🧠

Booz Allen warns of sleeper agent risks from Chinese AI models

Booz Allen Hamilton has released a report warning of security vulnerabilities in Chinese AI models that could function as "sleeper agents," potentially compromising global supply chains. The analysis suggests these risks may reshape technology competition and influence regulatory policy worldwide.

AIBearisharXiv – CS AI · May 127/10

🧠

Benchmarking Safety Risks of Knowledge-Intensive Reasoning under Malicious Knowledge Editing

Researchers introduce EditRisk-Bench, a new benchmark for evaluating safety vulnerabilities in large language models when their knowledge is maliciously edited. The study demonstrates that adversaries can inject false or harmful information that corrupts downstream reasoning while remaining difficult to detect, revealing critical security gaps in knowledge-intensive AI systems.

AIBearisharXiv – CS AI · May 77/10

🧠

Undetectable Backdoors in Model Parameters: Hiding Sparse Secrets in High Dimensions

Researchers present Sparse Backdoor, a supply-chain attack that embeds undetectable backdoors into pre-trained image classifiers by injecting sparse perturbations masked with Gaussian noise. The attack is proven computationally infeasible to distinguish from original models under standard hardness assumptions, raising critical security concerns for AI model deployment and verification.

AIBullisharXiv – CS AI · Mar 177/10

🧠

SCAN: Sparse Circuit Anchor Interpretable Neuron for Lifelong Knowledge Editing

Researchers introduce SCAN, a new framework for editing Large Language Models that prevents catastrophic forgetting during sequential knowledge updates. The method uses sparse circuit manipulation instead of dense parameter changes, maintaining model performance even after 3,000 sequential edits across major models like Gemma2, Qwen3, and Llama3.1.

🧠 Llama