#contamination-detection News & Analysis

2 articles tagged with #contamination-detection. AI-curated summaries with sentiment analysis and key takeaways from 50+ sources.

2 articles

AINeutralarXiv – CS AI · Mar 44/102

🧠

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Researchers developed CDD (Contamination Detection via output Distribution) to identify data contamination in small language models by measuring output peakedness. The study found that CDD only works when fine-tuning produces verbatim memorization, failing at chance level with parameter-efficient methods like low-rank adaptation that avoid memorization.

AINeutralarXiv – CS AI · Mar 44/103

🧠

GLEAN: Grounded Lightweight Evaluation Anchors for Contamination-Aware Tabular Reasoning

Researchers propose GLEAN, a new evaluation protocol for testing small AI models on tabular reasoning tasks while addressing contamination and hardware constraints. The framework reveals distinct error patterns between different models and provides diagnostic tools for more reliable evaluation under limited computational resources.