#data-filtering News & Analysis

2 articles tagged with #data-filtering. AI-curated summaries with sentiment analysis and key takeaways from 50+ sources.

2 articles

AINeutralarXiv – CS AI · May 296/10

🧠

Diagnosing Harmful Continuation in Answer-Correct Long-CoT Training Traces

Researchers identify harmful continuation in long chain-of-thought training data where LLMs continue reasoning after the answer is sufficiently supported, degrading fine-tuning performance. Using a delete-only editor, they remove post-conclusion continuations and demonstrate improved SFT outcomes, introducing Harmful Continuation Cut (HCC) as a lightweight solution to detect and eliminate this problematic pattern.

AINeutralarXiv – CS AI · May 296/10

🧠

Data filtering methods for training language models

Researchers compared two automatic label error detection methods—Confident Learning and Dataset Cartography—for filtering noisy training data in Russian text classification tasks. The study reveals that filtering effectiveness depends heavily on dataset characteristics, with significant improvements only on small, noisy datasets, while larger corpora with low noise show no benefit from filtering.