#dataset-construction News & Analysis

2 articles tagged with #dataset-construction. AI-curated summaries with sentiment analysis and key takeaways from 50+ sources.

2 articles

AINeutralarXiv – CS AI · Apr 135/10

🧠

MuTSE: A Human-in-the-Loop Multi-use Text Simplification Evaluator

MuTSE is an interactive web application designed to evaluate Large Language Model outputs for text simplification tasks across multiple prompting strategies and proficiency levels. The tool addresses a methodological gap in NLP research by providing researchers and educators with a structured, visual framework for comparing prompt-model combinations in real-time.

AINeutralApple Machine Learning · Feb 245/103

🧠

Beyond a Single Extractor: Re-thinking HTML-to-Text Extraction for LLM Pretraining

Researchers investigate whether using a single HTML-to-text extractor for web-scale LLM pretraining datasets leads to suboptimal data utilization. The study reveals that different extractors can result in substantially different pages surviving filtering pipelines, despite similar model performance on standard language tasks.