🧠 AI🟢 BullishImportance 7/10

DanQing: An Up-to-Date Large-Scale Chinese Vision-Language Pre-training Dataset

arXiv – CS AI|Hengyu Shen, Tiancheng Gu, Bin Qin, Lan Wu, Yuling Wu, Shuo Tan, Zelong Sun, Jun Wang, Nan Wu, Xiang An, Weidong Cai, Ziyong Feng, Kaicheng Yang|March 26, 2026 at 04:00 AM

🤖AI Summary

Researchers have released DanQing, a large-scale Chinese vision-language dataset containing 100 million high-quality image-text pairs curated from Common Crawl data. The dataset addresses the bottleneck in Chinese VLP development and demonstrates superior performance compared to existing Chinese datasets across various AI tasks.

Key Takeaways

→DanQing contains 100 million high-quality Chinese image-text pairs, addressing the lack of large-scale open-source Chinese vision-language data.
→The dataset incorporates 2024-2025 data, enabling models to capture contemporary semantic trends and emerging concepts.
→Extensive experiments show DanQing consistently outperforms existing Chinese datasets across zero-shot classification, cross-modal retrieval, and multimodal tasks.
→The dataset will be open-sourced under Creative Common CC-BY-NC 4.0 license to facilitate further research.
→DanQing exhibits more balanced semantic distribution and superior scaling capability compared to existing datasets.