🧠 AI🟢 BullishImportance 7/10

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

arXiv – CS AI|Yongxian Wei, Runxi Cheng, Weike Jin, Enneng Yang, Li Shen, Lu Hou, Sinan Du, Chun Yuan, Xiaochun Cao, Dacheng Tao|March 4, 2026 at 05:00 AM|3 views

🤖AI Summary

Researchers introduce OptMerge, a new benchmark and method for combining multiple expert Multimodal Large Language Models (MLLMs) into single, more capable models without requiring additional training data. The approach achieves 2.48% average performance gains while reducing storage and serving costs by merging models across different modalities like vision, audio, and video.

Key Takeaways

→First comprehensive benchmark for merging Multimodal LLMs across tasks like VQA, Geometry, Chart analysis, OCR, and Grounding.
→Novel method removes noise from task vectors and optimizes merged models, achieving 2.48% average performance improvement.
→Model merging enables combining different modalities (vision-language, audio-language, video-language) toward Omni-language models.
→Approach reduces storage and serving costs while supporting decentralized AI model development.
→Results show complementarity among multiple modalities outperforms individual modality models.