#visual-question-answering News & Analysis

7 articles tagged with #visual-question-answering. AI-curated summaries with sentiment analysis and key takeaways from 50+ sources.

7 articles

AINeutralarXiv – CS AI · Jun 86/10

🧠

Attention Consistent Longitudinal Medical Visual Question Answering Guided by Vision Foundation Models

Researchers propose a novel attention-guided encoder-decoder architecture for longitudinal medical visual question answering using chest X-rays, incorporating affine registration and vision foundation models (DINO) to identify anatomical changes over time. The approach combines saliency masking with multimodal transformer decoding and auxiliary learning objectives, achieving strong benchmark performance while providing interpretable visual explanations for clinical reasoning.

AINeutralarXiv – CS AI · Jun 56/10

🧠

Noise-Aware Visual Representation Learning for Medical Visual Question Answering

Researchers propose a noise-aware medical visual question answering framework that uses denoising autoencoders to improve the robustness of visual representations when connecting vision encoders to large language models. The approach achieves competitive performance on medical imaging benchmarks while demonstrating enhanced resilience to noisy inputs through parameter-efficient fine-tuning.

AINeutralarXiv – CS AI · Jun 26/10

🧠

REAL: Resolving Knowledge Conflicts in Knowledge-Intensive Visual Question Answering via Reasoning-Pivot Alignment

Researchers propose REAL, a framework addressing knowledge conflicts in knowledge-intensive visual question answering by introducing 'reasoning-pivots' as atomic units that link external evidence in reasoning chains. The approach combines specialized fine-tuning and decoding strategies to improve accuracy when handling conflicting information from open-domain retrieval systems.

AINeutralarXiv – CS AI · May 296/10

🧠

Brain-IT-VQA: From Brain Signals to Answers

Researchers have developed Brain-IT-VQA, a framework that decodes visual question answers directly from fMRI brain signals with significantly improved accuracy over previous methods. The team also introduced NSD-VQA, a new benchmark dataset with 20 controlled question categories per image, enabling more reliable evaluation of how visual information is represented in the brain.

AIBullisharXiv – CS AI · Apr 156/10

🧠

Unveiling the Surprising Efficacy of Navigation Understanding in End-to-End Autonomous Driving

Researchers propose Sequential Navigation Guidance (SNG), a framework addressing a critical flaw in end-to-end autonomous driving systems that over-rely on local scene understanding while underutilizing global navigation information. The SNG framework combines navigation paths and turn-by-turn instructions with a new VQA dataset and efficient model to improve autonomous vehicle planning and navigation-following in complex scenarios.

AIBullisharXiv – CS AI · Mar 176/10

🧠

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

Researchers have developed QA-Dragon, a new Query-Aware Dynamic RAG System that significantly improves knowledge-intensive Visual Question Answering by combining text and image retrieval strategies. The system achieved substantial performance improvements of 5-6% across different tasks in the Meta CRAG-MM Challenge at KDD Cup 2025.

AIBullisharXiv – CS AI · Mar 36/103

🧠

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Researchers developed a meta-learning approach for Large Multimodal Models (LMMs) that uses distilled soft prompts to improve few-shot visual question answering performance. The method outperformed traditional in-context learning by 21.2% and parameter-efficient finetuning by 7.7% on VQA tasks.