<ul><li>Multimodal large language models (MLLMs) can process visual, textual, and auditory data.</li><li>Existing video question-answering benchmarks often exhibit bias towards a single modality.</li><li>The modality importance score (MIS) is introduced to identify and assess modality bias.</li><li>MLLM-derived MIS can guide the curation of modality-balanced datasets to enhance multimodal learning.</li></ul>

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models

Discover more