在多模态人工智能研究领域,高质量、大规模的基准数据集始终是推动技术进步的核心驱动力之一。近年来,随着视觉语言模型(Vision-Language Models, VLMs)的快速发展,研究社区对于能够全面评估模型能力的综合性数据集需求日益迫切。MMIOC-1M(Multimodal Image-Ob