实验室博士生肖克来提关于多模态抽象视觉推理的研究被ICME 2026录用-信息检索研究室

研究方向

学术报告

资源下载

当前位置：首页>>新闻动态>>正文

实验室博士生肖克来提关于多模态抽象视觉推理的研究被ICME 2026录用

2026-04-03 21:22

近日，实验室博士生肖克来提关于多模态抽象视觉推理的研究成果被 2026 IEEE International Conference on Multimedia and Expo (ICME 2026) 录用。ICME是多媒体领域的CCF推荐B类会议。

论文题目： Benchmarking and Improving Abstract Visual Reasoning via Multimodal Self-Refinement

中文题目：基于多模态自我迭代优化的抽象视觉推理基准测试与提升方法

中文简介：当前的文本到图像模型（T2IM）在根据明确指令生成图像方面表现出色，但在将抽象概念、隐喻或文化实体转化为连贯的视觉内容时仍面临较大挑战。与此同时，现有的评估体系主要关注具象描述的生成保真度，对抽象视觉推理能力的考察尚显不足。针对上述问题，本文提出了以下创新性工作：构建了一个涵盖1800个抽象概念的大规模基准测试集，覆盖影视、公众人物、地点、文学作品、虚构角色和成语六大文化领域，并分别以卡通和极简两种风格进行渲染与评估。提出了一种将评估与优化统一于单步推理中的闭环框架。该框架通过多轮对话协调三个核心组件协同工作：大语言模型（LLM）担任"创意总监"，负责将抽象概念转化为生成提示词；T2IM担任"视觉合成器"，负责渲染图像；多模态大语言模型（MLLM）担任"视觉评论家"，负责评估生成结果并提供针对性的修改建议。在10个LLM和10个MLLM上开展了全面实验，并结合专家标注进行验证。结果表明，ISR框架相较于纯T2IM基线取得了显著的性能提升（卡通风格+14.7%，极简风格+12.9%）。进一步分析揭示了人类与模型在视觉推理能力上的互补特性：MLLM在影视、公众人物等具有丰富视觉训练数据的领域中表现更优，而人类则在文学作品、虚构角色和成语等依赖上下文推理与想象力的类别中更胜一筹。

【关闭窗口】