>>最受欢迎的情感词典,欢迎点击下载!<<
研究方向
学术报告
资源下载
当前位置: 首页>>新闻动态>>正文
    实验室博士生肖克来提关于多模态抽象视觉推理的研究被ICME 2026录用
    2026-04-03 21:22  

    近日,实验室博士生肖克来提关于多模态抽象视觉推理的研究成果被 2026 IEEE International Conference on Multimedia and Expo (ICME 2026) 录用。ICME是多媒体领域的CCF推荐B类会议。

    论文题目: Benchmarking and Improving Abstract Visual Reasoning via Multimodal Self-Refinement

    中文题目: 基于多模态自我迭代优化的抽象视觉推理基准测试与提升方法

    中文简介:当前的文本到图像模型(T2IM)在根据明确指令生成图像方面表现出色,但在将抽象概念、隐喻或文化实体转化为连贯的视觉内容时仍面临较大挑战。与此同时,现有的评估体系主要关注具象描述的生成保真度,对抽象视觉推理能力的考察尚显不足。针对上述问题,本文提出了以下创新性工作:构建了一个涵盖1800个抽象概念的大规模基准测试集,覆盖影视、公众人物、地点、文学作品、虚构角色和成语六大文化领域,并分别以卡通和极简两种风格进行渲染与评估。提出了一种将评估与优化统一于单步推理中的闭环框架。该框架通过多轮对话协调三个核心组件协同工作:大语言模型(LLM)担任"创意总监",负责将抽象概念转化为生成提示词;T2IM担任"视觉合成器",负责渲染图像;多模态大语言模型(MLLM)担任"视觉评论家",负责评估生成结果并提供针对性的修改建议。在10个LLM和10个MLLM上开展了全面实验,并结合专家标注进行验证。结果表明,ISR框架相较于纯T2IM基线取得了显著的性能提升(卡通风格+14.7%,极简风格+12.9%)。进一步分析揭示了人类与模型在视觉推理能力上的互补特性:MLLM在影视、公众人物等具有丰富视觉训练数据的领域中表现更优,而人类则在文学作品、虚构角色和成语等依赖上下文推理与想象力的类别中更胜一筹。


    关闭窗口