    1. 引言

    机器阅读理解(MRC)任务通过问答的形式来衡量模型是否理解了自然语言文本,自BERT出现以来,许多基于预训练的MRC模型在一些benchmark数据集上接近甚至超越了human performance,以至于不少论文通常会在结论中表述模型理解(comprehend)”了文本的含义(meaning)”


    因此近两年也出现了不少分析、批判与反思当前MRC模型存在的问题的论文,其中What Makes Reading Comprehension Questions Easier?指出当前的MRC模型其实并没有以我们预想的方式来推理答案,MRC模型会学到很多捷径(shortcuts),或者说是一些显而易见的规律。


    1是一个简单的例子,我们希望MRC模型可以理解come outbegun之间的语义一致性,并通过建立Scholastic journalScholastic magazine以及one-page journal之间的共指关系(co-reference)来推导出正确答案是September 1876

    但实际上,模型可以直接识别出September 1876是整个片段中唯一可以回答When类问题的时间实体,也就是仅通过简单的疑问词匹配就可以正确回答问题,而不需要共指消解之类的复杂推导。






    2. 数据集构建


    本文以SQuAD数据集为基础,通过分别设计两个合成的MRC数据集来解决上述问题,在这两个数据集中,每个样本包含一个原样本(passagequestion)的捷径版本(shortcut version) 和挑战版本(challenging version),在构建数据集的时候,我们需要保证两个版本在长短、风格、主题、词表、答案类型等方面保持一致,从而保证捷径的存在与否是唯一的独立变量,最后,作者在这两个数据集上进行个实验来分析了捷径问题对MRC模型性能和学习过程的影响。

    在数据集的捷径版本中,本文考虑两种捷径:疑问词匹配(question word matching, QWM)和简单匹配(simple matching, SpM)QWM是指模型可以通过识别疑问词类型来匹配答案,SpM是指模型可以通过答案所在的句子和问题的词汇重叠来匹配答案。


    2QWM-Para数据集的构建流程,以下图为例,在捷径版本中,模型可以直接通过疑问词Who与唯一的人物实体Beyonce的匹配来推断出答案是Beyonce。而在挑战版本中,另一个人物实体Lisa构成了干扰项,这可以避免模型通过简单的疑问词匹配的捷径来推断答案,从而期望模型可以识别出named the most influential music girlrated as the most powerful female musician之间的释义关系。

    2 QWM-Para数据集的构建流程

    3SpM-Para数据集的构建流程,在下例的捷径版本中,模型可以通过简单的词汇匹配rated as the most powerful female musician来获取答案Beyonce。在挑战版本中,我们只提供了原文的释义版本,从而避免了模型通过简单的词汇匹配获取答案,这对模型的释义能力提出了要求。

    3 SpM-Para数据集的构建流程

    3. 捷径问题如何影响模型表现?



    1 实验结果


    4. 模型如何学习捷径?


    2 实验结果



    5. 结论

    本文回答了为什么许多MRC模型学习shortcuts技巧,而忽视comprehension challenges。首先设计了两个数据集,其中每个实例都有一个简单的版本,另一个具有挑战性的版本需要较为复杂的推理技能来回答,而不是按问题进行单词匹配或简单匹配。

    本文发现learning shortcut questions通常需要较少的计算资源,而MRC模型通常在训练的早期阶段学习shortcut questions。随着训练中shortcut问题的比例越来越大,MRC模型将在忽略challenge questions的同时快速学习shortcut questions


