华盛顿大学：Event2Mind：事件、意图和反应的常识推理-语录网

ACL 2018 Long Papers

Event2Mind：事件、意图和反应的常识推理

Event2Mind: Commonsense Inference on Events, Intents, and Reactions

华盛顿大学

University of Washington

本文是华盛顿大学发表于 ACL 2018 的工作。

本文研究了一个新的常识推理任务：给定一个以简短的自由文本（“X drinks coffee in the morning”）描述的事件，系统推理事件参与者的可能意图（“X wants to stay awake”）和相对反应（“X feels alert”）。

为了支持这项研究，我们构建了一个包含25000个事件短语的新的众包语料库，这些事件短语涵盖了各种各样的日常事件和情景。

实验证明神经编码-解码器模型能够成功地合成未知事件的嵌入表示，并推理可能的意图和反应。

此外，我们展示了意图和反应的常识推理如何可以帮助揭示普遍存在于现代电影脚本中的隐含的性别偏差现象。

1 引言

理解一个记叙文需要常识性地推理人们关于事件的心理状态。

例如，如果“Alex is dragging his feet at work”，那么关于Alex意图的语用含义是“Alex wants to avoid doing things”（下图）。

我们也可以推断Alex的情绪反应可能是“lazy”或“bored”。

此外，虽然没有明确提及，但我们可以推断，除了Alex，其他人都受到这种情况的影响，这些人可能感到“frustrated”或“impatient”。

这种类型的语用推理可以在多种即使没有明确提及，但却需要准确预测人们意图和情绪反应的NLP应用上使用。

例如，理想的对话系统应该根据用户经历的事件来推理用户的心理状态，从而以合理方式作出反应，而不需要用户明确地陈述他们的感受。

类似地，社交媒体上的广告系统应该能够推理出人们在大规模枪击等事件后的情绪反应，并删除可能增加社会混乱的枪支广告。

此外，语用推理也是实现自动文本理解和生成的必要步骤。

然而，这种社会常识推理远远超出了现在广泛研究的任务，超出了现有基线的范围。

本文介绍了一个新的任务，语料库和模型，支持对事件的常识推理，在简短自有文本上对人们的意图和反应进行建模。

本文贡献是：（1）一个新语料库，支持关于人们在各种日常事件和情境中的意图和反应的常识推断（2）推断拿下甚至没有被事件短语直接提及的人（3）提出一个旨在生成意图和反应文本描述的任务，而不是对它们的极性进行分类或对给定文本描述之间的推理关系进行分类。

我们的工作建立了这个新任务的基线性能，证明了，给定短语级别的推理数据集，神经编码-解码器模型能够成功地为未知事件合成短语嵌入，并推理参与者的心理状态。

此外，为了展示常识推理对事件和人们心理状态的实际影响，我们将我们的模型应用于现代电影脚本，它提供了对现代电影中性别偏差的新见解，优于前任研究。

产生的语料库包括大约25000个事件短语，这些事件短语将从故事和博客中自动提取的短语与Wiktionary中列出的所有惯用动词短语组合在一起。

我们的语料库见https://tinyurl.com/event2mind。

2 数据

虽然已有许多关于短语级释义和短语级蕴涵的前任研究，但是相对较少的工作集中在需要语用或常识解释的短语级推断上。我们将研究范围扩大到两种截然不同的推断类型：给定描述事件的短语，推断导致或受事件影响的人的可能意图和情绪反应；通过关注事件和人的心理状态之间的因果关系进行推理；进一步补充了前人工作的不完整。

我们从故事、博客和维基习语中收集了大量的短语事件描述。

与先前关于短语嵌入的工作相比，我们的工作通过引入（类型）变量来概括短语。

我们将与实体提及或代词对应的单词替换为类型化变量，如PersonX或PersonY，如下表所示。

我们提取的短语是动词谓词和部分实例化参数的组合，如果它们出现得足够频繁，就把特定的论点与谓语组合在一起（例如，PersonX eats pasta for dinner）。

否则，参数被非类型化的空白替换（例如，PersonX eats _ for dinner）。

本文之研究了人称变量的类型化，未来再考虑其他类型的研究。

推理类型：语用推理的第一种类型是意图。意图，可以解释为为什么施事者导致事件发生，是行动或事件的心理前提。例如，如果事件短语是PersonX takes a stab at _，那么标注的意图可能是“PersonX wants to solve a problem”。

第二类语用推理是情绪反应。

我们将反应定义为解释施事者和参与事件的其他人的心理状态将如何因此改变。

反应可以被认为是一种行为或事件的心理后置条件。

例如，如果事件短语是PersonX gives PersonY _ as a gift，那么PersonX可能会因此而” feel good about themselves”，PersonY可能会“feel grateful”或“feel thankful”。

事件提取：我们从三个不同的语料库中提取短语事件：ROC故事训练集、Google语法N元组和Spinn3r语料库。

我们根据句法分析从语料库中的动词短语集合中得到事件。

然后，我们用类型化变量（例如，PersonX、PersonY）替换谓词主语和其他实体，并有选择地用空白(_)替换动词参数。

最终的标注语料库包含近25000个事件短语，覆盖1300个唯一的动词谓词(下表)。

众包：我们设计了Amazon Mechanical Turk任务来标注事件短语的心理前后置条件。下图中显示了我们的MTurk HIT设计。

心理状态描述：我们的数据集包含将近25000个事件短语，注释器将91%提取的事件评级为“有效”（即，事件有意义）。

在这些事件中，任务的多个选择部分的标注（是否存在意图/反应）适度一致，平均Cohen’s k=0.45。

其中大多数事件被标注为由施事者自愿引起的（86%，Cohen's k=0.48），26%涉及他人（k=0.41）。

数据中的大多数事件模式都是实例化的，只有22%个包含空白（_）。

在我们的语料库中，意图标注比反应标注（1.5个单词）稍长（平均3.4个单词）。

3 模型

给定一个事件短语，我们的模型旨在生成三个特定的语用推理：PersonX的意图、PersonX的反应和其他人的反应。模型架构如下图所示。

模型的输入是通过带有类型化变量的自由文本描述的事件模式，比如PersonX gives PersonY as a gift。我们将每个事件模式E描述为一系列单词嵌入

该输入被编码为用于预测输出的向量

模型的输出是关于PersonX的意图、PersonX的反应和其他反应的假设（分别为vi、vx和vo）。我们尝试用两个解码组来表示输出：三个向量，可解释为单词和短语上的离散分布（n元重排序）或三个单词序列（序列解码）。

编码事件：输入的事件短语E通过一个编码公式

被压缩为H维的词嵌入hE。

语用推理解码：我们使用三个解码模块，采用嵌入hE的事件短语和可能的PersonX意图(vi)、PersonX反应(vx)和其他反应(vo)的输出分布。我们用两个不同的解码器设置进行实验。

首先，在N-gram重排序中进行实验，考虑到我们注释中最频繁的{ 1, 2, 3 } 元文法。每个解码器将嵌入hE的事件短语投影到|V|维向量中，然后通过softmax函数传递该向量。例如，关于PersonX’s意图的分布为：

其次，我们用序列生成进行实验，使用RNN解码器生成文本描述。将嵌入hE的事件短语设置为三个解码器RNNs(使用GRU单元)的初始状态hdec，然后每个字输出意图/反应(在测试时使用beam-search)。例如，事件的意图序

计算如下：

训练目标：我们将预测的词和短语分布之间的交叉熵最小化，而不是数据集中实际观察到的交叉熵。此外，我们采用多任务学习，同时最大限度地减少所有三个解码器在每次迭代的损失。

训练细节：我们固定输入的嵌入表示，在谷歌新闻上使用300维skip-gram进行词向量训练。对于解码，在N-gram重排序设置中词汇表大小设置为V＝14034。对于序列解码设置，我们只考虑V中的一元文法，在每个时间步长中产生7110的输出空间。

我们随机地将我们的24716个唯一事件集（57094个注释）分成80/10/ 10%的训练/ 验证/测试集。一些标注具有多个反应（即，众包给出多个可能的意图和反应），在这种情况下，我们将其反应的每个组合作为单独的训练示例。

4 实验

下表总结了不同的编码模型在开发和测试集上的效果。

正如预期的那样，我们看到当使用更多成分的编码器模型（ConvNet和BiRNN）时，召回和交叉熵有一定的提高。

此外，BiRNN模型在解码设置上优于交叉熵的ConvNets。

看意图与反应标签的召回分裂（“Intent”，“XReact”和“OReact”列），我们看到在使用这两个模型预测personx的意图时有很大改进。

请注意，对于“OReact”的召回要高得多，因为大多数事件不涉及其他人。

下图总结了人工评价的结果。在大多数情况下，序列解码器的性能高于相应的N-gram解码器。使用序列解码器，最大的收获是在意图的预测上，可能是因为意图的解释更长。BiRNN和ConvNet编码器一直比平均池化的BiRNN-seq设置具备更高的准确率，且优于其他模型。

下图展示了在验证集包括不同部分时交叉熵的变化：空白事件（含非实例化参数事件）、2人以上的事件（包含多个不同的人，和成语变量事件）、Idiom事件（事件来自维基习语列表）。

下图展示了嵌入空间的例子，其可以区别积极、消极的词,也能够捕获的事件之间的极小差异的短语（如“washes” versus “cuts”）。

如下图所示，本文模型能够分析文本中隐含的人物形象，通过角色的行为来解释人物的心理状态方面的语用推理。

本文的Event2Mind将以前需要手动注释的推理自动化。

如下表所示，研究结果表明这归因于人物的性别偏差。

具体而言，包含女性语义当事者的事件目的一般是要帮助他人（包括FRIEND, FAMILY, AFFILIATION等），特别是有关饮食和为自己和他人制造食物（INGEST,BODY）。

而包含男性当事人的事件是由成就动机（ACHIEVE, MONEY, REWARDS, POWER）引起的。

5 总结

本文引入了一个新的语料库、任务和模型，用于对文本描述的日常事件执行常识推理，重点关注事件中涉及人物的意图和反应。我们的语料库支持学习不同事件范围的表示法，并推理以前未曾见过的事件的可能的意图和反应。我们还表明，这样的推断可以帮助揭示隐含的性别偏差问题。

论文下载链接：

相关推荐