Nallapati R, Zhai F, Zhou B. Summarunner: A recurrent neural network based sequence model for extractive summarization of documents[C]. Thirty-First AAAI Conference on Artificial Intelligence. 2017.

Summarization 领域具有较大影响力,2017 SOTA, 生成及抽取式都有,baseline之一。

# 论文创新点

该篇文章写于2016年,发表于2017 AAAI, 文章提出了一个RNN序列模型应对抽取式摘要任务。论文通过一些特征工程方法引入部分相关特征(上下文、突出性、新颖性等)来加强模型学习能力。另外,模型稍加改动可以用于生成式摘要任务。

# 模型分析

# Word Layer

SummaRuNNer 的模型比较简单,但文章中的一些表达式含义较为混乱,所以在梳理时加入了自己的理解和一些标识来区分不同层的输入和输出。

记每个文本 由若干句子 组成,每个句子有词 .

在 Word Layer 层面,每个句子 中的词 经过 embedding 后得到 送入一个 biGRU, 得到 L 个 . 将输出拼接后做 average pooling 后得到句子的 sentence vector :

# Sentence Layer

得到句子特征 后,将特征再过一次 biGRU,得到 J 个 (论文中使用 代表句子数量), 将输出做平均池化之后经过映射得到 document vector :

# Extractive

对于抽取式模型来说,最后模型需要判断当前语句是否作为摘要的组成部分,相当于一个2-分类任务。判断第 j 个句子是否归入 summary 中 :

式中的 为 Sentence Layer 句子特征:

代表当前 j 句子时 summary 的动态特征,计算方法如下:

其动态性体现在 与之前所有的输入和输出有关,仔细来看的话,当前 summary 的特征是之前所有句子乘以该句在 summary 中的概率之和,这和 attention 的思想有一定相似性。

具体概率 P 里面计算项有很多,拆开来看:

代表当前 sentence 的线性变换

代表整个文本对于句子决定的影响

代表当前预测(计算出的 hidden state)对于句子的影响,由于预测有不确定性,因此这部分特征被作者认为是“冗余的”,对于最终结果可能产生“负面作用”,因此在上式中减去此特征。

分别代表句子的绝对位置 embedding (absolute positional embedding) 和 相对位置embedding (relative positional embedding)。绝对位置指句子在文本的顺序(第 j 句),相对位置在论文中是这样描述的:

the relative position refers to a quantized representation that divides each document into a fixed number of segments and computes the segment ID of a given sentence.

它将一个文本固定分为若干部分(segment), 句子 j 所在的部分的ID即为相对位置。这个思想在后来的DCA中也有应用,将文本分为干部分后交由不同的 agent 进行特征变换。这里的划分并非根据自然段来进行,而是固定一个数值进行划分,具体划分方式未知。

最后训练目标 Loss :

这其实就是一个2-分类的交叉熵。

# Abstractive

生成式任务时,论文将模型接入一个 RNN decoder, 同时对 decoder 做出了一些修改,引入 summary 特征:

其中 即 summary 特征向量,计算方式与 Extractive 中 dynamic summary 相同,只不过这里的特征是一个定值

疑惑

计算summary时的权重是由抽取式任务决定的,这里生成式任务没有对应label怎么获得权重?在论文中只有这么一段话:

Intuitively, since the summary representation acts as the only information channel between the SummaRuNNer model and the decoder, maximizing the probability of abstractive summary words as computed by the decoder will require the model to learn a good summary representation which in turn depends on accurate estimates of extractive probabilities p(yj).

之后就是常见的 sequence 模型得到对应单词,模型没有使用 pointer 网络,也没有对应 OOV 解决办法。


参考资料: SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents