1. 论文阅读报告

复现这个工作的好多吖，感觉属于比较经典？~

[PAPER]

[[code]](Incorporating Copying Mechanism in Sequence-to-Sequence Learning | Papers With Code)

考古使我快乐🧐

1.1 Abtract

基于Seq2Seq架构（encoder-decoder）

创新点：其中输入序列中的某些片段在输出序列中被选择性地复制（所以叫copyNet😋）

1.2 Motivation

对话实例

常规的encoder-decoder架构以及它们的变体都“严重”依赖于“含义”，在系统需要复述“时间”“实体“的时候表现不佳
鉴于人类本身也有”死记硬背“的特性，我们认为”理解“+”背诵“可以使得Seq2Seq的性能更好

1.3 Models

1.3.1 模型总览

CopyNet架构图

Encoder:常规操作，利用RNN将输入的单词序列${x_1,x_2……x_t}$转化为等长的${h_1,h_2,……h_t}$，这里为了方便描述将后者表示为$M$

Decoder:操作比较多

预测：分成两个模块（生成模块(generate mode)和拷贝模块(copy mode,详见下文🎫展开，利用到了前文的M)）
状态更新：在更新$t$时刻的单词时候用到了$t-1$时刻的状态，除此之外还用到$M$对应位置的状态（详见下文👕展开）
关于对于$M$的阅读：除了基于注意力机制下对于$M$的阅读，还对于$M$进行选择性的阅读，这导致了对于内容的寻址和对于位置寻址的强大混合

1.3.2 亿些细节

1.3.2.1 🎫细节一

对于输入序列$X$，我们的词表是$V$∪$UNK$∪$\chi$

其中$V$是预定义的全局词表，$UNK$代表未知词，$\chi$代表输入序列本身产生的词表

目标词概率公式

生成模式的概率，拷贝模式的概率

我的理解：有点像是构造了一个四分类器,根据$y_t$的情况对概率的计算做出调整

目标词$y_t$如果属于词汇表或者源端，就分别计算上述两个概率；

如果既不属于词汇表，也不属于源端，就是UNK；

如果属于源端，但不属于词汇表，那么生成的概率为0；

如果不属于源端，那么复制的概率为0。Z是两种模式共享的归一化项

decoder概率四分类器