论文考古CopyNet


1. 论文阅读报告

复现这个工作的好多吖,感觉属于比较经典?~

[PAPER]

[[code]](Incorporating Copying Mechanism in Sequence-to-Sequence Learning | Papers With Code)

考古使我快乐🧐

1.1 Abtract

  • 基于Seq2Seq架构(encoder-decoder)
  • 创新点:其中输入序列中的某些片段在输出序列中被选择性地复制(所以叫copyNet😋)

1.2 Motivation

对话实例

  • 常规的encoder-decoder架构以及它们的变体都“严重”依赖于“含义”,在系统需要复述“时间”“实体“的时候表现不佳
  • 鉴于人类本身也有”死记硬背“的特性,我们认为”理解“+”背诵“可以使得Seq2Seq的性能更好

1.3 Models

1.3.1 模型总览

CopyNet架构图

Encoder:常规操作,利用RNN将输入的单词序列${x_1,x_2……x_t}$转化为等长的${h_1,h_2,……h_t}$,这里为了方便描述将后者表示为$M$

Decoder:操作比较多

  • 预测:分成两个模块(生成模块(generate mode)拷贝模块(copy mode,详见下文🎫展开,利用到了前文的M)
  • 状态更新:在更新$t$时刻的单词时候用到了$t-1$时刻的状态,除此之外还用到$M$对应位置的状态(详见下文👕展开)
  • 关于对于$M$的阅读:除了基于注意力机制下对于$M$的阅读,还对于$M$进行选择性的阅读,这导致了对于内容的寻址和对于位置寻址的强大混合

1.3.2 亿些细节

1.3.2.1 🎫细节一

对于输入序列$X$,我们的词表是$V$∪$UNK$∪$\chi$

其中$V$是预定义的全局词表,$UNK$代表未知词,$\chi$代表输入序列本身产生的词表

目标词概率公式

生成模式的概率,拷贝模式的概率

我的理解:有点像是构造了一个四分类器,根据$y_t$的情况对概率的计算做出调整

  • 目标词$y_t$如果属于词汇表或者源端,就分别计算上述两个概率;
  • 如果既不属于词汇表,也不属于源端,就是UNK;
  • 如果属于源端,但不属于词汇表,那么生成的概率为0;
  • 如果不属于源端,那么复制的概率为0。Z是两种模式共享的归一化项

decoder概率四分类器

两种模式分数的计算方法:

g/c

1.3.2.2 👕细节二

decoding过程中$s_t$状态由上一个时刻的状态$s_{t-1}$、上一个时刻的目标词表示$y_{t-1}$和内容集合$c_t$决定,创新点在于$y_{t-1}$将被$[e(y_{t-1};\zeta(y_{t-1}))]^T$代替

其中$\zeta(y_{t-1})$代表着对于$M$的选择性读取

具体展开详见论文

1.4 Experiment

1.一个具有简单模式的合成数据集;

2.一个关于文本摘要的真实任务;

3.一个用于简单的单回合对话的数据集

1.4.1 实验结果

对比结果

摘要

单轮对话实验

2. 参考资料

  1. 知乎CopyNet介绍
  2. CSDN上的CopyNet介绍

3. 碎碎念

主要是研训本来的任务没有结束,所以Web系统实现得差不多了,就回过头来继续”啃“这个骨头啦~

在系统搭建过程中进一步巩固了自己编程能力叭,有了万行代码量加持,现在觉得论文复现的工程量其实还🆗😜


文章作者: Gao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Gao !
评论
  目录