中文文本摘要以及标题生成系统Demo搭建


赛题内容

标题生成:Rouge-L(20%)

摘要生成:抽取、生成

WEB系统:系统运行流畅、UI界面(60%)

技术文档:(20%)

Day1:五月8日🧐

研训的时候复现了基础的论文,这学期初也做了一些Django开发的工作,接下来想尝试一下两者结合

Day2:五月10日🕊

emm期末提前了,暂时没有时间了属实,找了一些资料,等考完再搞叭,属于玩一玩?的项目,准备记录一下自己bug的工程过程,以免之后做同类的找不到参考?嗯嗯

Day3:五月17日👩🏼‍💻复习和数据预处理

复习《认知科学》遇到瓶颈,然后撸一下项目;

  • Web前后端大概框架,数据库配置
  • 数据预处理和token生成,暂时用的是开源预训练的中文token

一些参考资料:

  1. 如何读取json格式
  2. csv转tsv

一些已知的参数:

数据集 大小 内容[没有header以及col_iindex]
train 5850 (标题,正文)
dev 1679 (标题,正文)

Day4:五月18日🐵数据增广和GPU

试着去扩充了一下数据,爬虫使用的是“美味的汤”,效果还行,主要是选的网站没啥反爬和加密就很舒服~但是爬出来的内容数据格式是<p ……>内容……</p>

解决方案是正则,啊哈哈,之前编译原理答辩的时候听说有同学没用DFA直接用python自带的正则表达式,今天用了才知道——着实方便!(下面是简单示例每个板块只爬了5个,其实可以爬很多,是没有限制的良心网站

然后是服务器的使用问题,这个是肯定得用到GPU的,但是实验室那边……不是很想蹭,于是转向Kaggle,需要科学上网,切记科学上网+谷歌浏览器,这样一般不会遇到奇奇怪怪的问题。Kaggle资源是30h每周,昂,听说不是很稳定,但是目前来看应该是够的

Day5: 6月11日😜网站本地搭建(1)

  • 1、网站总体UI设计
  • 2、爬虫功能:数据展示(速度其实不算是特别慢,所以暂时就不搞那种同步输出了)

1. 爬虫模块设计思路

输入的是类别,然后按照类别爬取

Day6-7:6月12日 逃不掉用户的登录和注册模块

  • 前台登录
  • 前台注册
  • 后台用户信息增删改查
  • 爬虫信息的汇集、下载

BUGS:如何修改数据库表单结构

  • 不是很麻烦,UserInfo一开始设置的时候忘记加上state信息,导致管理员那边有冲突,只需要添加数据段所以方法二够用了,直接在models里面添加列,然后设置默认值,直接两步make……就ok啦

解决方案】-已解决

LayUI制作表格

Day8-9: 6月17日 TextRank

基于TextRank的中文摘要工具 | Jayvee’s Blog (jayveehe.github.io)

评分要求

1、标题生成算法评测(20%):

在规定时间提交标题生成测试集的结果,根据模型测试评分得到参赛者榜单排名,按照排名计算成绩。

2、WEB系统(60%):

(1) 实现标题生成和摘要抽取(生成)两大功能(30%)

(2) 系统运行流畅,UI界面合理和美观,人机交互友好(30%)

3、技术文档详细且清楚,展示汇报逻辑清晰、亮点突出(20%)


文章作者: Gao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Gao !
评论
  目录