无标签

发布日期: 2022-05-08

更新日期: 2022-06-29

文章字数: 876

阅读时长: 3 分

阅读次数:

赛题内容

标题生成：Rouge-L（20%）

摘要生成：抽取、生成

WEB系统：系统运行流畅、UI界面（60%）

技术文档：（20%）

Day1:五月8日🧐

研训的时候复现了基础的论文，这学期初也做了一些Django开发的工作，接下来想尝试一下两者结合

Day2:五月10日🕊

emm期末提前了，暂时没有时间了属实，找了一些资料，等考完再搞叭，属于玩一玩?的项目，准备记录一下自己bug的工程过程，以免之后做同类的找不到参考？嗯嗯

Day3:五月17日👩🏼‍💻复习和数据预处理

复习《认知科学》遇到瓶颈，然后撸一下项目；

Web前后端大概框架，数据库配置
数据预处理和token生成，暂时用的是开源预训练的中文token

一些参考资料：

一些已知的参数：

数据集	大小	内容[没有header以及col_iindex]
train	5850	（标题，正文）
dev	1679	（标题，正文）

Day4：五月18日🐵数据增广和GPU

试着去扩充了一下数据，爬虫使用的是“美味的汤”，效果还行，主要是选的网站没啥反爬和加密就很舒服~但是爬出来的内容数据格式是<p ……>内容……</p>

解决方案是正则，啊哈哈，之前编译原理答辩的时候听说有同学没用DFA直接用python自带的正则表达式，今天用了才知道——着实方便！（下面是简单示例每个板块只爬了5个，其实可以爬很多，是没有限制的良心网站）

然后是服务器的使用问题，这个是肯定得用到GPU的，但是实验室那边……不是很想蹭，于是转向Kaggle,需要科学上网，切记科学上网+谷歌浏览器，这样一般不会遇到奇奇怪怪的问题。Kaggle资源是30h每周，昂，听说不是很稳定，但是目前来看应该是够的

Day5: 6月11日😜网站本地搭建（1）

1、网站总体UI设计
2、爬虫功能：数据展示(速度其实不算是特别慢，所以暂时就不搞那种同步输出了)

1. 爬虫模块设计思路

输入的是类别，然后按照类别爬取

Day6-7:6月12日逃不掉用户的登录和注册模块

前台登录
前台注册
后台用户信息增删改查
爬虫信息的汇集、下载

BUGS：如何修改数据库表单结构

不是很麻烦，UserInfo一开始设置的时候忘记加上state信息，导致管理员那边有冲突，只需要添加数据段所以方法二够用了，直接在models里面添加列，然后设置默认值，直接两步make……就ok啦

【解决方案】-已解决

【LayUI制作表格】

Day8-9: 6月17日 TextRank

基于TextRank的中文摘要工具 | Jayvee’s Blog (jayveehe.github.io)

评分要求

1、标题生成算法评测（20%）：

在规定时间提交标题生成测试集的结果，根据模型测试评分得到参赛者榜单排名，按照排名计算成绩。

2、WEB系统（60%）：

（1）实现标题生成和摘要抽取(生成)两大功能（30%）

（2）系统运行流畅，UI界面合理和美观，人机交互友好（30%）

3、技术文档详细且清楚，展示汇报逻辑清晰、亮点突出（20%）

Gao

https://ghy0202.github.io/2022/05/08/zhong-wen-wen-ben-zhai-yao-yi-ji-biao-ti-sheng-cheng-xi-tong-demo-da-jian/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Gao !

无标签

算法康复训练16

今天也是树吖！层次遍历，哈哈哈，隔了好久居然还记得，好评！

2022-05-08 算法与数据结构

编程练习机考

算法康复训练15

给我一颗种子，我可以搞出一片森林！

2022-05-07 算法与数据结构

编程练习机考

中文文本摘要以及标题生成系统Demo搭建

赛题内容

Day1:五月8日🧐

Day2:五月10日🕊

Day3:五月17日👩🏼‍💻复习和数据预处理

Day4：五月18日🐵数据增广和GPU

Day5: 6月11日😜网站本地搭建（1）

1. 爬虫模块设计思路

Day6-7:6月12日 逃不掉用户的登录和注册模块

BUGS：如何修改数据库表单结构

Day8-9: 6月17日 TextRank

评分要求

你的赏识是我前进的动力

Day6-7:6月12日逃不掉用户的登录和注册模块