1000字范文,内容丰富有趣,学习的好帮手!
1000字范文 > 论文阅读|基于领域知识图谱的多文档摘要生成与应用

论文阅读|基于领域知识图谱的多文档摘要生成与应用

时间:2022-07-01 11:19:58

相关推荐

论文阅读|基于领域知识图谱的多文档摘要生成与应用

论文地址:基于领域知识图谱的多文档摘要生成与应用

先验知识

1.多文档摘要技术:

(理解:类似于每篇文章的摘要、关键词,方便通过标签筛选是否是你需要的内容)

利用计算机将同一主题下或者不同主题下的多篇文档描述的主要内容通过信息压缩技术提炼成一个文档的自然语言处理技术。目的是通过对原文档进行压缩提炼,为用户提供简明扼要的文字描述。形式化定义:

2.文档摘要的研究方法主要分为两种:一种是抽取式的摘要生成方法。主要通过提取原文的句子作为摘要。另一种是生成式的摘要生成方法。通过对文档内容特征提取,用新的句子概括原文作为摘要。前者的方法易于实现,但是摘要的可读性、连贯性较差。后者可读性较好,但是难以实现。

抽取式摘要的一种思路是将原文按句子进行切分、将每个句子打分、排序,最后选择排序靠前的句子作为最终的摘要结果。

生成式摘要是指通过理解文档的内容和意思,它不仅将那些重要的信息进行抽取,同时抽象释义出原文档的内容。这种方法更加接近摘要的本质,更加类似于人工提炼的摘要结果。

3.Seq2Seq框架

Seq2Seq框架是一种序列转换的框架,核心思想是使用深度神经网络(本文主要:双向门控循环单元神经网络BIGRU)将一个输入序列映射为另一个输出序列,在这个过程中,它是由编码器和解码器构成。Seq2Seq(Sequence to sequence Leanring),又称为端到端学习,编码器的作用:将输入的原文档编码成一个向量(context),该向量是原文档的一个表征,包含了文档背景。解码器的作用:从向量中提取重要的信息,加工,最后生成文档摘要。

框架解读:在训练的过程中,编码器读入的是文档中的字符或者词向量,假设输入了A,B,C及终止符,编码器就会将输入的向量编码成一个固定长度的向量W,在解码时,则将W作为初始的状态,根据W解码来预测X,在预测Y的时候,则将之前解码输出的X作为下一次预测的输入,迭代循环,直到遇到终止符结束。

4.门控循环单元神经网络GRU

5.Beam Search集束搜索

6.sigmoid函数

7.tanh激活函数

sigmoid函数过有一个缺点就是输出不以0为中心,使得收敛变慢的问题。而Tanh则就是解决了这个问题。Tanh就是双曲正切函数。等于双曲余弦除双曲正弦。函数表达式和图像见下图。这个函数是一个奇函数。

尽管tanh函数和sigmoid函数存在梯度消失的问题,但是与之类似,如果函数的梯度过大又会导致梯度爆炸的问题,显然tanh和sigmoid的导函数非常有界,根据导数公式,很容易得出tanh ′ ( x ) ∈ [ 0 , 1 ]′(x)∈[0,1],所以完全不用担心因为使用激活函数而产生梯度爆炸的问题。

8.线性不可分问题

我们不可以使用一个直线或者一个直面把上面图像中的两类数据很好的划分。这就是线性不可分。由单级感知机不能表达的问题,比如异或问题

解决方案:核函数、隐藏层(单层感知机无法解决线性不可分的问题,因此加入隐含层就可以拟合非线性的决策边界)

9.自适应优化算法Adam

Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。它的名称来源于适应性矩估计(adaptive moment estimation)。

Adam 算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即 alpha)更新所有的权重,学习率在训练过程中并不会改变。而 Adam 通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。

10.LSTM

LSTM 之所以能够记忆长短期的信息,是因为它有 “门” 的结构来去除和增加信息到神经元的能力,“门” 是一种让信息选择性通过的方法。

问题描述

网络在给人们提供丰富信息的同时,也带来了信息过载方面的问题。如何从大量的新闻文档中提取重要的信息,即从一篇或多篇长篇大论的文档中自动抽取出最重要的摘要信息,成为当下迫切需要解决的问题。文档摘要技术自动生成给定原文的中心内容,或者是将文档中主要的句子进行自动抽取,再用从原文中抽取出的句子表示中心内容,目的是对大规模的电子文档快速地浓缩、提炼,使其成为我们加快阅读和获取信息资源的一个准确而高效的手段。

相关工作

现存问题:文档摘要技术根据用户输入的文档数量的不同而分为单文档摘要和多文档摘要,单文档摘要的难点主要在于对文档中重要信息的评估,而多文档摘要的难点则有更多,比如冗余信息的过滤、重要信息的评估、碎片化信息的聚合、多个信息的组织等。

相关技术

早期,基于统计的方法,通过将词频、句子长度、句子位置等相关的特征相结合,从原文中抽取重要的句子,得到文档摘要 。缺点:对文档内容缺乏语义理解,特征之间缺少关联信息,文摘中含有过多的冗余信息,效果欠佳 。

现有的多文档摘要技术的研究一般仅限于计算句子与句子之间两两关系来对句子进行打分,通过对句子排列罗列成多文档摘要。缺点:忽略了句子与句子之间在主题层面的逻辑关系,使得文摘的结果缺乏可读性。

方法描述

本文以提高多文档摘要生成的质量为目标,从以下两个方面展开了研究:

1.利用深度学习模型生成主题句

通过对深度学习模型的研究,将该模型应用在单文档的主题句提取上,基于Seq2Seq框架对文档和标注过的主题句进行建模,构成主题句生成模型。

2.引入知识图谱,通过语义相似度计算,建立文档与知识图谱的映射关系

在多篇文档信息的组织的问题上,引入知识图谱,通过计算各主题句与知识图谱节点间的语义相似度,建立主题句与知识图谱的映射关系,然后依赖知识图谱的逻辑结构,对主题句进行合理的组织,生成多文档摘要。

具体做法:

1.使用深度学习模型(Seq2Seq)框架来得到新闻主题句进行建模,在编码器中使用双向门循环单元(BIGRU)模型进行编码,在解码之前加注意力机制,放置信息的丢失,在解码过程中使用Beam Search算法来生成主题句

在主题句生成的实验中,采用了LCSTS公开的语料进行训练模型,分别在LCSTS测试语料与军民融合领域的新闻语料进行测试,采用ROUGE自动评价方法,训练出最佳的主题句生成模型,最后根据该模型得到新闻主题句。

2.建立新闻主题句与知识图谱之间的映射关系,将多文档摘要生成问题转化为对知识图谱中各个节点下的新闻主题句的组织问题。引入知识图谱,通过关键词算法抽取文档中的关键词来构建主题词集,根据训练好的词向量模型来获得主题句的词向量,进而计算出每篇文档的平均词向量,利用这个词向量与每个图谱节点计算相似度,最后取出与每篇文档相似度最高的图谱节点,这个节点就是每篇文档到知识图谱上的映射关系。

在多文档摘要生成的过程中,引入军民融合领域的知识图谱,使用军民融合领域的语料进行实验,对于实验结果,采用人工评测方法,分别对多文档摘要的连贯性、非冗余性、可读性进行评价。

3.引入时序维度,以某段时间为单位来生成多文档摘要,TNS(Timeline news summaries)是根据时间排序组成的主题句序列,其中,多文档摘要都由某段时间内描述新闻的主题句集合构成。

实验结果

文档摘要评价方法

文档摘要的评价方法是与参考摘要进行对比,大部分情况下系统生成的摘要与参考的摘要越相似、重合度越高。

1.ROUGE评价方法

Recall-Oriented UnderStudy for Gisting Evaluation(以回忆为导向的支撑评价替补研究)这种评价方法是基于N-gram的共现来评价摘要的优劣,它是一种面向N元gram的召回率的客观的评价方法。

缺点:不考虑文档句子间前后的顺序关系

基本思想:对比只要系统生成的摘要与

2.人工评价方法

具体实验

1.基于Seq2Seq框架的主题句生成

实验数据:在训练主题句模型的过程中,选择公开的中文语料库(LCSTS),数据被分成了三部分,第一部分2400591篇语料作为训练集,第二部分10666篇语料作为开发集,第三部分1106篇语料作为测试集。另外,在军民融合官网中爬取了1667篇新闻作为测试语料,进行测试。

数据预处理:为了保证语料的一致性,根据新闻中信息要点分布比例图,在做主题句生成的实验时,使用语料的前两句作为模型的输入。

实验设计:不断调整参数优化模型,使用自适应优化算法(Adam)来学习参数模型。

实验结果和分析:

2.基于领域知识图谱的多文档摘要生成方法

数据与预处理:

实验设计:

实验结果:

个人评价

优点:将知识图谱应用到多文档摘要极具创新性,依赖映射关系和知识图谱的逻辑结构,对新闻主题句进行合理的组织,解决了多文档摘要技术生虫中的碎片化信息聚合、多篇文档信息组织的问题。

缺点以及后续研究点:

(4)文章基于字模型,对比方法中提到了句模型,可以对比试验句模型与字模型。

个人思考

1.文摘评价是否加上将系统生成的多个文摘与参考摘要做语义相似度计算,文摘的目的不仅仅要求简洁、通顺,更强调不修改原文意思。

2.评估指标除了重复单员词汇单元是否可以考虑否定词的存在,例如给定的文摘是:教育部:加快构建标准化规范化临床医学人才培养体系 生成文摘是教育部:未能加快构建标准化规范化临床医学人才培养体系,即使重复词汇单位和最长公共子序列最大但却扭曲原文意思。

3.多文档摘要包括同一主题或者不同主题,不同主题如何生成摘要?

如果想做同一主题下多文档摘要,是否有判断多文档是否属于同一主题的算法?

在本文当中,是通过映射到知识图谱的节点当中,

但这是基于军民融合领域考虑的,属于同一主题下多文档摘要。

4.技术应用:

方面1:自动提取网页标签,方便用户核对和其他用户快速查找资源。

方面2:筛选出某一个查询主题的所有文章,整合每篇文章的重点得出最终的操作流程。

举例:查询neo4j与pycharm链接

现在搜索时存在的一点问题:各篇文章针对某一个环节进行描述,但是很少有完整的安装、使用说明,需要可以结合知识图谱的逻辑结构,我不仅得到当前的解决办法,也能知道前世以及将来可能面对的问题。

----------END----------

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。