自动摘要分类
自动摘要分为:1) 抽取式(extrative) 和 2) 摘要式(abstractive)。<p> 现在的自动摘要主要是抽取式,文章划分为句子,然后选取句子特征,训练模型,根据结果选取代表性句子组成摘要,缺点摘要的连贯性、一致性很难保证。
另外,深度学习领域,seq2seq+attention 模型,可以应用到自动摘要,取得了一定效果。
自动摘要评价
自动文档摘要评价方法大致分为两类:
(1)内部评价方法(Intrinsic Methods):提供参考摘要,以参考摘要为基准评价系统摘要的质量。系统摘要与参考摘要越吻合, 质量越高。
- Edmundson
- ROUGE
(2)外部评价方法(Extrinsic Methods):不提供参考摘要,利用文档摘要代替原文档执行某个文档相关的应用。例如:文档检索、文档聚类、文档分类等, 能够提高应用性能的摘要被认为是质量好的摘要。
其中内部评价方法,是比较直接比较纯粹的,被学术界最常使用的文摘评价方法,将系统生成的自动摘要与专家摘要采用一定的方法进行比较也是目前最为常见的文摘评价模式。