讯飞联合团队夺得生成式文本摘要国际比赛GENIE - Summarization XSUM冠军
近日,讯飞联合团队夺得生成式文本摘要国际比赛GENIE - Summarization XSUM冠军,以人工总体评测指标53.45%的优异成绩刷新榜单,在人工评测指标和机器评测指标上均大幅超过谷歌、微软、帝国理工等知名高校与研究机构。
GENIE - Summarization XSUM挑战赛最新榜单
GENIE - Summarization XSUM
比赛是什么?
GENIE - Summarization XSUM比赛由艾伦人工智能研究所(AI2)在数据集XSUM上发起,比赛从专家人工评测指标(流畅性、简洁性、信息量等)和机器评测指标(ROUGE、METEOR、BERTScore、SacreBLEU等)多方面入手,旨在为文本摘要任务提供更准确、更全面的评估,进而推动自动文本摘要生成技术的进展。
XSUM数据集是大型英文生成式摘要数据集,涵盖了BBC近10年来多个领域的20多万篇文章。任务要求机器基于给定的文章,生成符合甚至超过人类领域专家的摘要。该任务的难点在于XSUM训练集中给定文章的长度相对其他数据集较短,且对应的摘要都是专业的编辑所撰写,因此摘要的归纳总结程度非常高,机器需要从有限的正文信息和高度归纳总结的摘要中学习到文本信息提炼知识用于生成,这对AI系统的理解归纳与生成能力提出了极大的挑战。此外,该任务的评价指标涵盖非常全面,不仅包含常规的机器评测指标,而且包含多种人类领域专家的人工评测指标,这就要求AI系统有非常全面的生成能力。
夺冠系统有什么过人之处?
面对GENIE - Summarization XSUM比赛提出的挑战,讯飞联合团队提出的KMDR系统从三个方面全面提升机器在生成式文本摘要任务上的能力。
KMDR系统框架
(1)数据内知识检索
XSUM数据集具有高的抽象性,文章相对其他数据集更短,这可能会给模型学习和推理带来一定的困难。因此本系统采用了一种数据内知识检索的策略,对于XSUM中的每篇文章,使用多种检索算法从训练数据集合中检索最相似的文章,然后将它们对应的摘要添加到文章中。通过这种数据内知识检索的方式,极大地提高了对抽象数据的利用率。
(2)面向抽象摘要的预训练模型
现有的生成式预训练模型可能并不适配具有高抽象性的XSUM任务。为此,我们使用了大量新闻数据,基于PEGASUS模型进行了二次预训练,旨在不丢失大规模通用数据上学到的语义信息的前提下,使模型更容易学习到抽象的摘要。首先将文章按如图3所示的方式输入到训练好的关键句打分器中,得到打分最高的关键句将被视为摘要,同其他句子作为二次预训练的数据。然后在经过二次预训练的PEGASUS模型基础上,使用数据内知识检索后的XSUM训练数据进行精调,这样就得到了与任务适配较好的生成模型。
二次预训练PEGASUS模型
(3)动态重排序方法
尽管经过上述步骤的模型已经与任务适配,能够生成较好的候选摘要,但生成概率高的结果并不一定完全符合人类认知,可能会导致比较低的人工评测结果。为此本系统分别提出了基于PEGASUS+对比学习一体式动态重排序方法和基于PEGASUS+DeBERTa两段式重排序方法。通过结合这两种方法,模型能够基于多个候选得到更加简洁流畅、更加符合人类认知水平的摘要。
通过以上创新点的结合,KMDR系统在GENIE - Summarization XSUM比赛上夺得了冠军,在人工综合指标上相对之前榜单最好的结果进一步提高了1.4%,在机器指标上的结果也超越了之前榜单的最好结果。
借助自动文摘技术,机器能够生成具备更强的总结归纳能力、更符合人类认知的文本摘要。该项技术有效助力了“讯飞超脑2030计划”,进一步推动了机器“能理解会思考”的认知智能技术发展,并在文档关键信息获取、会议纪要自动生成、商品评论摘要、新闻标题生成等场景上具有广泛的应用前景。
随着技术的不断精进,“自动文摘”将逐步在讯飞听见、讯飞智能录音笔等产品中落地应用,为职场、媒体、讲师等泛办公人群带来全新的使用体验。未来,科大讯飞将持续坚持源头核心技术创新,从感知智能深入到认知智能,致力于让机器“能听会说能理解会思考”,创造出更大的价值。