Extractive Russian Text Summarization as Greedy Sentence Sequence Continuation Search with Probabilities from Pretrained Language Models

Polyakova, I.; Pogoreltsev, S.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/45440

Title:	Extractive Russian Text Summarization as Greedy Sentence Sequence Continuation Search with Probabilities from Pretrained Language Models
Other Titles:	Извлекающее автореферирование русскоязычных текстов с применением предобученных языковых моделей
Authors:	Polyakova, I. Pogoreltsev, S.
Keywords:	материалы конференций;russian text summarization;pretrained language models;sentence-BERT;next sentence prediction
Issue Date:	2021
Publisher:	БГУИР
Citation:	Polyakova, I. Extractive Russian Text Summarization as Greedy Sentence Sequence Continuation Search with Probabilities from Pretrained Language Models / I. Polyakova, S. Pogoreltsev // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2021) : сборник научных трудов / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Минск, 2021. – Вып. 5. – С. 303–308.
Abstract:	Pretrained language models based on Transformer have deﬁned new state-of-the-art result on a wide range of tasks being ﬁnetuned or used as embedders. Models with Multi-head Self-Attention mechanism have deﬁned a new standart of quality on text summarization task in English, while Transformer based models potential for extractive Russian text summarization has been barely explored. We propose a new method for extractive Russian text summarization, reducing the task to the selection of the most probable sequence of sentences. The new method beats ROUGE-1 and ROUGE-L scores of other models such as SummaRuNNer, and mBART evaluated on Gazeta dataset and is more preferred in human evaluation poll.
Alternative abstract:	Предобученyые языковые модели на основе архитектуры Transformer установили новые рекорды на многих задачах обработки естественных языков при их до обучении или использовании для получения контекстуализированных семантических векторов. Модели с механизмом многоголового внутреннего внимания стали лучшими на задаче автореферирования англоязычных текстов, однако возможности применения подобных подходов для русского языка слабо изучены. Мы представляем новое решение задачи автореферирования текстов на русском языке, которое достигает лучших результатов по нескольким метрикам относительно других моделей, таких как SummaRuNNer и дообученный mBART для генерирующего автореферирования на датасете Gazeta. Результаты работы предлагаемого алгоритма является более предпочтительным вариантом в опросе среди студентов.
URI:	https://libeldoc.bsuir.by/handle/123456789/45440
Appears in Collections:	OSTIS-2021

Files in This Item:

File	Description	Size	Format
Polyakova_Extractive.pdf		135.6 kB	Adobe PDF	View/Open

Show full item record Google Scholar