https://libeldoc.bsuir.by/handle/123456789/45440
Title: | Extractive Russian Text Summarization as Greedy Sentence Sequence Continuation Search with Probabilities from Pretrained Language Models |
Other Titles: | Извлекающее автореферирование русскоязычных текстов с применением предобученных языковых моделей |
Authors: | Polyakova, I. Pogoreltsev, S. |
Keywords: | материалы конференций;russian text summarization;pretrained language models;sentence-BERT;next sentence prediction |
Issue Date: | 2021 |
Publisher: | БГУИР |
Citation: | Polyakova, I. Extractive Russian Text Summarization as Greedy Sentence Sequence Continuation Search with Probabilities from Pretrained Language Models / I. Polyakova, S. Pogoreltsev // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2021) : сборник научных трудов / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: В. В. Голенков [и др.]. – Минск, 2021. – Вып. 5. – С. 303–308. |
Abstract: | Pretrained language models based on Transformer have defined new state-of-the-art result on a wide range of tasks being finetuned or used as embedders. Models with Multi-head Self-Attention mechanism have defined a new standart of quality on text summarization task in English, while Transformer based models potential for extractive Russian text summarization has been barely explored. We propose a new method for extractive Russian text summarization, reducing the task to the selection of the most probable sequence of sentences. The new method beats ROUGE-1 and ROUGE-L scores of other models such as SummaRuNNer, and mBART evaluated on Gazeta dataset and is more preferred in human evaluation poll. |
Alternative abstract: | Предобученyые языковые модели на основе архитектуры Transformer установили новые рекорды на многих задачах обработки естественных языков при их до обучении или использовании для получения контекстуализированных семантических векторов. Модели с механизмом многоголового внутреннего внимания стали лучшими на задаче автореферирования англоязычных текстов, однако возможности применения подобных подходов для русского языка слабо изучены. Мы представляем новое решение задачи автореферирования текстов на русском языке, которое достигает лучших результатов по нескольким метрикам относительно других моделей, таких как SummaRuNNer и дообученный mBART для генерирующего автореферирования на датасете Gazeta. Результаты работы предлагаемого алгоритма является более предпочтительным вариантом в опросе среди студентов. |
URI: | https://libeldoc.bsuir.by/handle/123456789/45440 |
Appears in Collections: | OSTIS-2021 |
File | Description | Size | Format | |
---|---|---|---|---|
Polyakova_Extractive.pdf | 135.6 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.