Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63588
Title: Исследование влияния ориентации документа на точность извлечения данных мультимодальной моделью PaddleOCR-VL
Other Titles: Study of the impact of document orientation on data extraction accuracy using the PaddleOCR-VL multimodal mode
Authors: Курлюк, Е. А.
Давыдов, М. В.
Ларченко, Н. А.
Бойдич, А. В.
Keywords: материалы конференций;Big Data;информационные системы;оптическое распознавание текста;мультимодальные модели;компьютерное зрение;обработка изображений;анализ документов;мультимодальные подходы;параметры ориентации
Issue Date: 2026
Publisher: БГУИР
Citation: Исследование влияния ориентации документа на точность извлечения данных мультимодальной моделью PaddleOCR-VL = Study of the impact of document orientation on data extraction accuracy using the PaddleOCR-VL multimodal model / Е. А. Курлюк, М. В. Давыдов, Н. А. Ларченко, А. В. Бойдич // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 158–165.
Abstract: В работе исследуется влияние ориентации изображения на качество извлечения табличной структуры мультимодальной моделью PaddleOCR-VL. Эксперименты проведены на подмножестве набора данных SynthTabNet с четырьмя фиксированными углами поворота. Показано, что изменение ориентации приводит к существенному снижению качества распознавания, особенно при повороте на 180°. Предложен этап предварительного определения угла поворота на основе классификатора ResNet34. Добавление данного этапа приводит к выравниванию распределений метрик TEDS и TEDS-struct и снижению разброса результатов. Полученные результаты демонстрируют эффективность включения отдельного модуля определения ориентации в конвейер обработки документов.
Alternative abstract: This paper investigates the impact of image orientation on table structure extraction quality using the PaddleOCR-VL multimodal model. Experiments are conducted on a subset of the SynthTabNet dataset with four fixed rotation angles. The results show that changes in orientation lead to a significant degradation in recognition quality, particularly for 180° rotations. A preprocessing stage based on a ResNet34 rotation classifier is introduced to determine the image orientation prior to inference. Incorporating this stage results in more consistent TEDS and TEDS-struct score distributions and reduces performance variability. The findings demonstrate the effectiveness of integrating a dedicated orientation detection module into the document processing pipeline.
URI: https://libeldoc.bsuir.by/handle/123456789/63588
Appears in Collections:BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)

Files in This Item:
File Description SizeFormat 
Kurlyuk_Issledovanie.pdf4.07 MBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.