https://libeldoc.bsuir.by/handle/123456789/63588| Title: | Исследование влияния ориентации документа на точность извлечения данных мультимодальной моделью PaddleOCR-VL |
| Other Titles: | Study of the impact of document orientation on data extraction accuracy using the PaddleOCR-VL multimodal mode |
| Authors: | Курлюк, Е. А. Давыдов, М. В. Ларченко, Н. А. Бойдич, А. В. |
| Keywords: | материалы конференций;Big Data;информационные системы;оптическое распознавание текста;мультимодальные модели;компьютерное зрение;обработка изображений;анализ документов;мультимодальные подходы;параметры ориентации |
| Issue Date: | 2026 |
| Publisher: | БГУИР |
| Citation: | Исследование влияния ориентации документа на точность извлечения данных мультимодальной моделью PaddleOCR-VL = Study of the impact of document orientation on data extraction accuracy using the PaddleOCR-VL multimodal model / Е. А. Курлюк, М. В. Давыдов, Н. А. Ларченко, А. В. Бойдич // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 2 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 158–165. |
| Abstract: | В работе исследуется влияние ориентации изображения на качество извлечения табличной структуры мультимодальной моделью PaddleOCR-VL. Эксперименты проведены на подмножестве набора данных SynthTabNet с четырьмя фиксированными углами поворота. Показано, что изменение ориентации приводит к существенному снижению качества распознавания, особенно при повороте на 180°. Предложен этап предварительного определения угла поворота на основе классификатора ResNet34. Добавление данного этапа приводит к выравниванию распределений метрик TEDS и TEDS-struct и снижению разброса результатов. Полученные результаты демонстрируют эффективность включения отдельного модуля определения ориентации в конвейер обработки документов. |
| Alternative abstract: | This paper investigates the impact of image orientation on table structure extraction quality using the PaddleOCR-VL multimodal model. Experiments are conducted on a subset of the SynthTabNet dataset with four fixed rotation angles. The results show that changes in orientation lead to a significant degradation in recognition quality, particularly for 180° rotations. A preprocessing stage based on a ResNet34 rotation classifier is introduced to determine the image orientation prior to inference. Incorporating this stage results in more consistent TEDS and TEDS-struct score distributions and reduces performance variability. The findings demonstrate the effectiveness of integrating a dedicated orientation detection module into the document processing pipeline. |
| URI: | https://libeldoc.bsuir.by/handle/123456789/63588 |
| Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026) |
| File | Description | Size | Format | |
|---|---|---|---|---|
| Kurlyuk_Issledovanie.pdf | 4.07 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.