Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/38785
Full metadata record
DC FieldValueLanguage
dc.contributor.authorИскра, Н. А.-
dc.date.accessioned2020-04-04T08:24:16Z-
dc.date.available2020-04-04T08:24:16Z-
dc.date.issued2020-
dc.identifier.citationИскра, Н. А. Подход к анализу изображений для систем технического зрения / Искра Н. А. // Доклады БГУИР. – 2020. – № 18 (2). – С. 62–70. – DOI : http://dx.doi.org/10.35596/1729-7648-2020-18-2-62-70.ru_RU
dc.identifier.urihttps://libeldoc.bsuir.by/handle/123456789/38785-
dc.description.abstractВ данной работе предлагается подход к семантическому анализу изображений, который можно использовать в системах технического зрения. Целью работы является разработка метода автоматического построения семантической модели, формализующей пространственные связи между объектами на изображении, а также ее исследование. Отличительной особенностью данной модели является определение значимых объектов, благодаря чему алгоритм построения анализирует на порядок меньше отношений между объектами, что позволяет существенно сократить время обработки изображения и объем используемых ресурсов. Уделено внимание выбору нейросетевого алгоритма детекции объектов на изображении как предварительного этапа построения модели. Проведены эксперименты на тестовых наборах их базы Visual Genome, разработанной исследователями из Стэнфордского университета для оценки алгоритмов детекции объектов, аннотирования регионов и других актуальных задач анализа изображений. При оценке работы модели оценивалась точность определения пространственных отношений. Также были проведены эксперименты по интерпретации полученной модели, а именно аннотированию, т. е. получению текстового описания содержания изображения. Результаты экспериментов сравнивались с аналогичными результатами нейросетевой генерации аннотаций изображений, полученными на той же базе другими исследователями, а также автором данной работы ранее. Показано улучшение качества аннотирования изображений до 60 % (в соответствии с метрикой METEOR) по сравнению с нейросетевыми методами. Кроме того, использование данной модели позволяет частично очистить и нормализовать данные для обучения, в том числе нейросетевых архитектур, широко применяющихся в анализе изображений. Рассматриваются перспективы использования данной методики в ситуационном мониторинге. В качестве недостатков данного подхода можно отметить некоторые упрощения при построении модели, которые будут учтены в дальнейшем развитии модели.ru_RU
dc.language.isoruru_RU
dc.publisherБГУИРru_RU
dc.subjectдоклады БГУИРru_RU
dc.subjectдетекция объектовru_RU
dc.subjectсемантическая модельru_RU
dc.subjectнейронные сетиru_RU
dc.subjectобработка изображенийru_RU
dc.subjectобработка языкаru_RU
dc.subjectметод R-CNNru_RU
dc.subjectбаза WordNetru_RU
dc.subjectситуационный мониторингru_RU
dc.subjectвидеонаблюдениеru_RU
dc.subjectobject detectionru_RU
dc.subjectsemantic modelru_RU
dc.subjectneural networksru_RU
dc.subjectimage processingru_RU
dc.subjectnatural language processingru_RU
dc.subjectmethod R-CNNru_RU
dc.subjectbase WordNetru_RU
dc.subjectsituational monitoringru_RU
dc.subjectvideo surveillanceru_RU
dc.titleПодход к анализу изображений для систем технического зренияru_RU
dc.title.alternativeApproach to image analysis for computer vision systemsru_RU
dc.typeСтатьяru_RU
local.description.annotationThis paper suggests an approach to the semantic image analysis for application in computer vision systems. The aim of the work is to develop a method for automatically construction of a semantic model, that formalizes the spatial relationships between objects in the image and research thereof. A distinctive feature of this model is the detection of salient objects, due to which the construction algorithm analyzes significantly less relations between objects, which can greatly reduce the image processing time and the amount of resources spent for processing. Attention is paid to the selection of a neural network algorithm for object detection in an image, as a preliminary stage of model construction. Experiments were conducted on test datasets provided by Visual Genome database, developed by researchers from Stanford University to evaluate object detection algorithms, image captioning models, and other relevant image analysis tasks. When assessing the performance of the model, the accuracy of spatial relations recognition was evaluated. Further, the experiments on resulting model interpretation were conducted, namely image annotation, i.e. generating a textual description of the image content. The experimental results were compared with similar results obtained by means of the algorithm based on neural networks algorithm on the same dataset by other researchers, as well as by the author of this paper earlier. Up to 60 % improvement in image captioning quality (according to the METEOR metric) compared with neural network methods has been shown. In addition, the use of this model allows partial cleansing and normalization of data for training neural network architectures, which are widely used in image analysis among others. The prospects of using this technique in situational monitoring are considered. The disadvantages of this approach are some simplifications in the construction of the model, which will be taken into account in the further development of the model.-
Appears in Collections:№ 18(2)

Files in This Item:
File Description SizeFormat 
Iskra_Podkhod.pdf947.67 kBAdobe PDFView/Open
Show simple item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.