Применение VLM для анализа визуальных сцен

Венгеренко, В. В.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63538

Title:	Применение VLM для анализа визуальных сцен
Other Titles:	Application of VLM for visual scene analysis
Authors:	Венгеренко, В. В.
Keywords:	материалы конференций;Big Data;информационные системы;искусственный интеллект;глубокое обучение;языковые модели;модальность;токены
Issue Date:	2026
Publisher:	БГУИР
Citation:	Венгеренко, В. В. Применение VLM для анализа визуальных сцен = Application of VLM for visual scene analysis / В. В. Венгеренко // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 271–280.
Abstract:	Визуально-языковые модели (Vision-Language Models. VLM) представляют собой сложное достижение в области искусственного интеллекта (ИИ, Artificial Intelligence, AI), объединяющее возможности как компьютерного зрения (Computer Vision, CV), так и обработки естественного языка (Natural Language Processing, NLP) для обеспечения более целостного понимания данных. В отличие от традиционных моделей, которые фокусируются на одном типе входных данных - визуальном или текстовом, - VLM предназначены для обработки и понимания мультимодальных данных, объединяя визуальную и текстовую информацию для формирования более содержательных выводов. Цель работы - определить особенности использования VLM для анализа визуальных сцен. Рассмотрены ключевые компоненты VLM. Исследованы существующие подходы к анализу визуальных сцен на основе VLM. Выполнен обзор методов оценки качества таких моделей.
Alternative abstract:	Vision-Language Models (VLMs) represent a sophisticated advancement in artificial intelligence, integrating the capabilities of both computer vision and natural language processing (NLP) to provide a more holistic understanding of data. Unlike traditional models that focus on a single type of input - either visual or textual - VLMs are designed to process and understand multimodal data, combining visual and textual information to generate richer insights. The purpose of the research is to determine the specifics of using VLMs for visual scene analysis. The key components of VLMs are examined. The existing approaches to the visual scene analysis based on VLMs are investigated. A review of methods for evaluating the quality of such models is performed.
URI:	https://libeldoc.bsuir.by/handle/123456789/63538
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)

Files in This Item:

File	Description	Size	Format
Vengerenko_Primenenie.pdf		2.34 MB	Adobe PDF	View/Open

Show full item record Google Scholar