Применение VLM для анализа визуальных сцен

Венгеренко, В. В.

Full metadata record

DC Field	Value	Language
dc.contributor.author	Венгеренко, В. В.	-
dc.coverage.spatial	Минск	en_US
dc.date.accessioned	2026-05-05T06:03:50Z	-
dc.date.available	2026-05-05T06:03:50Z	-
dc.date.issued	2026	-
dc.identifier.citation	Венгеренко, В. В. Применение VLM для анализа визуальных сцен = Application of VLM for visual scene analysis / В. В. Венгеренко // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 271–280.	en_US
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/63538	-
dc.description.abstract	Визуально-языковые модели (Vision-Language Models. VLM) представляют собой сложное достижение в области искусственного интеллекта (ИИ, Artificial Intelligence, AI), объединяющее возможности как компьютерного зрения (Computer Vision, CV), так и обработки естественного языка (Natural Language Processing, NLP) для обеспечения более целостного понимания данных. В отличие от традиционных моделей, которые фокусируются на одном типе входных данных - визуальном или текстовом, - VLM предназначены для обработки и понимания мультимодальных данных, объединяя визуальную и текстовую информацию для формирования более содержательных выводов. Цель работы - определить особенности использования VLM для анализа визуальных сцен. Рассмотрены ключевые компоненты VLM. Исследованы существующие подходы к анализу визуальных сцен на основе VLM. Выполнен обзор методов оценки качества таких моделей.	en_US
dc.language.iso	ru	en_US
dc.publisher	БГУИР	en_US
dc.subject	материалы конференций	en_US
dc.subject	Big Data	en_US
dc.subject	информационные системы	en_US
dc.subject	искусственный интеллект	en_US
dc.subject	глубокое обучение	en_US
dc.subject	языковые модели	en_US
dc.subject	модальность	en_US
dc.subject	токены	en_US
dc.title	Применение VLM для анализа визуальных сцен	en_US
dc.title.alternative	Application of VLM for visual scene analysis	en_US
dc.type	Article	en_US
local.description.annotation	Vision-Language Models (VLMs) represent a sophisticated advancement in artificial intelligence, integrating the capabilities of both computer vision and natural language processing (NLP) to provide a more holistic understanding of data. Unlike traditional models that focus on a single type of input - either visual or textual - VLMs are designed to process and understand multimodal data, combining visual and textual information to generate richer insights. The purpose of the research is to determine the specifics of using VLMs for visual scene analysis. The key components of VLMs are examined. The existing approaches to the visual scene analysis based on VLMs are investigated. A review of methods for evaluating the quality of such models is performed.	en_US
Appears in Collections:	BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)