| DC Field | Value | Language |
| dc.contributor.author | Венгеренко, В. В. | - |
| dc.coverage.spatial | Минск | en_US |
| dc.date.accessioned | 2026-05-05T06:03:50Z | - |
| dc.date.available | 2026-05-05T06:03:50Z | - |
| dc.date.issued | 2026 | - |
| dc.identifier.citation | Венгеренко, В. В. Применение VLM для анализа визуальных сцен = Application of VLM for visual scene analysis / В. В. Венгеренко // Big Data и анализ высокого уровня = Big Data and Advanced Analytics : сборник научных статей XII Международной научно-практической конференции, Республика Беларусь, Минск, 23 апреля 2026 года : в 2 ч. Ч. 1 / Белорусский государственный университет информатики и радиоэлектроники [и др.] ; редкол.: В. А. Богуш [и др.]. – Минск, 2026. – С. 280–289. | en_US |
| dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/63538 | - |
| dc.description.abstract | Визуально-языковые модели (Vision-Language Models. VLM) представляют собой
сложное достижение в области искусственного интеллекта (ИИ, Artificial Intelligence, AI), объединяющее
возможности как компьютерного зрения (Computer Vision, CV), так и обработки естественного языка (Natural
Language Processing, NLP) для обеспечения более целостного понимания данных. В отличие от традиционных
моделей, которые фокусируются на одном типе входных данных - визуальном или текстовом, - VLM
предназначены для обработки и понимания мультимодальных данных, объединяя визуальную и текстовую
информацию для формирования более содержательных выводов.
Цель работы - определить особенности использования VLM для анализа визуальных сцен.
Рассмотрены ключевые компоненты VLM. Исследованы существующие подходы к анализу
визуальных сцен на основе VLM. Выполнен обзор методов оценки качества таких моделей. | en_US |
| dc.language.iso | ru | en_US |
| dc.publisher | БГУИР | en_US |
| dc.subject | материалы конференций | en_US |
| dc.subject | Big Data | en_US |
| dc.subject | информационные системы | en_US |
| dc.subject | искусственный интеллект | en_US |
| dc.subject | глубокое обучение | en_US |
| dc.subject | языковые модели | en_US |
| dc.subject | модальность | en_US |
| dc.subject | токены | en_US |
| dc.title | Применение VLM для анализа визуальных сцен | en_US |
| dc.title.alternative | Application of VLM for visual scene analysis | en_US |
| dc.type | Article | en_US |
| local.description.annotation | Vision-Language Models (VLMs) represent a sophisticated advancement in artificial intelligence, integrating the capabilities of both computer vision and natural language processing (NLP) to provide a more holistic understanding of data. Unlike traditional models that focus on a single type of input - either visual or textual - VLMs are designed to process and understand multimodal data, combining visual and textual information to generate richer insights.
The purpose of the research is to determine the specifics of using VLMs for visual scene analysis.
The key components of VLMs are examined. The existing approaches to the visual scene analysis based on VLMs are investigated. A review of methods for evaluating the quality of such models is performed. | en_US |
| Appears in Collections: | BIG DATA and Advanced Analytics = BIG DATA и анализ высокого уровня : сборник научных статей : в 2 ч. (2026)
|