Skip navigation
Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/61401
Title: Оценка сходства между наборами данных с помощью векторных представлений
Other Titles: Assessing similarity between datasets using vector representations
Authors: Усатов, А. А.
Недзьведь, А. М.
Го Цзижань
Keywords: доклады БГУИР;набор данных;векторное представление;ResNet;сходство датасетов;глубокое обучение
Issue Date: 2025
Publisher: БГУИР
Citation: Усатов, А. А. Оценка сходства между наборами данных с помощью векторных представлений = Assessing similarity between datasets using vector representations / А. А. Усатов, А. М. Недзьведь, Го Цзижань // Доклады БГУИР. – 2025. – Т. 23, № 3. – С. 70–76.
Abstract: Рассмотрен подход к определению сходства наборов данных (датасетов) для обучения алгоритмов на примере датасетов с лицами людей. Такой подход позволяет находить похожие наборы данных из разных источников, расширяя детектирование признаков и классов и не нанося серьезного вреда балансировке. Для каждого объекта датасета получено векторное представление (эмбеддинг), затем выполнено сравнение эмбеддингов в обоих датасетах. Эксперименты проводились на примере датасетов с изображениями лиц людей. Для получения эмбеддингов использовалась предобученная сеть ResNet. В процессе исследований один датасет делился на две части, представляющие собой схожие датасеты, затем каждая из частей сравнивалась с отличающимся набором данных. Предлагается новая метрика сходства, которая обладает рядом преимуществ и позволяет находить наиболее похожие датасеты.
Alternative abstract: The article considers an approach to determining the similarity of datasets for training algorithms using datasets with human faces as an example. This approach allows finding similar datasets from different sources, expanding the detection of features and classes and significantly affecting dataset balance. For each dataset object, a vector representation (embedding) was obtained, then the embeddings in both datasets were compared. The experiments were conducted using datasets with images of human faces as an example. To obtain embeddings, a pretrained ResNet network was used. During the research, one dataset was divided into two parts, which were similar datasets, then each of the parts was compared with a different dataset. The new similarity metric is proposed, which has several advantages and allows to find the most similar datasets.
URI: https://libeldoc.bsuir.by/handle/123456789/61401
DOI: http://dx.doi.org/10.35596/1729-7648-2025-23-3-70-76
Appears in Collections:Том 23, № 3

Files in This Item:
File Description SizeFormat 
Usatov_Ocenka.pdf902.59 kBAdobe PDFView/Open
Show full item record Google Scholar

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.