Оценка сходства между наборами данных с помощью векторных представлений

Усатов, А. А.; Недзьведь, А. М.; Го Цзижань

Full metadata record

DC Field	Value	Language
dc.contributor.author	Усатов, А. А.	-
dc.contributor.author	Недзьведь, А. М.	-
dc.contributor.author	Го Цзижань	-
dc.date.accessioned	2025-08-18T06:46:21Z	-
dc.date.available	2025-08-18T06:46:21Z	-
dc.date.issued	2025	-
dc.identifier.citation	Усатов, А. А. Оценка сходства между наборами данных с помощью векторных представлений = Assessing similarity between datasets using vector representations / А. А. Усатов, А. М. Недзьведь, Го Цзижань // Доклады БГУИР. – 2025. – Т. 23, № 3. – С. 70–76.	en_US
dc.identifier.uri	https://libeldoc.bsuir.by/handle/123456789/61401	-
dc.description.abstract	Рассмотрен подход к определению сходства наборов данных (датасетов) для обучения алгоритмов на примере датасетов с лицами людей. Такой подход позволяет находить похожие наборы данных из разных источников, расширяя детектирование признаков и классов и не нанося серьезного вреда балансировке. Для каждого объекта датасета получено векторное представление (эмбеддинг), затем выполнено сравнение эмбеддингов в обоих датасетах. Эксперименты проводились на примере датасетов с изображениями лиц людей. Для получения эмбеддингов использовалась предобученная сеть ResNet. В процессе исследований один датасет делился на две части, представляющие собой схожие датасеты, затем каждая из частей сравнивалась с отличающимся набором данных. Предлагается новая метрика сходства, которая обладает рядом преимуществ и позволяет находить наиболее похожие датасеты.	en_US
dc.language.iso	ru	en_US
dc.publisher	БГУИР	en_US
dc.subject	доклады БГУИР	en_US
dc.subject	набор данных	en_US
dc.subject	векторное представление	en_US
dc.subject	ResNet	en_US
dc.subject	сходство датасетов	en_US
dc.subject	глубокое обучение	en_US
dc.title	Оценка сходства между наборами данных с помощью векторных представлений	en_US
dc.title.alternative	Assessing similarity between datasets using vector representations	en_US
dc.type	Article	en_US
dc.identifier.DOI	http://dx.doi.org/10.35596/1729-7648-2025-23-3-70-76	-
local.description.annotation	The article considers an approach to determining the similarity of datasets for training algorithms using datasets with human faces as an example. This approach allows finding similar datasets from different sources, expanding the detection of features and classes and significantly affecting dataset balance. For each dataset object, a vector representation (embedding) was obtained, then the embeddings in both datasets were compared. The experiments were conducted using datasets with images of human faces as an example. To obtain embeddings, a pretrained ResNet network was used. During the research, one dataset was divided into two parts, which were similar datasets, then each of the parts was compared with a different dataset. The new similarity metric is proposed, which has several advantages and allows to find the most similar datasets.	en_US
Appears in Collections:	Том 23, № 3