DC Field | Value | Language |
dc.contributor.author | Усатов, А. А. | - |
dc.contributor.author | Недзьведь, А. М. | - |
dc.contributor.author | Го Цзижань | - |
dc.date.accessioned | 2025-08-18T06:46:21Z | - |
dc.date.available | 2025-08-18T06:46:21Z | - |
dc.date.issued | 2025 | - |
dc.identifier.citation | Усатов, А. А. Оценка сходства между наборами данных с помощью векторных представлений = Assessing similarity between datasets using vector representations / А. А. Усатов, А. М. Недзьведь, Го Цзижань // Доклады БГУИР. – 2025. – Т. 23, № 3. – С. 70–76. | en_US |
dc.identifier.uri | https://libeldoc.bsuir.by/handle/123456789/61401 | - |
dc.description.abstract | Рассмотрен подход к определению сходства наборов данных (датасетов) для обучения алгоритмов на примере датасетов с лицами людей. Такой подход позволяет находить похожие наборы данных
из разных источников, расширяя детектирование признаков и классов и не нанося серьезного вреда балансировке. Для каждого объекта датасета получено векторное представление (эмбеддинг), затем выполнено
сравнение эмбеддингов в обоих датасетах. Эксперименты проводились на примере датасетов с изображениями лиц людей. Для получения эмбеддингов использовалась предобученная сеть ResNet. В процессе
исследований один датасет делился на две части, представляющие собой схожие датасеты, затем каждая
из частей сравнивалась с отличающимся набором данных. Предлагается новая метрика сходства, которая
обладает рядом преимуществ и позволяет находить наиболее похожие датасеты. | en_US |
dc.language.iso | ru | en_US |
dc.publisher | БГУИР | en_US |
dc.subject | доклады БГУИР | en_US |
dc.subject | набор данных | en_US |
dc.subject | векторное представление | en_US |
dc.subject | ResNet | en_US |
dc.subject | сходство датасетов | en_US |
dc.subject | глубокое обучение | en_US |
dc.title | Оценка сходства между наборами данных с помощью векторных представлений | en_US |
dc.title.alternative | Assessing similarity between datasets using vector representations | en_US |
dc.type | Article | en_US |
dc.identifier.DOI | http://dx.doi.org/10.35596/1729-7648-2025-23-3-70-76 | - |
local.description.annotation | The article considers an approach to determining the similarity of datasets for training algorithms using
datasets with human faces as an example. This approach allows finding similar datasets from different sources,
expanding the detection of features and classes and significantly affecting dataset balance. For each dataset object,
a vector representation (embedding) was obtained, then the embeddings in both datasets were compared. The experiments
were conducted using datasets with images of human faces as an example. To obtain embeddings, a pretrained
ResNet network was used. During the research, one dataset was divided into two parts, which were similar
datasets, then each of the parts was compared with a different dataset. The new similarity metric is proposed, which
has several advantages and allows to find the most similar datasets. | en_US |
Appears in Collections: | Том 23, № 3
|