Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения

Петров, С. Н.; Мяделец, А. О.; Кундас, Е. В.

Please use this identifier to cite or link to this item: https://libeldoc.bsuir.by/handle/123456789/63013

Title:	Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения
Other Titles:	Software module for detecting fraudulent websites using classification based on machine learning methods
Authors:	Петров, С. Н. Мяделец, А. О. Кундас, Е. В.
Keywords:	публикации ученых;фишинговые сайты;мошенничество;машинное обучение;классификация;датасеты
Issue Date:	2025
Publisher:	Объединенный институт проблем информатики НАН Беларуси
Citation:	Петров, С. Н. Программный модуль для детектирования мошеннических веб-сайтов с использованием классификации на основе методов машинного обучения = Software module for detecting fraudulent websites using classification based on machine learning methods / С. Н. Петров, А. О. Мяделец, Е. В. Кундас // Информатика. – 2025. − Т. 22, № 3. – С. 83–94.
Abstract:	Целью исследования является разработка программного модуля для автоматического выявления фишинговых веб-сайтов с использованием алгоритмов машинного обучения для классификации сайтов. Методы. Для достижения поставленной цели проведен анализ существующих датасетов, содержащих URL-адреса фишинговых сайтов, а также изучены датасеты для обработки естественного языка. Это позволило определить ключевые признаки, характерные для мошеннических ресурсов. Были созданы два набора данных (размерами 18,9 Мб и 1,08 Гб), включающих признаки URL и текстовое наполнение веб-страниц, с использованием разработанного парсера. Для классификации веб-ресурсов применялись алгоритмы машинного обучения, такие как SVM, Random Forest, Logistic Regression и Multilayer Perceptron (MLP). Также изучены возможности использования языковой модели TinyBERT для анализа текстового содержимого. Разработанный программный модуль был протестирован и продемонстрировал высокую эффективность в задачах классификации фишинговых сайтов. Теоретическая значимость работы заключается в применении современных алгоритмов машинного обучения для анализа текстового контента и URL. Практическая значимость заключается в создании готового решения для выявления фишинговых сайтов в реальном времени.
Alternative abstract:	The aim of this study is to develop a software module for the automatic detection of phishing websites using machine learning algorithms for website classification. Methods. To achieve this goal, an analysis of existing datasets containing phishing website URLs was conducted, as well as datasets for natural language processing. This allowed us to identify key features characteristic of fraudulent resources. Two datasets (18.9 MB and 1.08 GB in size) were created, including URL features and the text content of web pages, using the developed parser. Machine learning algorithms such as SVM, Random Forest, Logistic Regression, and Multilayer Perceptron (MLP) were used to classify web resources. The possibilities of using the TinyBERT language model for text content analysis were also studied. The developed software module was tested and demonstrated high efficiency in phishing website classification tasks. The theoretical significance of the study lies in the application of modern machine learning algorithms to the analysis of text content and URLs. The practical significance lies in the creation of a ready-made solution for identifying phishing sites in real time.
URI:	https://libeldoc.bsuir.by/handle/123456789/63013
DOI:	10.37661/1816-0301-2025-22-3-83-94
Appears in Collections:	Публикации в изданиях Республики Беларусь

Files in This Item:

File	Description	Size	Format
Petrov_Programmnyj.pdf		1.04 MB	Adobe PDF	View/Open

Show full item record Google Scholar