https://libeldoc.bsuir.by/handle/123456789/62173| Title: | Анализ текстового содержимого главной страницы веб-сайта для определения его тематики при помощи LLM |
| Authors: | Нестеренков, С. Н. Лазук, И. С. |
| Keywords: | материалы конференций;большие языковые модели;веб-ресурсы;LLM |
| Issue Date: | 2025 |
| Publisher: | БГУИР |
| Citation: | Нестеренков, С. Н. Анализ текстового содержимого главной страницы веб-сайта для определения его тематики при помощи LLM / С. Н. Нестеренков, И. С. Лазук // Информационные технологии и системы 2025 (ИТС 2025) : материалы Международной научной конференции, Минск, 19 ноября 2025 / Белорусский государственный университет информатики и радиоэлектроники ; редкол.: Л. Ю. Шилин [и др.]. – Минск, 2025. – С. 219–220. |
| Abstract: | Работа посвящена задаче автоматического определения тематики веб-сайтов по тексту их главной страницы. Предложена методика, включающая сбор HTML-контента, извлечение основного текста, предобработку, применение больших языковых моделей (LLM) в режимах zero/few-shot и приёмы стабилизации ответов. Представлены экспериментально-гипотетические результаты сравнения различных LLM (G PT-4 от OpenAI, YandexGPT, DeepSeek) и режимов их использования на главных страницах веб-ресурсов. Обсуждаются ограничения, связанные с вёрсткой, мультимедийностью, использованием нескольких языков, предлагаются направления дальнейших исследований. |
| URI: | https://libeldoc.bsuir.by/handle/123456789/62173 |
| Appears in Collections: | ИТС 2025 |
| File | Description | Size | Format | |
|---|---|---|---|---|
| Nesterenkov_Analiz.pdf | 152.21 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.