https://libeldoc.bsuir.by/handle/123456789/12030
Title: | Automatic Multilingual Web Documents Metadata Extraction |
Other Titles: | Автоматическое извлечение метаданных многоязычных веб-документов |
Authors: | Mukhamedshin, D. R. Kurmanbakiev, M. I. Gataullin, R. R. |
Keywords: | материалы конференций;metadata;data mining;web content mining;information retrieval |
Issue Date: | 2017 |
Publisher: | БГУИР |
Citation: | Mukhamedshin, D. R. Automatic Multilingual Web Documents Metadata Extract / D. R. Mukhamedshin, M. I. Kurmanbakiev, R. R. Gataullin // Открытые семантические технологии проектирования интеллектуальных систем = Open Semantic Technologies for Intelligent Systems (OSTIS-2017) : материалы международной научно-технической конференции (Минск, 16 - 18 февраля 2017 года) / редкол. : В. В. Голенков (отв. ред.) [и др.]. – Минск : БГУИР, 2017. – С. 393 – 396. |
Abstract: | This article describes the experience of robot devel- opment that crawls multilingual web documents, their language identification and extracting the metadata based on the metadata model of corpus manager of the electronic corpus of Tatar language “Tugan Tel”. |
Alternative abstract: | В данной статье рассказывается об опыте разработки робота для обхода многоязычных веб-документов, определении их языка и извлечении метаданных на основе модели метаданных в корпус-менеджере электронного корпуса татарского языка Туган Телл. В разделе II описывается структура и модель представления метаданных, применяемая в корпус-менеджере. Раздел III раскрывает информацию о необходимых для работы робота технических метаданных. В разделе IV рассказано о дополнительных метаданных, которые могут быть извлечены из веб-документов. V раздел включает в себя описание процесса сбора URI для обхода роботом, метод распознавания языка веб-документа, описание процесса обхода веб-документов и извлечения Метаданных. |
URI: | https://libeldoc.bsuir.by/handle/123456789/12030 |
Appears in Collections: | OSTIS-2017 |
File | Description | Size | Format | |
---|---|---|---|---|
Mukhamedshin_Automatic.PDF | 281.73 kB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.