Abstract: | Текущий период развития человечества называют «информационным веком», т. к. окружающий нас мир как никогда прежде наполнен информацией, наиболее распространенной искусственной формой которой является текстовая. Повышение доступности вычислительных и оптических устройств сделало возможным ее автоматический анализ. Достигнутые в этой области отечественные результаты все еще недостаточны, и главным образом базируются на зарубежных прототипах, имеющих высокую коммерческую стоимость наряду со сложностью получения их пакетных тестовых версий. Кроме того, основным условием эффективности внедрений зачастую является ориентация разработчиков на получение частных решений с учетом предполагаемых ограничений характеристик входных данных: шрифтовые и рукопечатные образы; изображения, создаваемые специальным оборудованием либо в специальных условиях, и др. Но данный подход не позволяет достичь приемлемых результатов в целом ряде областей, начиная от обработки документов с различными способами синтеза текстовых образов, заканчивая робототехникой. При этом методы классической парадигмы OCR (optical character recognition, оптическое распознавание образов) в своей базовой реализации не могут использоваться для обработки изображений реальных сцен ввиду большого разнообразия композиции и средств форматирования текста. Данные факторы обосновывают актуальность создания новых методик и алгоритмов, повышения адаптивности существующих методов, построения эффективных программных средств анализа текстовых данных. |