Аннотация: Основную часть знаний аналитики получают в результате сравнения, анализа и синтеза информации из разрозненных фактов, размещенных в текстах. При работе с большими потоками документов процесс автоматического структурирования текстовой информации заменяет экспертный процесс выделения фактов и объектов, выполняемый вручную. В статье рассматриваются примеры использования новых технологий извлечения знаний из текстов на русском языке, ориентированных на работу с большими хранилищами данных.
До 85% новых знаний аналитики до сих пор получают, изучая тексты. В ближайшем будущем наиболее востребованными станут системы с максимально автоматизированными ETL-процессами структурирования контента (extract, transfer, load — «извлечение, преобразование, загрузка»). Важной чертой таких систем будет функция оперативного анализа информации, полученной по запросу для выбора дальнейшего направления исследования документов (автопилотирование направления исследования), выполняемой с помощью методов интеллектуального анализа текста.
В работе с рубрикатором действуют следующие правила:
при выборе раздела, содержащего другие подрубрики, будут выведены публикации на запрошенную тему или на любую из подрубрик выбранного раздела;
при выборе нескольких тем, будут выведены публикации, написанные одновременно на все эти темы. Например, при выборе тем Windows 95 и Windows 98, будут показаны только те публикации, которые написаны одновременно и на тему Windows 95, и на тему Windows 98, например, статьи, посвящённые сравнению этих двух операционных систем.