Как правило, для оперативной обработки информации используются следующие источники:
Данные источники публикуют информацию по любым тематикам, поэтому основной задачей оперативной обработки информации является выделение представляющих интерес информационных материалов из общего потока. Соответственно, результатом оперативной обработки информации является подборка информационных материалов за определенный период времени (как правило, за сутки и за неделю) по требуемой тематике.
Регулярный сбор и оперативная обработка информационных материалов позволяет решать следующие задачи:
Поступающие в систему из различных источников материалы (Печатная пресса, Интернет-СМИ, блоги, ленты информационных агентств) обрабатываются лингвистическим процессором и помещаются в общую базу данных. В дальнейшем происходит выделение документов, соответствующих заранее заданным Пользователем критериям отбора. Пользователю предоставляются автоматически отобранные по заданным тематикам статьи, которые он по своему усмотрению помещает в дайджест. Дайджест может также генерироваться в автоматическом режиме.
Результаты мониторинга предоставляются системой в виде дайджеста/обзора в формате Microsoft Word, PDF, XML. Автоматически сформированный дайджест может по заранее заданному расписанию отсылаться по электронной почте одному или нескольким получателям.
Построение дайджестов осуществляется регулярно с установленной периодичностью (как правило, за сутки). В дайджест помещаются все соответствующие его рубрикам материалы за прошедший промежуток времени (за последние сутки), с разбиением их в соответствии с рубриками.
Начальное формирование дайджестов осуществляется автоматически, окончательный контроль и доработка дайджеста выполняется специалистом.
Аннотации по информационным материалам строятся за более длительный промежуток времени, чем дайджесты (как правило, за неделю). Начальное формирование аннотаций выполняется автоматически на основании набора дайджестов за требуемый период времени, окончательный контроль и доработка аннотаций выполняется специалистом.
Процедура мониторинга источников информации предполагает отражение процесса поступления информационных материалов.
Процедура мониторинга представляет собой регулярное автоматическое построение информационных подборок со следующими условиями:
Результаты мониторинга могут отображаться в табличном виде или в виде графиков, гистограмм, позволяя получать интегрированную картину динамики поступления информационных материалов по определенным тематикам.
В качестве примера можно взять еженедельный мониторинг статей определенного автора в определенном источнике. В данном случае «автор» и «определенный источник» являются атрибутами документа.
Программная структура системы мониторинга базируется на современной многозвенной архитектуре и позволяет системе органично встраиваться в существующую вычислительную среду, обеспечивая необходимый уровень производительности и надёжности. В зависимости от количества пользователей и решаемых системой задач, может осуществляться распределение нагрузки по различным серверам: серверы приложений, баз данных, лингвистического анализа, генерации отчётов и пр.
Доступ пользователя к системе происходит через окно браузера по технологии «тонкого клиента». Для этого в системе предусмотрен информационный портал, обеспечивающий персонификацию данных пользователей и индивидуальные настройки интерфейса.
Варианты использования системы:
Лингвистический процессор основывается на успешно развивающихся уже более 30 лет технологиях компьютерной лингвистики, берущих своё начало в ВПК СССР и позволяет с высокой скоростью производить интеллектуальную обработку поступающих в систему материалов.
Изначально наша система рассматривается как интеграционный продукт, объединяющий имеющиеся информационные ресурсы заказчика с целью их обработки и получения качественно-новых знаний. Поэтому МедиаМониторинг базируется на открытых стандартах и способен взаимодействовать со смежными системами как на уровне данных, так и в различных форматах синхронного и асинхронного взаимодействия.
Вся информация в системе имеет представление в формате xml и может быть выгружена в файл, или передана в нужную веб-службу (web-service).