Информационные системы


Об отделе

Сотрудники отдела специализируются на решении широкого круга задач управления данными и разработки информационных систем. Отдел состоит из нескольких научных групп, интересы которых включают разработку системного программного обеспечения для обработки и анализа данных, системы управления базами данных, технологии распределенной обработки больших данных, технологии облачных вычислений. Кроме того, отдел занимается разработкой алгоритмов статистического анализа данных и машинного обучения, а также программного обеспечения для решения прикладных задач. Ведутся работы по созданию программного обеспечения для интеллектуального анализа текстов, анализа социальных сетей, задач биоинформатики и обработки мультимедийных данных.

Основными направлениями работы научной группы являются разработка программных средств обработки естественного языка, анализа социальных сетей, а также систем анализа и обработки больших объемов данных.

Обработка естественного языка и анализ текстов

Обработка естественного языка (Natural Language Processing, NLP) – научная область на стыке информатики, искусственного интеллекта и лингвистики, изучающая проблемы компьютерного анализа и синтеза текстов и речи на естественных языках. NLP начинает свою историю одновременно с появлением первых компьютеров и в настоящее время демонстрирует очередной подъем, вызванный взрывным ростом вычислительных мощностей и доступной текстовой информации – как в виде «сырых» данных Веба, так и размеченных ресурсов, например Wikipedia или Freebase.
В области обработки естественного языка выделяется множество направлений; научные интересы сотрудников отдела Информационных систем наиболее близки следующим направлениям:

  • Семантический анализ текстов, включая семантическое аннотирование, разрешение лексической многозначности, выделение ключевых понятий, автоматическое извлечение баз знаний.
  • Информационный поиск, в том числе семантический поиск и исследовательский поиск.
  • Извлечение информации, в том числе, распознавание именованных сущностей, извлечение терминологии, разрешение кореферентности.
  • Анализ тональности текста.

Используемые методы обычно представляют собой комбинацию статистических (как правило, основанных на машинном обучении) и лингвистических. Учитывая природу современных текстовых и речевых данных, также используются методы из смежных областей, в том числе анализа социальных медиа и управления данными.

Анализ социальных сетей

Анализ социальных сетей - направление современной компьютерной социологии, которое занимается описанием и анализом возникающих в ходе социального взаимодействия и коммуникации связей (сетей) различной плотности и интенсивности. Особый интерес представляет исследование данных пользователей онлайновых социальных сетей (вКонтакте, Facebook, Twitter, YouTube и другие), которые к настоящему моменту стали неотъемлемой частью Сети. В современных социальных графах сочетаются различные типы узлов и рёбер, а также разнообразные источники текстовых, графовых, мультимедийных и других типов пользовательских данных.
В ИСП РАН разработан стек технологий для анализа пользовательских данных из социальных сетей, основными компонентами которого являются следующие оригинальные методы:

  • Поиск неявных сообществ пользователей на основе социальных связей между ними.
  • Идентификация пользователей различных социальных сетей: поиск различных вариантов виртуальных личностей одного и того же пользователя в нескольких социальных сетях.
  • Определение демографических атрибутов пользователей (пол, возраст, религиозные и политические взгляды, семейное положение и уровень образования) с помощью лингвистического анализа текстов их сообщений.
  • Измерение информационного влияния между пользователями в социальных сетях с ориентированными связями и преобладанием текстового содержимого.
  • Генерация случайных графов, обладающих основными свойствами социальных сетей и заданной структурой сообществ пользователей. Для каждого пользователя осуществляется генерация атрибутов профиля, социальных связей, сообществ и текстовых сообщений.
  • Сбор пользовательских данных из социальных сервисов.

В разработанных технологиях находят применение методы машинного обучения, вероятностное моделирование, графовые алгоритмы, методы обработки текста на естественном языке, а также современные технологии для распределённого хранения и анализа больших массивов данных. В большинстве методов сочетается анализ сетевых данных (социальные связи между пользователями) и текстовых данных (сообщения и профили пользователей).

Инфраструктура для анализа и обработки больших данных

В настоящее время одной из наиболее острых проблем, стоящих перед человечеством, является разработка эффективных методов хранения, обработки и анализа стремительно растущего объема данных (англ. Big Data). Например, пользователями социальной сети Facebook ежедневно загружается 83 миллиона изображений на 200-400 Тб, а Google обрабатывает более 25 петабайт в день. Общее количество данных удваивается каждые полтора года. При этом данные приходят из различных источников, не имеют общей схемы, семантически и синтаксически не консистентны.
Это привело к тому, что за последнее десятилетие отношение к данным изменилось. В отличие от прошлого века, когда данные представляли самостоятельную ценность и часто засекречивались, сейчас большинство данных доступно каждому. А преимуществом обладают те организации, которые научились максимизировать их ценность путем извлечения высококачественной и своевременной информации.
Исследования по обработки больших данных ведутся на основе открытого стека технологий Apache. Центральной площадкой в области свободного ПО для управления данными является проект Apache Hadoop - свободное ПО для надежных масштабируемых распределенных вычислений. Вокруг этого проекта создаются специализированные системы для хранения и обработки больших данных. Одним из наиболее перспективных проектов является Apache Spark, позволяющий существенно ускорить обработку данных. Сотрудники отдела принимают активное участие в развитии этого проекта.

Контакты

Турдаков Денис, к.ф.-м.н., заведующий отделом.
E-mail: turdakov@ispras.ru
Телефон: +7(495) 912-56-59 (доб. 461).

Кузнецов Сергей Дмитриевич, д.т.н., главный научный сотрудник.
E-mail: kuzloc@ispras.ru
Телефон: +7(495) 912-56-59 (доб. 412).