Информационные системы


Собственные технологии

TEXTERRA. Технология автоматического построения онтологий и семантического анализа текста

Основной сложностью семантического анализа текстов является многозначность естественного языка: одни и те же слова могут иметь различные значения в зависимости от контекста. В общем случае понимание контекста предполагает наличие базы знаний о реальном мире. При этом конструирование таких баз знаний или онтологий экспертами является чрезвычайно трудоемкой задачей. Технология Texterra представляет инструменты для автоматического извлечения баз знаний из частично структурированных ресурсов таких, как Википедия и Викиданные, и инструменты семантического анализа текстов, использующие эти знания.

TALISMAN. Технология анализа социальных медиа-сервисов

Для анализа социальных медиа в ИСП РАН был разработан ряд оригинальных методов, которые были объединены в технологию, получившую название TALISMAN. В отличие от большинства существующих решений для социальной аналитики, технология TALISMAN изначально была нацелена на работу с большими данными, и использует наиболее перспективные открытые решения из стека технологий Big Data: Apache Spark, GraphX, MLLib и др.

Решения на базе свободного ПО и собственных разработок ИСП РАН для организации облачных сред, предоставляющих инфраструктурные ресурсы по запросу

Использование облачной инфраструктуры позволяет сэкономить машинное время и время разработчиков за счет оптимизации использования ресурсов и сокращения времени на создание и настройку систем. Например, для Веб-сервисов с большим числом пользователей, нагрузка может радикально меняться в зависимости от времени суток, времени года и событий. За счет эластичной балансировки ресурсов в облачных средах можно сэкономить огромное количество ресурсов. Облачная инфраструктура ИСП РАН состоит из нескольких частей, основанных на наиболее перспективных системах, предоставляющих функции виртуализации и надежного хранения.

API Gateway - платформа для эффективной балансировки нагрузки

API Gateway представляет платформу, предназначенную для эффективной балансировки нагрузки между вычислительными узлами и защиты от злоупотребления ресурсами.

Noon - инфраструктура для семантического поиска и исследования предметно-специфичной информации

Noon - набор инструментов для быстрой разработки предметно-ориентированных семантических поисковых и навигационных систем.

Sedna - прирожденная XML-СУБД

Полнофункциональная система управления базами данных, спроектированная специально для работы с XML-данными, с поддержкой языка W3C XQuery. XML — стандарт для хранения и обмена информацией в Вебе.

Технологии на основе свободного ПО

Apache Spark - платформа для обработки больших данных

Большинство организаций, сталкивающихся с необходимостью обработки больших объемов данных, используют для этих целей свободные проекты экосистемы Apache Hadoop. Основой для создания Apache Hadoop послужила разработанная компанией Google парадигма параллельного программирования MapReduce. Основные достоинства MapReduce - масштабируемость, простота использования, устойчивость к сбоям. Однако реализация MapReduce в Hadoop обладает рядом недостатков, основным из которых является низкая производительность при решении итеративных алгоритмов (например, машинного обучения). Для решения этой проблемы в университете Беркли была разработана модель для организации распределенных вычислений, основанная на понятии устойчивой к сбоям распределенной коллекции данных (RDD).