ЮниДата Платформа управления данными

Продукт
Разработчики: ЮниДата (UniData)
Дата последнего релиза: 2018/02/13
Технологии: MDM - Master Data Management - Управление основными мастер-данными

Содержание

Платформа управления данными «Юнидата» — флагманский продукт компании «Юнидата», основанный на современном технологическом стэке свободного программного обеспечения (СПО). Переход к концепции продуктовой платформы, поддерживающей возможность расширения базовой логики и использования адаптивных модулей, позволил создать одно из самых мощных и эффективных мировых решений по управлению данными в мире.

Единая дорожная карта развития продукта опирается на современные тренды развития отрасли в области управления данными (Data Governance), обеспечения качества данных (DQ) и работы с нормативно-справочной информацией (НСИ), а также на новые технологии и способы обработки больших массивов данных. Впроцессе разработки и тестирования ПО используются современные подходы, которые развиваются и совершенствуются каждый день.

В целом «Юнидата» представляет собой многофункциональную платформу для построения на ее основе систем управления корпоративными данными, обеспечивающих:

  • централизованный сбор данных (инвентаризация и учет ресурсов),
  • стандартизацию сведений (нормализация и обогащение),
  • учет текущей и исторической информации (контроль версий записи, периоды актуальности данных),
  • качество данных и ведение статистики.

Спектр решений для разных нужд весьма широк: это и работа с контрагентами, и работа с кадрами, и материально-техническое обеспечение, и работа с номенклатурой, и создание клиентских баз.

Сфера применения также очень обширна: государственное управление, транспорт, промышленность, финансы, энергетика, розничная и оптовая продажа товаров и услуг, нефтегазовая отрасль транспорт, фармацевтика.

2018

Обновление до версии 4.7

Компания «Юнидата», российский разработчик программного обеспечения, объявила в феврале 2018 года об обновлении платформы «Юнидата» до версии 4.7.

По словам разработчиков, обновление включает в себя ряд объемных изменений. Расширен функционал импорта данных. Загрузка данных теперь может производиться не только полным архивом, но и частично. Например, могут быть загружены только связи. Задача импорта теперь поддерживает два режима работы, один из которых оптимален для больших объемов данных (от 3-5 млн. записей), а второй — для средних объемов.

Изменились и алгоритмы работы с данными. Основная сущность платформы — модель данных — теперь редактируется в режиме черновика, что позволяет делать множество предварительных изменений в безопасном режиме, а потом публиковать их. При сравнении записей доступна информация о предыдущем значении атрибута, что упрощает решение конфликтов записей. Появилась возможность автоматически выявлять и объединять записи-дубликаты. Объединенные записи при необходимости можно разделить.

Возможности интеграции позволяют настраивать пользовательский интерфейс под нужды клиента и применять точки расширения к поисковым операциям и связям. Также расширена интеграция с внешними системами разграничения прав доступа, что позволяет использовать нестандартные способы авторизации, например, при помощи технологии единого входа.

Для удобства администрирования параметры конфигурации платформы стали доступны в приложении. Помимо прочего, множество исправлений были направлены на упрощение и оптимизацию взаимодействия пользователей с интерфейсом.

2017

Обновление до версии 4.7 High Performance Edition

Компания «Юнидата», российский разработчик программного обеспечения, объявила 15 декабря 2017 года о выпуске редакции одноименной платформы — «Юнидата» 4.7 HPE (High Performance Edition).

Данная редакция предназначена для построения систем управления данными крупных корпораций и предприятий с высокими требованиями как по объему данных (от 100 миллионов записей и выше), так и по скорости работы с ними. Представленная редакция платформы включает в себя дополнительные модули по мониторингу, производительности отдельных компонентов и самого решения целиком, скорости обработки данных в пакетных и онлайн-режимах. Добавлены модули по информированию администратора об отклонениях текущих метрик от целевых, специализированные модули пакетной обработки, предназначенные для больших объемов данных, а также детализированные инструкции по построению и обслуживанию высоконагруженных систем управления основными данными.

«
Во время начала разработки платформы «Юнидата», мы провели большой объем исследований современного в тот момент ландшафта MDM-решений и, самое главное, ожидаемых требований бизнеса в горизонте 2, 5 и 10 лет, — пояснил главный архитектор платформы Алексей Цырюльников. — Стало ясно, что существующие подходы себя исчерпывают, и будущее — за гибридными техниками — сочетанием зарекомендовавших себя современных технологий, таких как NoSQL, поисковые индексы, горизонтальное масштабирование stateless архитектуры, документ-ориентированные и графовые базы данных, in-memory вычисления и традиционные реляционные СУБД. Таким образом, нам нужно было нивелировать недостатки каждой из технологий достоинствами других подходов и технологий. Данный подход был широко использован при разработке платформы и всецело оправдал себя, что было наглядно продемонстрировано летом 2017 года на релизе 4.5, когда платформа успешно прошла испытания на 1 миллиарде записей.
»

«
С релизом 4.5 был наглядно продемонстрирован верный подход к поддержке высоконагруженных систем, — считает генеральный директор «Юнидаты» Сергей Кузнецов. — Но, как известно, достижение рекордных показателей не является достаточным условием и доказательством применимости для промышленного использования. И перед собой мы поставили задачу создания специальной редакции нашей платформы для построения высоконагруженных систем на её базе, имеющей ряд расширенных и более глубоких настроек, которые не нужны на небольших объемах данных до сотни миллионов записей.
»

Для этого специалисты компании проанализировали и разделили типовые задачи, возникающие при обслуживании платформы до 100 миллионов записей и от 100 миллионов. Были также выявлены типовые сценарии, возникающие при большом объеме исходных данных. Результатом стала специальная редакция и методология внедрения и эксплуатации платформы при больших объемах данных. Параллельно с выходом редакции Учебный центр компании запустил курс обучения «Платформа «Юнидата» в высоконагруженных проектах».

Потоковый и онлайн-режимы управления качеством данных

Компания «Юнидата», производитель одноименной платформы управления данными, 24 августа 2017 года сообщила о реализации в платформе функций единообразной фильтрации, очистки и нормализации данных, поступающих из разных источников, проверки данных на предмет их соответствия заданным критериям, обогащения данных из внутренних и внешних источников.

В частности, появилась возможность обрабатывать записи, получаемые через SOAP и REST-запросы от сторонних информационных систем с последующим применением правил качества данных и отправкой обработанных записей. При этом сами записи в платформе не сохраняются. Такие возможности позволяют сторонним информационным системам предприятия осуществлять проверку данных в режиме реального времени, проверять десятки миллионов записей в пакетном режиме по расписанию, отслеживать историю изменения качества записи во времени.

Кроме того, предусмотрены сразу два режима обработки — потоковый и онлайн. В потоковом режиме осуществляется единовременная обработка большого количества записей на запрос по проверке данных. Соответственно, результат обработки содержит исправленные записи и список ошибок (при их наличии). Одновременно происходит сохранение информации о найденных ошибках в базе данных платформы с возможностью последующего получения данной информации по идентификатору записи. В свою очередь, в онлайн-режиме происходит синхронный ответ на запрос по проверке одной записи. Результат обработки содержит исправленную запись и при их наличии — список ошибок.

«
Уверены, подобный подход будет широко востребован рынком, — считает генеральный директор «Юнидаты» Сергей Кузнецов. — Суть в следующем: в потоковом режиме осуществляется единовременная обработка большого количества записей. При этом, платформа «Юнидата» не загружает все входящие данные в свое хранилище, обрабатывая их «на лету». После обработки входных данных хранилище «Юнидата» содержит только статистику о том, какая запись не прошла те или иные проверки качества. Платформа хранит только первичные ключи обработанных данных и не хранит записи целиком.
»

Обновление до версии 4.5

В начале августа 2017 года платформа «Юнидата» обновилась до версии 4.5. При этом нововведения коснулись практически всех разделов системы, рассказали в компании «Юнидата».

Версию 4.5 отличает значительно переработанный с точки зрения повышения эффективности работы интерфейс оператора данных: цветовая схема и элементы интерфейса изменены для снижения утомляемости операторов, новая навигационная панель предоставляет возможности по настройке компактного режима представления. Экраны поиска и записи были упрощены, вспомогательные функции и операции перемещены в контекстные меню. Добавлено сохранение контекстов и состояний разделов, что позволяет оператору переходить между основными инструментами без потери введенных данных. Добавлены новые возможности по просмотру исходных записей, системной информации о записи.

Помимо этого, также расширены поисковые возможности оператора данных по нечеткому поиску записей, поиску по системным атрибутам и ошибкам правил качества, а инструмент «Главный экран» расширен статистикой качества данных в резервах критичности и категорий ошибок. Добавлена возможность просмотра статистических данных в прошедших периодах.

Реализованы инструменты по использованию инструментов обеспечения качества записей. Речь идет о режиме внешнего сервиса обеспечения качества. В данном режиме платформа позволяет применять правила качества к записям без их сохранения. Для этого представлены следующие API:

  • онлайн-проверка: осуществление синхронного ответа на запрос по проверке одной записи;
  • потоковая проверка: осуществление единовременной обработки большого количества записей на запрос по проверке данных. В данном режиме платформа сохраняет результаты проверки и позволяет получить их позже для каждой записи в отдельности.

Кроме того, с обновлением до версии 4.5 расширены возможности платформы по импорту данных из баз данных.

Миллиард записей

Компания «Юнидата», разработчик одноименной платформы управления данными, объявила в мае 2017 года о том, что в рамках выполненных работ по увеличению эффективности системы, платформа достигла производительности в один миллиард записей. «Юнидата» стала первой компанией в мире (по заявлению самой компании), способной работать с таким массивом данных в тематике нормативно-справочной информации.

При разработке во главу угла был поставлен принцип «миллиард за миллион»: речь идет о миллиарде записей на серверах стоимостью всего миллион рублей.

Этот результат стал нашим ответом на постоянно возрастающие потребностями наших клиентов. - комментирует достижение Генеральный директор «Юнидаты» Сергей Кузнецов. - Именно поэтому мы для себя решили, что именно один миллиард записей - это тот рубеж, к которому нужно стремиться. Столь серьезному успеху предшествовала долгая и планомерная работа, выполненная со всей тщательностью. Постепенно, включив эту планку в список основных задач, шаг за шагом двигались в этом направлении. Хочу поблагодарить наших разработчиков, которые провели серьезную работу над масштабированием платформы, что позволило говорить о том, что мы предоставляем нашим заказчикам ранее казавшийся невероятным миллиард записей.

Обновление до версии 4.4

3 апреля 2017 года платформа Юнидата получила очередное крупное обновление - версию 4.4. Нововведения коснулись всех разделов системы.

Для оператора данных расширены и упрощены механизмы поиска и обработки записей. Обновления позволяют искать данные по сложным запросам, используя гибкие условия поиска, а также удалять любое количество записей, используя новую пакетную операцию.

Для администратора данных упрощен инструмент загрузки и выгрузки структуры данных (метамодели). Инструмент предназначен для экспорта модели данных целиком (реестры, справочники, классификаторы, пользовательские настройки, правила качества данных и т.п.), а также частичного или полного импорта метамодели. Интерактивные подсказки администратору данных помогают сохранить связи в модели данных. В новой версии расширен список функций качества и реализована обработка дубликатов записей в справочниках.

Функции администрирования дают возможность управлять дополнительными свойствами групп пользователей, а также выполняют проверку разграничения прав доступа к данным с отображением подсказок администратору системы о согласованности предоставленных прав.

Расширены возможности пользовательских настроек, что позволяет добавлять новые кнопки и изменять внешний вид атрибутов в карточке записи, а также осуществлять поиск и модификацию записей по заданным настройкам.

Архитектура платформы

Модули платформы

  • Модуль – внешний компонент, динамически подключаемый к платформе, расширяющий стандартный функционал
  • Пакет – тематический набор модулей, предназначенный для комплексного решения определенной технологической или бизнес задачи

  • Контрагенты
  • 1С:Предприятие
  • Словарь данных
  • ЕГРЮЛ/СПАРК/Картотека
  • BPM Адаптеры
  • Интегратор
  • ГОС
  • Социальные данные
  • ГЕО

Основные функции платформы

  • Централизованный сбор данных
  • Поиск и объединение дубликатов
  • Анализ данных и формирование статистики
  • Нормализация, обогащение и проверка данных
  • Отправка данных в сторонние информационные системы
  • Управление данными на основании внутренних регламентов предприятия

Авторская методология внедрения платформы «Юнидата» основана на международ-ных стандартах DMBOK, полностью адаптирована под реалии российского рынка и насыщена набором отраслевых модулей. Единая дорожная карта развития продукта опи-рается на современные тренды развития отрасли в области управления данными (Data Governance), обеспечения качества данных (DQ) и работы с нормативно-справочной информацией (НСИ), а также на новые технологии и способы обработки больших массивов данных. В процессе разработки и тестирования ПО используются современные подходы, которые развиваются и совершенствуются каждый день.

Централизованный сбор данных

Прямое получение данных от внешних и внутренних информационных систем предприятия посредством использования обширной библиотеки готовых адаптеров, а также специализированных программных интерфейсов, позволяющих:

  • Получать данные в виде структурированных файлов (CSV, Excel, XML, JSON).
  • Осуществлять обмен данными с реляционными базами данных.
  • Осуществлять обмен данными с NoSQL базами данных, включая распределенные источники, такие как Hive, HBase, и другие.

Косвенное получение данных через стандартные адаптеры к большинству современных инструментов класса ETL и программные интерфейсы, встраиваемые в корпоративную интеграционную шину предприятия. Возможность использовать произвольный транспорт данных.

Нормализация, обогащение и проверка данных

  • Очистка данных, удаление шума, приведение к одному виду, множественная классификация
  • Обогащение данных из внешних источников, таких как СПАРК, базы ФНС и прочие.
  • консолидация данных различного происхождения.
  • Проверка данных на полноту, целостность и непротиворечивость.
  • Выяснение связей, в т.ч. по нечётким алгоритмам, сегментация данных.
  • Публикация отчётов о качестве данных с привязкой к источнику.
  • Создание заданий на ручную проверку, согласование и уточнение данных.

Поиск и объединение дубликатов

  • Настройка правил поиска дубликатов на основе комбинаций точного и нечёткого поиска.
  • Использование специализированных алгоритмов сравнения и поиска с привязкой к предметной области.
  • Настройка правил автоматической обработки дубликатов.
  • Создание заданий на ручную проверку и уточнение потенциально дублирующихся данных.
  • Настройка поатрибутного слияния данных в автоматическом и ручном режимах.
  • Автоматическое и ручное создание связей между похожими записями.

Управление данными на основании внутренних регламентов предприятия

  • Настройка процессов согласования изменений на уровне операций и объектов в стандартной нотации BPMN.
  • Управление состоянием записей в зависимости от роли и корпоративной иерархии.
  • Использование электронной подписи для утверждения изменений.
  • Получение автоматических уведомлениях о новых, активных и просроченных задачах, включая задачи своих подчинённых.
  • Формирование регулярных отчётов о производительности различных категорий пользователей с возможностью распределения по типам данных.

Анализ данных и формирование статистики

  • Полнотекстовый поиск по данным
  • Поиск атрибутов по их значениям, включая поиск по фасетам и классификации.
  • Композитный поиск по связям между объектами.
  • Анализ происхождения и истории изменения данных.
  • Выгрузка данных в Excel для их последующего анализа в ручном режиме.
  • Формирование отчётов в формате PDF и XLS с возможностью их вывода на печать.

Отправка данных в сторонние информационные системы

  • Автоматическая отправка данных в системы-источники и системы-потребители в синхронном и асинхронном режиме.
  • Настройка уведомления о получении конкретных данных, данных из определённого источника, либо факте выполнения определённой операции над данными.
  • Пакетная отправка данных по расписанию, по наступлению события, либо в режиме реального времени.
  • Интеграция с корпоративным «транспортом данных».