Статья:Интервью TAdviser: Директор по математическому моделированию и анализу больших данных НЛМК Анджей Аршавский о построении моделей — TADVISER


2018/02/05 13:27:42

Интервью TAdviser: Анджей Аршавский, НЛМК - о том, как анализ данных экономит сотни миллионов рублей

Директор по математическому моделированию и анализу данных Новолипецкого металлургического комбината Анджей Аршавский – о построении моделей на сталелитейном производстве и экономическом эффекте технологий для бизнеса.

Анджей Аршавский: Для решения задачи недостаточно просто оперировать числами. (Фото - НЛМК)

Что входит в ответственность директора по математическому моделированию и анализу больших данных НЛМК?

Анджей Аршавский: Моя команда занимается внедрением технологий искусственного интеллекта (ИИ) для решения производственных задач. Используем методы машинного обучения, продвинутой аналитики, инструменты Big Data для оптимизации производства и бизнес-процессов. Конечная цель - заработать или сэкономить компании деньги.

А где это возможно?

Анджей Аршавский: Если говорить о производственном процессе, то тут речь идет о повышении производительности оборудования, экономии сырья и материалов, о качестве продукции, об обслуживании и ремонте оборудования. Если смотреть шире, то искусственный интеллект может помочь в решении задач оптимизации складских запасов, продаж, закупок, задач HR. Технологии ИИ могут использоваться и для создания новых продуктов: стали, готового проката. Благодаря анализу данных и моделированию мы получим возможность понимать, как именно нужно изменить производственный процесс или технологию, чтобы получить те или иные свойства металла.

И нашли уже новые способы производства новых продуктов?

Анджей Аршавский: Пока нет, но мы над этим работаем.

Что представляет собой ваша дирекция? У вас есть своя лаборатория, где вы проводите эксперименты?

Анджей Аршавский: Есть команда. Пока не большая. Она придумывает, что надо сделать, и привлекает для реализации подрядчиков в зависимости от задач.

Кого?

Анджей Аршавский: В прошлом году мы работали с тремя подрядчиками: с Yandex Data Factory, который к сожалению прекратил свое существование, и компаниями АлгоМост и CeleraOne. Сейчас мы ведем переговоры о сотрудничестве с новыми компаниями, но конкретные имена называть пока рано. Внутренняя команда состоит из data scientists, аналитиков, проектных менеджеров. Задачи, стоящие перед нами, мы решаем в тесном сотрудничестве с другими подразделениями НЛМК. В первую очередь, активно сотрудничаем с подразделением операционной эффективности, непосредственно с цехами, с техническим управлением, с ИТ и АСУТП. Почти в каждом проекте принимают участие представители вышеперечисленных подразделений, а мы же отвечаем за разработку моделей, алгоритмов и за общую координацию работ.

Как работает математическое моделирование применительно к производственному процессу, например, к производству стали?

Анджей Аршавский: Сталь в группе НЛМК выплавляют в кислородных конвертерах или электродуговых печах. В конвертерах, например, жидкий чугун с добавками продувают кислородом, который выводит из расплава углерод и другие примеси. В жидкую сталь добавляются ферросплавы, которые позволяют изменить ее химический состав. Ферросплавы - дорогостоящие материалы, и мы заинтересованы в том, чтобы оптимизировать их расход.

Чтобы сократить потребление ферросплавов, мы обучаем модель на исторических данных о том, что было (химический состав чугуна, дозирование других компонентов шихты, условия производства, в том числе температурные режимы, объем добавленных ферросплавов) и то, что получилось в результате обработки(итоговый химический состав стали). Модель обучается на этих данных и становится способной отвечать на вопрос: «что будет, если». Используя ее, мы можем подобрать оптимальную пропорцию ферросплавов для получения заданного химического состава стали.

Как вы обучаете модель?

Анджей Аршавский: Есть ряд математических методов, которые используются в зависимости от задач. Их применение зависит от объема данных, от качества данных. Проводятся эксперименты, подбираются параметры, при которых модель будет давать прогнозы с наибольшей точностью. Как правило, для решения задачи необходимо строить множество математических моделей, которые оптимально работают в тех или иных режимах.

В результате, в зависимости от начальных условий, используются все модели, или их часть, и рождается система, которая прогнозирует «что будет, если». Все это «упаковывается» в программное обеспечение, которое интегрируется с другими системами и способно либо управлять производством, либо рекомендовать оператору выполнять определенные действия.

Как происходит процесс интеграции?



Анджей Аршавский: Работу по интеграции выполняет либо подрядчик, либо мы сами.

В 2016 г. средний уровень использования данных в сталелитейной отрасли не превышал 5% - такую оценку давал Олег Багрин, генеральный директор НЛМК. В январе 2018 г. этот показатель куда-то сдвинулся?

Анджей Аршавский: Сейчас для реализации текущих проектов, мы используем, разумеется, больше данных, чем было год назад. И мы готовим инфраструктуру, чтобы мы могли использовать весь объем данных.

100% данных?

Анджей Аршавский: Тот объем, который практически необходим для решения задач.

А какой необходим?

Анджей Аршавский: У нас нет задачи утилизации данных. Мы отталкиваемся от практических задач оптимизации производства. Для применения методов искусственного интеллекта не всегда нужны все данные и большие их объемы. Мы приоритиезируем наши задачи с точки зрения потенциального экономического эффекта, дальше уже смотрим на наличие, количество и качество данных. Для того, чтобы хорошо обучить модель на исторических данных, оптимально иметь исторические данные за длительный период времени. Чем больше глубина, объем и качество данных, тем больше вероятность того, что модель сможет хорошо обучиться.

Какие данные НЛМК будет собирать? И как планирует их применять?

Анджей Аршавский: Если классифицировать данные, то можно отталкиваться от иерархии ИТ-систем. На нижнем уровне располагаются датчики, которые собирают информацию с наибольшей дискретностью и передают ее на уровни контроллеров и далее на уровни систем автоматического управления производством (АСУТП).

Эти данные накапливаются на ограниченный период времени в базах данных. Следующий уровень – это уровень управления, так называемые MES-системы. Там используются данные о производственных заданиях и управляющие данные. Высшие уровни – ERP, SAP. Там собираются данные о продукции, о том, что находится на складах. Классов данных очень много.

Если говорить о более высоких уровнях этой иерархии, то, как правило данные хорошо качественно собираются и хранятся на достаточно большую временную «глубину». Это данные в целом небольшого объема. Если говорить о данных нижнего уровня, данные измерительных систем и датчиков – то их можно отнести к классу данных большого объема. Датчики способны регистрировать информацию с большой частотностью.

На этих уровнях они не всегда накапливались аккуратно: их хранение было слишком дорого или практически не востребовано. Сейчас мы исправляем эту ситуацию. Мы развернули большой кластер, задачей которого является накапливание и хранение данных с датчиков. Запускаем ряд проектов, которые позволят данные из АСУТП не выбрасывать, а отдавать на хранение нам.

Что это за кластер?

Анджей Аршавский: Кластер мы уже построили и назвали его «Система анализа данных и моделирования». Кластер построен на открытых инструментах на базе Hadoop. Он уже запущен в работу в декабре 2017 г. Он состоит из 10 серверов, которые объединены в единую систему, которая позволяет не только хранить данные, но и параллельно их обрабатывать. Таким образом, это совмещенная система хранения и обработки данных.

На данный момент она способна хранить 144 терабайта данных и обрабатывать в оперативной памяти до 3 терабайт данных. Этого нам хватит на первое время. Сейчас уже заполнено около трети объема. Архитектура системы позволяет линейно масштабировать ее. Докупая стандартные блоки, мы можем расширять систему.

Приведите конкретные примеры применения аналитических инструментов?

Анджей Аршавский: Один из наших проектов, связанный с контролем за расходом ферросплавов, сейчас дошел до стадии промышленных испытаний на Липецкой площадке. Там уже проходит третья стадия испытаний. Пока рано говорить о его результатах, но ожидаемый экономический эффект от этого проекта - экономия порядка 200 млн руб. ежегодно. Система предназначена для двух конвертерных цеха Липецкой площадки.

Схожий проект мы реализуем на Урале, на площадке в Ревде. Уже завершились испытания части проекта, которые показывают экономию 5 млн руб. в год. На Ревде разработка идет для дуговой печи, в Липецке – для конвертера. В первом случае происходит выплавка стали из лома, во втором – из чугуна. Система дает оператору четкие указания: сколько нужно добавить ферросплавов. Раньше оператор действовал, основываясь на собственном опыте, на записях в журналах об аналогичных плавках. И основная проблема как раз и заключается в том, что человек, в отличие от машины, не способен точно целиться.

Как происходит бюджетирование ваших проектов?

Анджей Аршавский: Реализация проектов согласуется на инвестиционном комитете. Стоимость реализации одного типового проекта не велика, особенно в сравнении с ожидаемыми доходами. Мы проводим исследование производства, в результате этого исследования рождаются идеи, идеи превращаются в проекты, проводится оценка их экономического эффекта. Затраты на реализацию, как правило, значительно ниже ожидаемого экономического эффекта - в среднем, в 10 раз меньше, чем годовой экономический эффект.

Сколько сейчас у вас в работе проектов?

Анджей Аршавский: Сейчас мы работаем над семью проектами. В ближайшее время их число увеличится до десяти. Сколько мы добавим проектов в 2018 г., пока не решено.

Что это за десять проектов?

Анджей Аршавский: Два проекта по сокращению расхода ферросплавов, проект, связанный с качеством продукции, проект по оптимизации работы ТЭЦ (по оптимизации использования природного газа), прогноз выхода из строя оборудования доменной печи, оптимизация работы агрегата непрерывного оцинкования, запускаем проект по коксохимическому производству (оптимизация работы коксохимических мощностей компании для выработки фракции кокса оптимального размера для работы доменной печи) и проект по сокращению затрат на закупку лома. На подходе несколько проектов по оптимизации работы Стана-2000, призванных увеличить его производительность примерно на 5%. Прорабатываются проекты, позволяющие прогнозировать выход оборудования из строя. Вообще, ремонтная сфера очень обширна и потенциал реализации проектов там очень большой.

В проектах, в которых используется моделирование, сложно точно просчитать эффект. Он зависит от данных, от физики процесса – от многих факторов. Поэтому, когда мы подходим к оценке экономического эффекта, мы смотрим на разницу между текущей производительностью и теоретически возможной. Например, мы знаем, что стан теоретически может работать на 20% быстрее. Мы берем эту разницу за основу и предполагаем, что методами математического моделирования можем сократить эту разницу на 5%. Меньше 5% - это уже просто техническая погрешность. Такой подход позволяет оценить потенциальные возможности.

Как измеряется эффективность математической модели?

Анджей Аршавский: Мы оцениваем экономический эффект от проекта. Естественно, можно оценивать и точность работы каждой модели, если их используется несколько. Но тут очень много нюансов. У каждой модели своя точность, причем у каждой своя точность в разных условиях. В результате мы имеем очень много чисел, которые трудно привести к чему-то одному, да и нет в этом никакой целесообразности. Мы просто оцениваем суммарный итоговый экономический эффект.

До НЛМК Вы работали в банковском секторе. Есть какая-то разница в работе с большими данными в банковском секторе и в сталелитейной промышленности?

Анджей Аршавский: Большая. Задачи банковской сферы для data scientist, даже не связанным в предыдущем опыте с банками, интуитивно понятны. Данные в банках, как правило, собираются аккуратно. Они есть в наличии и их много. Проблемы с качеством данных возникают, но их меньше и они проще решаемы. В индустрии с точки зрения этих критериев ситуация другая. Для решения задачи недостаточно просто оперировать числами, как в банковской или маркетинговой сферах. Здесь необходимо понимать производственный процесс.

Иначе невозможно определить значимость проектов, верно их интерпретировать. С данными тоже есть ряд нюансов. В банковской сфере регистрируются транзакции, факты прохождения платежей. Это показатели однозначно интерпретируемые и сохраняемые. На производстве мы имеем дело с датчиками, которые работают не всегда точно, и сталкиваемся с проблемой качества, объема и доступности данных. Часто бывает так, что данные доступны только на небольшом временном горизонте просто потому, что их недавно начали собирать. И этого горизонта не хватает, чтобы обучить модель.

Что вы делаете, чтобы повысить качество данных?

Анджей Аршавский: Иногда просто необходимо заменить датчики или добавить дополнительные. Вообще, качество данных определяется несколькими величинами: полнота, точность, достоверность. Полнота – это глубина хранения, диапазон работы. Например, датчик хорошо работает в определенных температурных режимах, а в некоторых - не работает вообще. В итоге у нас есть только часть данных. То есть данные не полны. Есть участки, на которых вообще не были установлены датчики. И если мы полгода назад его установили, то собранных за этот период времени данных будет недостаточно для обучения модели.

Датчик может вообще неправильно собирать данные. Если на данные посмотреть, то они, казалось бы, есть, показатели меняются, но при более глубоком разбирательстве выясняется, что датчик записывал какую-то «отсебятину» и его показаниями нельзя пользоваться. Бывает, что хватает глубины и достоверности данных, но не хватает точности. Например, датчик может собирать данные с погрешностью 0,2 шкалы. А чтобы обучить модель и осуществлять с ее помощью точное управление, погрешность при сборе данных должна быть не больше 0,01.

Где вы берете такие точные датчики?

Анджей Аршавский: В принципе, рынок датчиков достаточно полный. Здесь, скорее, вопрос в организации процесса обновления датчиков. Иногда необходимо проводить провода в труднодоступные места, вваривать датчики в какие-то трубы. Для этого необходимо останавливать производство. В принципе, вопрос решаемый. Но если мы, начиная работу над проектом, сталкиваемся с тем, что датчиков не хватает или они неподходящие для наших задач, и принимаем решение об их замене, нам в любом случае придется ждать до полутора лет, пока соберется необходимый объем данных. Вопрос с качеством и доступностью данных необходимо решать заранее. Необходимо учитывать даже те проекты, возникновения которых мы сейчас не предполагаем.

Производственники часто говорят о том, что они видят начало процесса и конец процесса, но что происходит внутри — не известно. Как же вы в таких условиях составляете математическую модель?

Анджей Аршавский: Тут нужно пояснить, о каких видах моделей мы вообще говорим. Их три вида и мы занимаемся только главным образом одним из них. Классические математические модели, которые использовались последние десятилетия, — это модели работающие на совокупности эмпирически выведенных формул. Рассчитывается некоторый процесс, например, процесс доменной плавки. Изучается, какие во время этого процесса происходят процессы, как они взаимосвязаны и к каким результатам приводят.

Дальше происходит расчёт того, что происходит внутри на основании этих теоретических формул. Эти формулы лишь до определенной степень приближаются к реальности и не работают точно в некоторых диапазонах. И когда происходит процесс моделирования сложного объекта, множество вот этих химических и физических формул дают взаимную ошибку, ошибки накапливаются. Этот класс моделей мы не используем.

Мы использует модели, которые обучаются на данных. Если речь идет о доменной печи, и если у нас есть данные о том, что именно загружалось в каждый момент времени в эту печь, какого состава было литье, какая была температура плавки, сколько было кислорода, какие факторы воздействовали на печь в момент конкретной плавки, то в результате мы можем обучить модель и получить набор коэффициентов. Модель будет обучаться на основании подробных данных на входе и на выходе за всю историю плавки. При этом ей не так важно, что происходит посередине внутри моделируемого процесса.

Модель в результате представляет собой "мешок" подобранных коэффициентов.Процесс обучения как раз состоит в том, чтобы подбирать и изменять эти самые коэффициенты выбранного типа модели, будь то «нейронная сеть» или «случайный лес». Модель учится имитировать реальный объект. Исторические данные делятся на несколько частей. На одной части происходит обучение модели, на другой — поверка модели. Затем модели дают реальные входные данные и смотрят, насколько точно она прогнозирует выход. Таким образом, оценивается точность модели. После этого ее уже можно применять, то есть, с её помощью отвечать на вопрос: "что будет, если". Методом перебора, таким образом, можно найти оптимальный режим управления производством. Этот класс моделей основан на методах машинного обучения.

Существует еще третий класс моделей. Он очень сложный и требует работы с суперкомпьютерами. Его применяют широко в моделировании ядерных реакторов, крыла самолета, двигателей. В тех отраслях, где живые эксперименты очень дороги или невозможны. Этот уровень называется поэлементное моделирование. В нем процесс раскладывается на молекулы и на атомы. Дальше происходит имитация процесса. На каждом шаге моделируется поведение каждого атома иследуемого объекта в следующий момент времени. Построение таких моделей требует очень большой подготовки и больших ресурсов.

Сейчас появляются научные работы, которые описывают попытки смоделировать таким образом доменную печь. Если такая модель появится, она даст безграничные возможности по оптимизации работы печи и экономии на материалах. При условии, конечно, что у модели будет возможность точного воссоздания начальных данных. Управление доменной печью — это сложный процесс. Мы пока что эту тему не трогаем. Наша команда пока фокусируется на машинном обучении. Этот способ пока что позволяет нам добиться необходимых результатов. Мы пытаемся подойти к проекту оптимизации работы доменной печи. У нас есть пилоты.

С конвертерными печами проще работать?

Анджей Аршавский: В конвертерной печи все более предсказуемо, хотя тоже бывают случаи. Вообще, заранее сказать, решаема ли задача с помощью того или иного подхода, — невозможно. Поведение реального объекта в различных диапазонах его работы может быть очень разным. Например, в наблюдаемом диапазоне аппроксимирующая функция может быть гладкой. Но при выходе за пределы наблюдаемого диапазона она может резко поменять свой характер и прогноз модели окажется неприменим. Не зная точные физические характеристики объекта, нельзя сказать, как он будет себя вести в том или ином режиме. Эта непредсказуемость не является стоп-фактором. Она дает возможности экспериментировать с объектом в разных режимах.

Вы перечислили много проектов, которые реализовали или начали реализовывать за последние полгода. Какой проект лично для вас стал наиболее интересным?

Анджей Аршавский: Интересный и одновременно сложный проект — это проект по сокращению расхода шихты, ферросплавов и электроэнергии на площадке в Ревде. В рамках этого проекта мы должны разработать модель, которая позволит экономить не только ферросплавы, а целый ряд материалов. И все это должно работать в комплексе. Причем производство на площадке многоступенчатое: плавка в дуговой печи, затем плавка в печь-ковше, - и на каждом этапе добавляются новые материалы. То есть на площадке необходимо проводить глобальную оптимизацию, решать одновременно много задач. Мы сейчас над этим работаем. Проект интересен в виду своей комплексности.