Инфопространство,
Москва, 16 сентября 2019

Добавляем контроль данных в ML pipeline Фреймворки и инструменты по машинному обучению

Доклад принят в программу конференции
Артем Селезнев
МегаФон

Аналитик больших данных, увлеченный ML pipeline и CatBoost.

@SeleznevArtem
Тезисы

Вы уже контролируете процесс ML-экспериментов? Ваш процесс репрезентативный и доступный вашим коллегам?

Оказывается, что существуют инструменты, которые позволяют контролировать процесс разработки проекта ML, позволяют контролировать шаги проекта и зависимости. Интересный инструмент DVC (data version control), который позволяет контролировать версии данных и обученных моделей. Это специальный инструмент, который совместно с git может обеспечит контроль версий.

Основной целью моего доклада является знакомство с инструментом и способы его применения в ML. Но доклад базируется на опыте использования DVC в Мегафон, покрывая большой опыт использования инструмента, не только в персональных проектах, но и в командной работе.

В докладе будет рассмотрен процесс использования DVC от его первой настройки и описания, до создания управляемых пайплайнов для проекта, которые позволяют перемещаться по проекту и восстанавливать процесс работы в выбранной точке.

Данный инструмент обязательно вас заинтересует, и вы будете рады тому, что он позволяет дополнять себя (в докладе вы увидите пример дополнения DVC). А также вам будут предложены вопросы как домашнее задание для изучения и внедрения DVC в свои ML-процессы

Логирование и мониторинг
,
Управление изменениями, управление требованиями
,
Проектные артефакты, инструментарий
Подготовительное задание

Будет задание и tutorial, доступен у меня в git