Добавляем контроль данных в ML pipeline Фреймворки и инструменты по машинному обучению
Вы уже контролируете процесс ML-экспериментов? Ваш процесс репрезентативный и доступный вашим коллегам?
Оказывается, что существуют инструменты, которые позволяют контролировать процесс разработки проекта ML, позволяют контролировать шаги проекта и зависимости. Интересный инструмент DVC (data version control), который позволяет контролировать версии данных и обученных моделей. Это специальный инструмент, который совместно с git может обеспечит контроль версий.
Основной целью моего доклада является знакомство с инструментом и способы его применения в ML. Но доклад базируется на опыте использования DVC в Мегафон, покрывая большой опыт использования инструмента, не только в персональных проектах, но и в командной работе.
В докладе будет рассмотрен процесс использования DVC от его первой настройки и описания, до создания управляемых пайплайнов для проекта, которые позволяют перемещаться по проекту и восстанавливать процесс работы в выбранной точке.
Данный инструмент обязательно вас заинтересует, и вы будете рады тому, что он позволяет дополнять себя (в докладе вы увидите пример дополнения DVC). А также вам будут предложены вопросы как домашнее задание для изучения и внедрения DVC в свои ML-процессы
Будет задание и tutorial, доступен у меня в git