Принятые доклады
Фреймворки и инструменты по машинному обучению
Добавляем контроль данных в ML pipeline
Вы уже контролируете процесс ML-экспериментов? Ваш процесс репрезентативный и доступный вашим коллегам?
Оказывается, что существуют инструменты, которые позволяют контролировать процесс разработки проекта ML, позволяют контролировать шаги проекта и зависимости. Интересный инструмент DVC (data version control), который позволяет контролировать версии данных и обученных моделей. Это специальный инструмент, который совместно с git может обеспечит контроль версий.
Основной целью моего доклада является знакомство с инструментом и способы его применения в ML. Но доклад базируется на опыте использования DVC в Мегафон, покрывая большой опыт использования инструмента, не только в персональных проектах, но и в командной работе.
В докладе будет рассмотрен процесс использования DVC от его первой настройки и описания, до создания управляемых пайплайнов для проекта, которые позволяют перемещаться по проекту и восстанавливать процесс работы в выбранной точке.
Данный инструмент обязательно вас заинтересует, и вы будете рады тому, что он позволяет дополнять себя (в докладе вы увидите пример дополнения DVC). А также вам будут предложены вопросы как домашнее задание для изучения и внедрения DVC в свои ML-процессы
Обработка текстов на естественных языках
Поиск аномалий в анкетных данных на примере ФИО
Вы, наверняка, сможете понять, что из этого не является корректным ФИО вашего клиента, а лишь чьей-то фантазией:
- Бутнару Иурии
- Сашка Седлай Коня Аккуратно
- Eyide Lucky
- Пулотов Аслам Ахмат Жон Угли
- Бэбэлэу Ион
- Устаю Уже Ильясович
- Камаз Уралов
- Перцулиани Вепхвиа
А как этому научить машину?
В докладе расскажу, как мы вычисляем Чебурашек и не только среди миллионов анкетных данных и причём тут цепи Маркова, нейронные сети, языковые модели и машинный перевод.
Доклад будет полезен всем, кому интересен поиск аномалий, и тем, кто хочет иметь реальные анкетные данные о пользователях в своей базе.
Можно ли научить машину чувству юмора?
* Как собрать для конкретной задачи самый большой в мире дата-сет без разметки?
* Почему хорошие результаты на тестовых данных не всегда говорят о реальном качестве модели?
* Насколько важны данные для обучения и дообучения нейронный сетей?
В докладе разберём эти вопросы на примере нашего state-of-the-art-решения в задаче распознавания юмора.
Как реализовать быстрый и эффективный семантический поиск в своем проекте на основе кликстрима, трансформеров и приблизительного поиска (ANNS)
Knoema.com - это крупнейший мировой агрегатор статистических данных с коллекцией из более чем 3 млрд временных рядов из тысяч источников. Поиск по этой коллекции является одной из ключевых функций продукта.
В своем докладе я расскажу:
1) об основных проблемах, с которыми мы столкнулись при реализации поиска по огромной коллекции документов с минимальным количеством текстовой информации, и о том, как мы их решаем;
2) почему классические поисковые движки плохо справляются с данной задачей;
3) как использование векторных представлений на основе различных языковых моделей и приблизительного поиска позволило нам за несколько месяцев получить результаты, сопоставимые с результатами, полученными ранее за несколько лет разработки своего движка;
4) о сильных и слабых местах различных моделей (BERT, USE) применительно к нашим задачам и нюансах их дообучения (fine tuning);
5) как примененный нами подход может быть смасштабирован на другие задачи и предметные области.
Machine Learning for Code
Разработка софта — это сложный многогранный процесс.
Вы услышите:
* почему применение машинного обучения к исходному коду так сложно? Почему почти ни одна из задач не может быть решена без использования методов для обработки естественных языков? Какие сложности надо преодолеть на этом пути?
* код-ревью — почему мы тратим так много времени на него? Как оптимизировать этот процесс и избавить разработчиков от "глупых" задач? Какие существуют решения на основе машинного обучения и как выкатить их в продакшн?
* поиск похожих репозиториев — почему поиск для исходного кода работает плохо? Как искать похожие по смыслу и решаемым задачам репозитории?
* поиск разработчиков с похожим опытом — как формализовать похожесть? Как извлечь необходимую информацию из кода? Какие методы позволят решить эту задачу?
Компьютерное зрение
Как нейросети могут помочь построить картину происходящего под землей и определить, где искать нефть
1. Что такое сейсмические данные, и как килограммы тротила открывают тайны подземных недр.
2. Как отличить осадочные породы юрского и мелового периодов, и как это может помочь найти нефть.
3. О трех нейросетевых подходах к задаче сегментации стратиграфических пластов.
4. Ожидания и реальность цифровой трансформации, или что делать, когда вокруг говорят об искусственном интеллекте, а ты пилишь модельки в ноутбуках.
512 КБ памяти хватит всем! Идентификация человека по лицу на микроконтроллере с камерой
Маленькие носимые устройства становятся всё умнее и умнее и готовы вступить на территорию нейронных сетей для повышения уровня своего интеллекта. Чем "меньше" устройство, тем сложнее ему попасть в лигу "умных".
В рамках доклада авторы поделятся своим опытом полного процесса разработки и внедрения приложения на основе нейронной сети для идентификации человека по лицу: от тренировки и квантизации до переноса приложения на RISC-V микроконтроллер с 512 КБ встроенной оперативной памяти.
Докладчик расскажет о чипе GAP8 от компании GreenWaves, инструментах и подходах к оптимизации нейронной сети и её запуску в экстремальных вычислительных условиях. В результате работы над проектом авторам удалось запустить детектирование лиц, идентификацию по лицу с QVGA-камеры и организовать взаимодействие с пользователем на плате, запитанной от батареи.
Как найти и закрыть гос. номер на фото автомобиля и помешать копированию контента c помощью adversarial attack
* Как найти область с гос. номером авто на картинке?
* Обзор способов object detection, применимых к задаче с гос. номером.
* Сбор данных и разметка на толоке.
* От юпитера до прода Авито, вердикт по созданному решению.
* Копирование контента конкурирующими площадками, что можно с этим сделать.
* Adversarial attack - что это и состояние области рисерча.
* Как обмануть неизвестный алгоритм?
* Итоги применения adversarial attack и гипотезы, почему получилось так.
Wasserstein Regularization for Generative and Discriminative Learning
We propose regularization strategies for learning models that are robust to in-class variations of the input data. We use the Wasserstein-2 metric to capture semantically meaningful neighborhoods in the space of images. We define a Riemannian Wasserstein gradient penalty to be used in Wasserstein Generative Adversarial Networks, and derive an effective Tikhonov-type Wasserstein smoothness regularizer from an input-dependent data augmentation model. The regularizer is computed efficiently via convolutions with negligible computational cost. Experiments demonstrate improved robust generalization.
Системы принятия решений
Разработка и внедрение интеллектуальных агентов
В различных направлениях теоретической информатики под искусственным интеллектом часто подразумевают очень разные и контрастные между собой определения. Искусственного интеллекта не существует в его бытовом понимании, тем не менее мы можем говорить о создании интеллектуальных агентов или интеллектуальных систем, которые помогают человеку изучать, анализировать и посредством этого — созидать. Имитация когнитивных функций человека вторична, интеллектуальная система имеет свою узкую предметную область и является помощником человеку при создании сервисов качественно нового уровня.
Первая часть доклада посвящена возможной классификации интеллектуальных агентов и предметных областей, в которых их использование целесообразно. Интеллектуальный агент в общем смысле можно воспринимать как "демона", который, по некоторым входным данным, способен предоставить данные для цифрового актуатора с целью воздействия на объекты предметной области. Это кажется неочевидным, но в авторизованной зоне, когда у объекта есть жесткий идентификатор, и в неавторизованной зоне, когда у объекта нет жесткого идентификатора (или он слишком неустойчив или вариативен (например, файлы cookies)), приходится использовать разные подходы к разработке интеллектуальных агентов. В авторизованной зоне, например, финансового приложения, вы можете заранее подготовить рекомендации для клиента и впоследствии просто показать их с учетом онлайн-контекста или без. В неавторизованной зоне вам даже сложно понять, что пользователь является вашим клиентом, и вы не можете эффективно предрассчитать какие-либо рекомендуемые действия; в случае вариативного идентификатора вам потребуется обработать условный миллиард идентификаторов пользователей, из которых только на несущественный процент сможет подействовать цифровой актуатор.
Во второй части доклада мы рассмотрим используемые подходы к разработке и внедрению интеллектуальных агентов в авторизованной зоне, а в третьей части, заключительной — как сделать то же самое только для неавторизованной зоны. Кажется, что если мы работаем в предметной области с жестким идентификатором объекта, то логика интеллектуального агента может быть в большей части экспертной или рекомендованной некоторой экспертной системой. В неавторизованной зоне же мы можем говорить о частично персонализированном подходе, когда не сам объект, но его известные свойства позволяют интеллектуальному агенту оптимизировать какой-либо показатель качества своей работы.
С практической точки зрения, из доклада вы узнаете о нашем опыте внедрения графовых баз данных, которые позволяют нам предрассчитывать как в режиме оффлайн, так и онлайн, рекомендации для Историй в мобильном банке и контентных рекомендательных лент на journal.tinkoff.ru. Как мы проводим A/B-тестирование рекомендательных алгоритмов, и как здесь могут помочь многорукие бандиты?
Отдельная часть доклада посвящена проектам Vowpall Wabbit и CatBoost, почему мы не видим каких-либо альтернатив. Мы покажем, как просто поднять "демона" с интеллектуальным агентом и начать его использовать. Отдельно поговорим и про метрики качества, кажется, что диаграмма надежности — это то, что может убедить каждого в полезности внедренного агента.
Внедрение передовых разработок математиков и инженеров XXI века проходит красной линией во всех задачах, связанных с разработкой в Tinkoff. Однако кажущееся простым в разработке совершенно не означает простое при внедрении, а интерпретируемость поведения интеллектуальных агентов особенно важна.
Modern Neural Net Architectures / Year 2019 version
За последние пару лет мир нейросетей сильно изменился. Появилось множество вариаций GAN, появился трансформер и модели на его основе, произошли изменения и в других областях. Мало какие NLP-задачи теперь обходятся без BERT’а или чего-то подобного. Обо всём этом в докладе.
Машинное обучение и анализ данных в коммерции
Машинное обучение для предсказания продаж интернет-магазина OZON.RU. Оптимизация цен с помощью моделей предсказания спроса
- Обучение ML-моделей для потоварного предсказания спроса.
* Подводные камни в формировании обучающей выборки (балансировка, очистка данных). Подбор гиперпараметров и постобработка результатов.
* Кластеризация товаров и обучение разных типов моделей для разных типов товаров.
* Первые шаги с LSTM-сетями.
- ML-модель как фича для другой ML-модели.
Unsupervised-кластеризация временных рядов продаж товаров для создания размеченной выборки для обучения supervised-классификации товаров без истории продаж.
- Оптимизация цен товаров для максимизации оборота с ограничением по марже.
Применение моделей предсказания продаж в оптимизации цен. Линеаризация сложной модели для ускорения работы оптимизатора.
- Математика и теория вероятностей в процессах пополнения складов.
Оценка распределений ошибок прогноза, ошибок поставок (опоздания, "недовозы" поставщиков). Расчет страховых запасов на основе полученных распределений.
- Замкнутый цикл разработки ML-решений для продакшна.
feature engineering -> model selection -> training -> results evaluation -> feature engineering -> ...
Эффект от ТВ-рекламы: оценка и оптимизация
Запуск ТВ-рекламы — дорогое удовольствие. Поэтому важно уметь оценивать получаемый от этого профит, а также важно выбрать хороший способ оптимизировать показы рекламы в телевизионной сетке для увеличения получаемого эффекта.
В докладе будет рассказано о том, какие данные потребовались для замера, чем и как замеряли в России и европейских странах. А также о том, как на основе полученной оценки была предложена оптимизация показов и получен дополнительный эффект. Поделимся опытом в оценке рекламы в рамках выпусков ТВ-шоу.
Прогнозирование инцидентов в процессе бурения
Расскажу о том, как мы сократили на 50% число осложнений в процессе бурения с использованием xgboost и приведения MDM из 4 источников. Это позволило добиться экономии около 500 тысяч долларов в расчете на одну скважину.
Прочее
AWS DeepRacer: учимся сложному через игру
У многих людей при словах Machine Learning возникают образы профессоров, докторов наук, длинных формул, и логичным решением становится не трогать эту тему или отложить ее обучение на потом. Одним из наиболее эффективных методов познания является игра, мы все начинали познание мира через нее когда-то. Почему бы снова не использовать этот метод?
AWS DeepRacer - это игра с машинкой (кольцевые гонки), которая позволит начать познавать мир машинного обучения. Она подходит всем: тем, кто только решился начать учиться, и тем, кто уже чувствует себя комфортно в мире машинного обучения.
В этом докладе мы расскажем историю создания, принцип работы и о том, где можно протестировать получившиеся модели.
Что такое хорошо и что такое плохо: метрики для рекомендательных систем
Отсутствие или несбалансированность метрик не так сильно затрудняют первичное внедрение рекомендательной системы, но делают почти невозможным её контролируемое улучшение.
Мы создали и развиваем систему рекомендаций фильмов и сериалов в поиске Яндекса. Я расскажу, как мы переводим различные аспекты счастья пользователя в числа, как их контролируем, как сделать систему контроля качества, позволяющую быстро экспериментировать с рекомендациями. А также, какие вызовы стоят перед нами сейчас.
Machine Learning Based Autonomous Car Driving Algorithms
Explain how algorithms work for autonomous car, OpenCV Tech used in smart cars- YOLO, HAAR, Tensorflow etc. Live demo of my algorithm on real traffic. Latest features used in smart cars like Tesla. Explanation of current tech stack used for making autonomous cars. How stuff works.
Project Management 2.0: AI Transformation
Машинное обучение проникает во все сферы нашей жизни со все нарастающей скоростью, что меняет наши привычные паттерны взаимодействия с продуктами и отношение к ним. Пользователи уже привыкают к тому, что магические алгоритмы делают всю работу за них и часто лучше их: выбирают новости или книги, подбирают фильтр для улучшения фотографии и даже заказывают столик в ресторане по телефону.
Чтобы обеспечить всю эту магию, со стороны разработки происходит так называемый переход от Software 1.0 к 2.0: теперь не нужно четко описывать алгоритм принятия решения, нейросети смогут вывести его на данных лучше нас. Это в корне меняет традиционные подходы, а компетенция ML становится все более востребованной в стеке технологий разработчика.
Аналогичный переход надо совершить и в подходах к ведению проектов и продуктов. С добавлением ML в продукт знакомые техники и правила перестают работать. Постановка задачи с точными требованиями и привычные методы контроля с большой вероятностью не приведут к успеху. Ведение продукта, в основе которого лежит технология машинного обучения, принципиально отличается.
За последние пару лет мы в Mail.ru запустили десятки продуктов и фич на основе ML, и я расскажу о:
* выработанных практиках ведения проекта с ML в основе;
* многочисленных шишках, которые мы набили;
* адаптации софтверной разработки;
* и многом другом.
Доклад будет полезен всем, кто так или иначе участвует в разработке AI-продуктов.