Как реализовать быстрый и эффективный семантический поиск в своем проекте на основе кликстрима, трансформеров и приблизительного поиска (ANNS) Обработка текстов на естественных языках
Технологический предприниматель на стыке данных, аналитики и машинного обучения. Сооснователь и технический директор Knoema. До этого главный архитектор Prognoz Platform, одного из немного отечественных продуктов, отмеченных Gartner попаданием в магический квадрат (MQ for BI & Analytics).
https://www.facebook.com/vbougay
https://www.linkedin.com/in/vbougay
Knoema.com - это крупнейший мировой агрегатор статистических данных с коллекцией из более чем 3 млрд временных рядов из тысяч источников. Поиск по этой коллекции является одной из ключевых функций продукта.
В своем докладе я расскажу:
1) об основных проблемах, с которыми мы столкнулись при реализации поиска по огромной коллекции документов с минимальным количеством текстовой информации, и о том, как мы их решаем;
2) почему классические поисковые движки плохо справляются с данной задачей;
3) как использование векторных представлений на основе различных языковых моделей и приблизительного поиска позволило нам за несколько месяцев получить результаты, сопоставимые с результатами, полученными ранее за несколько лет разработки своего движка;
4) о сильных и слабых местах различных моделей (BERT, USE) применительно к нашим задачам и нюансах их дообучения (fine tuning);
5) как примененный нами подход может быть смасштабирован на другие задачи и предметные области.