Инфопространство,
Москва, 16 сентября 2019

Как реализовать быстрый и эффективный семантический поиск в своем проекте на основе кликстрима, трансформеров и приблизительного поиска (ANNS)
Обработка текстов на естественных языках

Доклад принят в программу конференции
Владимир Бугай
Knoema

Технологический предприниматель на стыке данных, аналитики и машинного обучения. Сооснователь и технический директор Knoema. До этого главный архитектор Prognoz Platform, одного из немного отечественных продуктов, отмеченных Gartner попаданием в магический квадрат (MQ for BI & Analytics).

v@bougay.com
https://www.facebook.com/vbougay
https://www.linkedin.com/in/vbougay
Тезисы

Knoema.com - это крупнейший мировой агрегатор статистических данных с коллекцией из более чем 3 млрд временных рядов из тысяч источников. Поиск по этой коллекции является одной из ключевых функций продукта.

В своем докладе я расскажу:
1) об основных проблемах, с которыми мы столкнулись при реализации поиска по огромной коллекции документов с минимальным количеством текстовой информации, и о том, как мы их решаем;
2) почему классические поисковые движки плохо справляются с данной задачей;
3) как использование векторных представлений на основе различных языковых моделей и приблизительного поиска позволило нам за несколько месяцев получить результаты, сопоставимые с результатами, полученными ранее за несколько лет разработки своего движка;
4) о сильных и слабых местах различных моделей (BERT, USE) применительно к нашим задачам и нюансах их дообучения (fine tuning);
5) как примененный нами подход может быть смасштабирован на другие задачи и предметные области.

Поисковые системы
,
Big Data и Highload в Enterprise
,
Web-scale IT / другое
,
Machine Learning

Другие доклады секции Обработка текстов на естественных языках