Как реализовать быстрый и эффективный семантический поиск в своем проекте на основе кликстрима, трансформеров и приблизительного поиска (ANNS) Обработка текстов на естественных языках

Доклад принят в программу конференции

Knoema

Технологический предприниматель на стыке данных, аналитики и машинного обучения. Сооснователь и технический директор Knoema. До этого главный архитектор Prognoz Platform, одного из немного отечественных продуктов, отмеченных Gartner попаданием в магический квадрат (MQ for BI & Analytics).

v@bougay.com
https://www.facebook.com/vbougay
https://www.linkedin.com/in/vbougay

Тезисы

Зал «Recall»

16 сентября, 11:40

Knoema.com - это крупнейший мировой агрегатор статистических данных с коллекцией из более чем 3 млрд временных рядов из тысяч источников. Поиск по этой коллекции является одной из ключевых функций продукта.

В своем докладе я расскажу:
1) об основных проблемах, с которыми мы столкнулись при реализации поиска по огромной коллекции документов с минимальным количеством текстовой информации, и о том, как мы их решаем;
2) почему классические поисковые движки плохо справляются с данной задачей;
3) как использование векторных представлений на основе различных языковых моделей и приблизительного поиска позволило нам за несколько месяцев получить результаты, сопоставимые с результатами, полученными ранее за несколько лет разработки своего движка;
4) о сильных и слабых местах различных моделей (BERT, USE) применительно к нашим задачам и нюансах их дообучения (fine tuning);
5) как примененный нами подход может быть смасштабирован на другие задачи и предметные области.

Поисковые системы

Big Data и Highload в Enterprise

Web-scale IT / другое

Machine Learning

Другие доклады секции Обработка текстов на естественных языках

Поиск аномалий в анкетных данных на примере ФИО

Георгий Шушуев

ЦФТ

Machine Learning for Code

Егор Булычев

source{d}

Можно ли научить машину чувству юмора?

Владислав Блинов

Тинькофф