О конкурсе
О конкурсе
Эта задача дается в рамках конкурса ICS Summer Labs 2023.
Сопоставить разноформатные текстовые написания товара с эталонным справочником.
Задача
Из разных источников к нам приходит информация об одни и тех же товарах, но с разным написанием. Нам необходимо провести дедубликацию написаний в следующем приоритете:
В идеальном варианте, модель должна быть уверена на 100% в том, нужно ли человеку проверять результат её работы. Чем больше записей 100% верно обрабатываются моделью, тем лучше.
Предлагается реализовать задачу в виде веб-сервиса или jupyter-notebook, чтобы обеспечить удобство проверки решения. Скорость обработки 10 000 записей — не более 10 секунд. Оборудование: средний ноутбук с SSD диском, >= 8Гб RAM, >=4 Core от 2 ГГц.
Дополнительные сведения
Исходные данные
Решение будем проверять на расширенной выборке написаний товаров.
Невредные советы
О конкурсе
Эта задача дается в рамках конкурса ICS Summer Labs 2023.