Lab 02. Text Mining

Сопоставить разноформатные текстовые написания товара с эталонным справочником.

Задача

Из разных источников к нам приходит информация об одни и тех же товарах, но с разным написанием. Нам необходимо провести дедубликацию написаний в следующем приоритете:

  1. Сопоставление с эталонным справочником товаров.
  2. Создание эталонных записей, отсутствующих в эталонном справочнике.
  3. Сопоставление с созданными эталонными записями.

В идеальном варианте, модель должна быть уверена на 100% в том, нужно ли человеку проверять результат её работы. Чем больше записей 100% верно обрабатываются моделью, тем лучше.

Предлагается реализовать задачу в виде веб-сервиса или jupyter-notebook, чтобы обеспечить удобство проверки решения. Скорость обработки 10 000 записей — не более 10 секунд. Оборудование: средний ноутбук с SSD диском, >= 8Гб RAM, >=4 Core от 2 ГГц.

Дополнительные сведения

Исходные данные

Решение будем проверять на расширенной выборке написаний товаров.

Невредные советы

  • Сходить в магазин или аптеку и посмотреть на наименования в ценниках с товаром. Наименование товаров всегда строится по определённому формату, который будет понятен покупателю.
  • Недостаточно создать эталонную запись из похожих товаров. Необходимо, чтобы товар обладал всеми ключевыми атрибутами, которые свойственны в его товарной категории.
  • В наименованиях могут быть опечатки. Будет хорошо, если они будут обработаны.

О конкурсе

Эта задача дается в рамках конкурса ICS Summer Labs 2023.