К концу 2022 года достигли желаемой цели по покрытию карточек компаний витринами — их стало больше полумиллиона. А по итогам января в 2ГИС можно узнать цены у 525 000 организаций — это 12% от всего справочника. Расскажем, почему это круто, как росли и победили.
Чтобы лучше представлять масштаб цифры — 500 тыс. организаций с витриной, — сравним её с количеством бизнесов в городах-миллиониках. Так, например, в Москве всего 401 тысяча организаций, в Санкт-Петербурге — 155 тысяч, а в Новосибирске — 81 тысяча. Чувствуете масштаб?
Наши усилия по росту покрытия не остались незамеченными. В отличии от товарного поиска, таб «Цены» оценило гораздо большее число пользователей. 14% посетителей карточки переходят в витрину, а аудитория продукта суммарно на трёх платформах — iOS, Android и онлайн-версия — превысила 5 млн. Это 8% от всей аудитории 2ГИС.
Самым наглядным результатом нашего труда служит статистика — а какой процент открываемых пользователями карточек содержит цены? Мы круто преуспели в еде, красоте и туризме — при поиске таких фирм почти каждая вторая карточка содержит цены. А вот в остальных рубриках еще стоит приложить усилия.
Как победили
Витрина родилась в 2020 году и позволила рассказывать о своём ассортименте практически каждой компании. Для этого мы создали отдельный таб в карточке — «Цены», а в Личном кабинете — интерфейс для работы с товарами и прайс-листами.
Видя хороший интерес аудитории, в своей стратегии до 2023 года мы задались целью собрать 500 тыс. витрин. Оптимистично верили, что справимся с целью за год. Что из этого получилось — читайте дальше.
1️⃣ Партнёрские источники
В первую очередь, мы сделали ставку на добавление витрин через Личный кабинет компаний, а также на интеграцию с крупными сервисами, у которых уже есть актуальная информация об ассортименте и ценах разных организаций. В течение года мы научились получать данные от Delivery Club, YClients, Booking, СберЗдоровье и СберМегаМаркет.
Михаил Мельников
продакт Маркета, Отелло и много чего ещё
Интеграция с крупными сервисами позволила нам стремительно нарастить покрытие в топовых рубриках «Поесть», «Красота», «Гостиницы» и предоставить пользователям 2ГИС доступ к актуальным витринам популярных фирм города.
Благодаря перечисленным интеграциям 2021 год мы провожали с отметкой в 250 тыс. витрин — в 2 раза меньше желанной цифры. Год был непростым, но полезным на выводы. Мы поняли, что нужно искать иные способы получать цены от компаний, и желательно — не отвлекая на это бизнес.
2️⃣ Парсинг вглубь
2022 год начался с амбициозной цели — добыть еще 250 тыс. витрин. Это означало, что нам нужно удвоить свою скорость — получить то же количество контента за год вместо двух. Самым масштабируемым источником нам виделся парсинг сайтов компаний — ведь многие из них уже содержат товары и услуги. Помимо этого, парсинг позволяет следить за актуальностью ассортимента и цен — то, что нам нужно.
Игорь Яцевич
экс-лид команды Маркет, сейчас — лид Отелло
Самыми сложными были первые шаги и исследования. Мы проводили много экспериментов по извлечению товаров с сайтов на ограниченной выборке фирм. Это позволило на раннем этапе вскрыть и обработать критичные риски — хватит ли нам аппаратных ресурсов? Устроит ли качество данных? Реально ли проверить собранные данные силами отдела контента? В результате, мы нашли компромиссы, улучшили алгоритмы и получили план на год по приросту витрин от парсинга. И вместе с ним — список необходимых для нас доработок. Дальше — проще. Главное — держать руку на пульсе и проверять, все ли идёт по плану и вовремя адаптироваться под изменения.
Первые значимые результаты работы получили уже в апреле — на бою оказалось сразу 44 тыс. витрин за месяц. Это был абсолютный рекорд месячного прироста.
Каждый следующий месяц давался тяжелее предыдущего, ведь наш потенциал в новые витрины уменьшался, и алгоритму приходилось учиться извлекать товары там, где раньше не получалось.
Олег Ануфриев
разработчик в Data Science
Постоянных задач по качеству было две: найти, где на сайте есть товары, и извлечь товары страницы. Проверяли гипотезы, искали закономерности. Где-то удавалось вычленять информацию благодаря css-классам: например, description или price. Но не всегда: на других примерах приходилось искать фразы и классифицировать их — товар это или нет, а рядом искать цены. Это требовало обучения классификатора, подготовки данных для него и зависело от тематики: если обучаться на еде, с автозапчастями могут быть проблемы. Не пытайтесь употреблять гайки! Весь парсинг — это эксперимент и попытка найти логику, когда материал слишком разный и кастомизированный по-своему.
3️⃣ Новые рубрики
Благодаря накопленному опыту в парсинге и модерации у нас появилась хорошая экспертиза в ряде рубрик. Это помогало в расстановке приоритетов и обеспечивало ежемесячный прирост витрин в нужном объёме. К концу года, мы исчерпали рубрики с хорошим качеством данных и внушительным вниманием пользователей. Нам предстояло промодерировать небольшое количество фирм в рубриках с приоритетом ниже — и по вниманию пользователей, и по качеству.
Андрей Кожевников
контент-лид Маркета
Сложности добавляло то, что при бо́льших усилиях в процессе модерации нам нельзя сбавлять темпы прироста. Мы быстро поняли, где можем потратить наименьшие усилия и принести больше пользы. Спустя несколько экспериментов и чётко определив приоритеты, добавили в 2ГИС довольно уникальные витрины. Например, стоимость услуг в студиях звукозаписи, дизайне рекламы или бухгалтерских услуг для бизнеса.
4️⃣ UGC — контент от людей
Помимо парсинга в 2022 году мы нашли лучшего партнёра для получения данных о ценах. Это — наши любимые пользователи 2ГИС :heart: В июне появилась возможность загрузить фотографии в любимые заведения — кофейню, салон красоты или автомойку у дома.
С момента релиза фичи, пользователи загрузили цены в 18 тыс. карточек фирм. Это в 2 раза больше самого крупного партнёрского источника! Ещё 16 тыс. фотографий мы нашли среди уже загруженного в 2ГИС контента.
Что дальше
Конечно, на росте покрытия наши планы не заканчиваются. Предстоит ещё много работы над качеством и актуальностью. А наша мечта — чтобы каждая открытая пользователем карточка была с актуальными ценами.