Привет! Мы создали расширение для бесплатного сбора данных с сайтов. Сейчас расскажу, зачем и для кого.
Мы – компания «iDatica». Занимаемся коммерческим сбором данных и мониторингом цен. Данные собираем, что называется, в «промышленных масштабах» – миллионы значений, парсинг приложений и динамическое содержимое, прокси, постобработка, обход капчи, мониторинг качества, бэкапы... Вот это вот все. Для таких задач нет универсального инструмента, а нестандартные требования = кастомная разработка.
Но к нам обращаются и некрупные заказчики, основная задача которых – разовый парсинг какого-либо каталога или даже определенной категории на сайте. На такие работы тратится время, а стоимость не всегда оправдывает затраты, потому мы и сделали расширение, чтобы такие задачи можно было решать самостоятельно и бесплатно.
Может появиться вопрос: «Зачем же делать парсер, если расширения с похожим функционалом уже есть?». Потому что не удалось найти расширение, которое бы решало описанные задачи и было более-менее универсальным.
Часть рассмотренных нами расширений работает в режиме «без кода», т.е. само ищет повторяющиеся блоки данных на странице. Как только попадается сложный сайт – данные «едут» или расширение уходит в цикл поиска значений, из которого не возвращается. Часть расширений предоставляет минимальный функционал, а за большую функциональность или сбор данных нужно платить (об этом вы можете узнать уже после регистрации). Некоторые из них слишком сложны или интерфейс представлен только на китайском языке (бесспорно, для кого-то это будет плюсом).
Функциональные возможности расширения для парсинга
В нашем расширении нет ракетных технологий – приложение с простым интерфейсом, ручными настройками и возможностью сохранять/загружать шаблоны.
Для поиска данных используется XPath-запрос или CSS-селектор. С одной стороны, нужно уметь прописывать путь к элементу, с другой – вы получаете возможность «ручного управления» (можно самостоятельно выбрать, какие данные следует получать). Пусть вас не пугают XPath и CSS – если вы с ними не знакомы, у нас есть статья, которая на примерах научит базово использовать эти инструменты.
Список возможностей расширения:
- парсинг каталогов с пагинацией (автоматизируется нажатием на кнопку «Далее»);
- парсинг своего набора ссылок;
- возможность ограничить сбор данных в нужной части страницы (этот же функционал задает повторяющиеся блоки карточек товара при парсинге интернет-магазинов);
- возможность задать задержку между переходом на следующую страницу (избегаем блокировки, но увеличиваем время парсинга);
- автоматический поиск XPath- и CSS-селекторов до нужного элемента;
- предпросмотр – визуально находит на странице элемент;
- предпросмотр – какие данные на странице собирает написанный запрос и их общее количество;
- загрузка и сохранение шаблонов (на нашем сайте можно скачать несколько готовых);
- экспорт данных в CSV и JSON;
- лог всего происходящего.
Будем рады пожеланиям и критике.
*****************************************
Комментарии