Как правильно защищать свой сайт от парсинга данных

Парсинг сайта, это извлечение данных с помощью программных средств. Собирают статьи сайта, цены, если это интернет-магазин, сведения (описания) товаров и любую другую информацию. Затем эти данные используют на других площадках, то есть парсинг – банальное воровство контента. Защита от парсинга, по сути, заключается в том, чтобы затруднить или сдалать невозможным получение данных скриптами (парсерами), без нарушения доступа к своему сайту обычным пользователям (реальным живым людям), а также роботам поисковых систем.

Как узнать, парсят ли сайт

Для того, чтобы обнаружить парсинг, нужно регулярно отслеживать логи, статистику. Впрочем, это следует делать всегда, ведь сайт — не статичная картинка. Если обнаружилась подозрительная активность, то немедленно нужно ограничивать доступ. Много запросов однотипных с одного или похожих IP (с одной подсетки). Такие сразу блокировать.

Можно ограничить всем, и живым пользователям, и скриптам, выполнение действий за минуту, секунду и так далее. Сделал два-три поисковых запроса в течение секунды, всё, отдыхай некоторое время. Это сильно замедляет парсеры, и их работа становится не очень выгодной. Также может помочь капча, но только нужно ставить более дружественные варианты, чтобы это не казалось наглостью и проблемой для просмотра сайта реальным пользователям.

Для выявления парсеров можно использовать много других способов, к примеру, с какой скоростью заполняется форма, если слишком быстро – парсер, можно собирать скриптом JavaScript данные компьютера пользователя: не запрещено смотреть часовой пояс, скрипт выдаёт также размер экрана, его разрешение, что за шрифты в системе, User-Agent. Хорошо перед просмотром сайта просить авторизоваться (учётная запись). Но сделать авторизацию очень простую, чтобы не отпугнуть пользователей.

Придётся защищаться от регеров при этом. Здесь нужно проверять адрес почти (подтверждение), один адрес – одна учётка. Если из-за ограничений скрип блокируется, то информацию, за что, не давать. То есть не сообщать парсеру, что вызвало блокировку, иначе его перенатроят. Просто выдавать дружественный тект, типа – что-то случилось, обратитесь в поддержку. Это будет лучше и для живых пользователей. Можно блокировку заменить капчой.

И время от времени меняйте на своём сайте HTML-код, его структуру. Каждый раз подбирать настройки парсера будет невыгодно, и сайт сотрут из базы.


Поделись мнением о статье "Как правильно защищать свой сайт от парсинга данных", предложи свой вариант в комментариях! Спасибо!


Добавить комментарий

Ваш e-mail не будет опубликован.